Themenmodell
Im Statistiken und Verarbeitung natürlicher Sprache, a Themenmodell ist eine Art von Art von Statistisches Modell zum Entdecken der abstrakten "Themen", die in einer Sammlung von Dokumenten auftreten. Die Themenmodellierung ist ein häufig verwendetes Text-Mining-Tool zur Entdeckung versteckter semantischer Strukturen in einem Textkörper. Angesichts der Tatsache, dass es sich bei einem Dokument um ein bestimmtes Thema handelt, würde man erwarten, dass bestimmte Wörter im Dokument mehr oder weniger häufig erscheinen: "Hund" und "Knochen" erscheinen häufiger in Dokumenten über Hunde, "Katze" und "Meow". Wird in Dokumenten über Katzen erscheinen, und "Das" und "Is" wird ungefähr gleich in beiden gleichermaßen erscheinen. Ein Dokument betrifft in der Regel mehrere Themen in verschiedenen Proportionen. In einem Dokument, das 10% über Katzen und 90% über Hunde beträgt, geben es wahrscheinlich ungefähr 9 -mal mehr Hundwörter als Katzenwörter. Die "Themen", die durch Themenmodellierungstechniken erzeugt werden, sind Cluster ähnlicher Wörter. Ein Themenmodell erfasst diese Intuition in einem mathematischen Framework, mit dem die Untersuchung einer Reihe von Dokumenten und das Erkennen der Statistiken der Wörter in den einzelnen Wörtern ermöglicht werden können, was die Themen sein könnten und was die Themen des einzelnen Dokuments für die Themen jedes Dokuments sind.
Themenmodelle werden auch als probabilistische Themenmodelle bezeichnet, die sich auf statistische Algorithmen für die Entdeckung der latenten semantischen Strukturen eines umfangreichen Textkörpers beziehen. Im Zeitalter der Informationen geht die Menge des schriftlichen Materials, dem wir jeden Tag begegnen, einfach außerhalb unserer Verarbeitungskapazität. Themenmodelle können dazu beitragen, dass wir große Sammlungen unstrukturierter Textkörper verstehen. Ursprünglich als Textbergintern entwickelt, wurden Themenmodelle verwendet, um lehrreiche Strukturen in Daten wie genetische Informationen, Bilder und Netzwerke zu erkennen. Sie haben auch Anwendungen in anderen Bereichen wie z. Bioinformatik[1] und Computer Vision.[2]
Geschichte
Ein frühes Themenmodell wurde 1998 von Papadimitriou, Raghavan, Tamaki und Vempala beschrieben.[3] Ein anderer, genannt Probabilistische latente semantische Analyse (PLSA) wurde 1999 von Thomas Hofmann geschaffen.[4] Latent Dirichlet Allocation (LDA), das möglicherweise am häufigsten verwendete Themenmodell, ist eine Verallgemeinerung von PLSA. Entwickelt von David Blei, Andrew Ng, und Michael I. Jordan Im Jahr 2002 führt LDA spärlich ein Vorherige Verteilungen von Dirichlet Über Dokument-topische und Themen-Wort-Verteilungen, codieren die Intuition, die Dokumente über eine kleine Anzahl von Themen abdecken, und dass Themen häufig eine kleine Anzahl von Wörtern verwenden.[5] Andere Themenmodelle sind im Allgemeinen Erweiterungen zu LDA, wie z. Pachinko -Allokation, was die LDA verbessert, indem Korrelationen zwischen Themen zusätzlich zu den Wortkorrelationen modelliert werden, die Themen darstellen. Hierarchische latente Baumanalyse (HLTA) ist eine Alternative zu LDA, die das Wortspiel mit einem Baum mit einem Baum latenter Variablen und den Zuständen der latenten Variablen, die weiche Dokumente entsprechen, als Themen interpretiert werden.
Themenmodelle für Kontextinformationen
Zu den Ansätzen für zeitliche Informationen gehören Block und Newmans Bestimmung der zeitlichen Dynamik von Themen in der Pennsylvania Gazette im Jahr 1728–1800. Griffiths & Steyvers verwendete Themenmodellierung auf Abstracts aus dem Journal PNAs Themen zu identifizieren, die von 1991 bis 2001 an Popularität erhoben wurden, während Lamba & Madhusushan [7] Gebrauchte Themenmodellierung auf Volltext-Forschungsartikeln, die aus dem DJLit Journal von 1981–2018 abgerufen wurden. Im Bereich der Bibliotheks- und Informationswissenschaft, Lamba & Madhusudhan [8] [9] [10] [11] Angewandte Themenmodellierung auf verschiedenen indischen Ressourcen wie Journalartikeln und elektronischen Thesen und Ressourcen (ETDs). Nelson [12] hat Veränderungen der Themen im Laufe der Zeit in der analysiert Richmond Times-Dispatch Soziale und politische Veränderungen und Kontinuitäten in Richmond während der zu verstehen Amerikanischer Bürgerkrieg. Yang, Torget und Mihalcea angewandten Themenmodellierungsmethoden für Zeitungen von 1829 bis 2008. MIMNO verwendete Themenmodellierung mit 24 Zeitschriften über klassische Philologie und Archäologie, die sich 150 Jahre lang erstreckt, um zu untersuchen, wie sich die Themen in den Zeitschriften im Laufe der Zeit ändern und wie die Zeitschriften im Laufe der Zeit unterschiedlicher oder ähnlicher werden.
Yin et al.[13] führte ein Themenmodell für geografisch verteilte Dokumente ein, in dem Dokumentpositionen durch latente Regionen erläutert werden, die während der Inferenz erkannt werden.
Chang und Blei[14] Einbezogene Netzwerkinformationen zwischen verknüpften Dokumenten im relationalen Themenmodell, um die Links zwischen Websites zu modellieren.
Das Autor-topische Modell von Rosen-Zvi et al.[15] modelliert die Themen, die mit Autoren von Dokumenten verbunden sind, um die Themenerkennung für Dokumente mit Autoreninformationen zu verbessern.
HLTA wurde auf eine Sammlung neuer Forschungsarbeiten angewendet, die an wichtigen Veranstaltungsorten der KI und maschinellen Lernen veröffentlicht wurden. Das resultierende Modell heißt Der KI -Baum. Die resultierenden Themen werden verwendet, um die Papiere bei zu indizieren aipano.cse.ust.hk Forschern zu helfen Verfolgen Sie die Forschungstrends und identifizieren Sie Papiere zum Lesenund helfen Konferenzorganisatoren und Journalredakteuren Identifizieren Sie Gutachter für Einsendungen.
Algorithmen
In der Praxis versuchen Forscher, angemessene Modellparameter in das Data Corpus zu passen, indem sie eine von mehreren Heuristiken zur maximalen Wahrscheinlichkeit passt. Eine aktuelle Umfrage von Blei beschreibt diese Suite von Algorithmen.[16] Mehrere Forschergruppen beginnend mit Papadimitriou et al.[3] haben versucht, Algorithmen mit wahrscheinlichen Garantien zu entwerfen. Unter der Annahme, dass die Daten tatsächlich vom fraglichen Modell generiert wurden, versuchen sie, Algorithmen zu entwerfen, die wahrscheinlich das Modell finden, mit dem die Daten erstellt wurden. Zu den hier verwendeten Techniken gehören Einzelwertzerlegung (SVD) und die Momente Methode. 2012 ein Algorithmus basiert auf Nicht negative Matrixfaktorisierung (NMF) wurde eingeführt, das sich auch auf Themenmodelle mit Korrelationen zwischen Themen verallgemeinert.[17]
Im Jahr 2018 wurde ein neuer Ansatz zu Themenmodellen vorgeschlagen: Es basiert auf Stochastisches Blockmodell[18]
Themenmodelle für quantitative Biomedizin
Themenmodelle werden auch in anderen Kontexten verwendet. Beispiele für Beispiele von Themenmodellen in der Biologie- und Bioinformatikforschung.[19] Kürzlich wurden Themenmodelle verwendet, um Informationen aus dem Datensatz der Genomproben von Krebserkrankungen zu extrahieren.[20] In diesem Fall sind Themen biologische latente Variablen, die abgeleitet werden müssen.
Siehe auch
- Explizite semantische Analyse
- Latente semantische Analyse
- Latent Dirichlet Allocation
- Hierarchischer Dirichlet -Prozess
- Nicht negative Matrixfaktorisierung
- Statistische Klassifizierung
- Unbeaufsichtigtes Lernen
- Mallet (Softwareprojekt)
- Gensim
Verweise
- ^ Blei, David (April 2012). "Probabilistische Themenmodelle". Kommunikation der ACM. 55 (4): 77–84. doi:10.1145/2133806.2133826. S2CID 753304.
- ^ Cao, Liangliang und Li Fei-Fei. "Räumlich kohärentes latentes Themenmodell für die gleichzeitige Segmentierung und Klassifizierung von Objekten und Szenen. "2007 IEEE 11. Internationale Konferenz über Computer Vision. IEEE, 2007.
- ^ a b Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). "Latente semantische Indexierung: Eine probabilistische Analyse" (PostScript). Verfahren von ACM -Pods: 159–168. doi:10.1145/275487.275505. ISBN 978-0897919968. S2CID 1479546.
- ^ Hofmann, Thomas (1999). "Probabilistische latente semantische Indexierung" (PDF). Proceedings der zweiundzwanzigsten jährlichen internationalen Sigir-Konferenz für Forschung und Entwicklung beim Abrufen von Information. Archiviert von das Original (PDF) Am 2010-12-14.
- ^ Bleii, David M.; Ng, Andrew Y.; Jordan, Michael I.; Lafferty, John (Januar 2003). "Latent Dirichlet Allocation". Journal of Machine Learning Research. 3: 993–1022. doi:10.1162/jmlr.2003.3.4-5.993.
- ^ http://topicmodels.west.uni-kobenz.de/ckling/tmt/svd_ap.html
- ^ Lamba, Manika Jun (2019). "Zuordnung von Themen im Desidoc Journal of Library and Information Technology, Indien: Eine Studie". Scientometrics. 120 (2): 477–505. doi:10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
- ^ Lamba, Manika Jun (2019). "Zuordnung von Themen im Desidoc Journal of Library and Information Technology, Indien: Eine Studie". Scientometrics. 120 (2): 477–505. doi:10.1007/s11192-019-03137-5. ISSN 0138-9130. S2CID 174802673.
- ^ Lamba, Manika Jun (2019). "Metadaten-Tagging und Vorhersagemodellierung: Fallstudie des Desidoc Journal of Library and Information Technology (2008-2017)". Welt digitale Bibliotheken. 12: 33–89. doi:10.18329/09757597/2019/12103 (Inaktiv 31. Juli 2022). ISSN 0975-7597.
{{}}
: CS1 Wartung: doi inaktiv im Juli 2022 (Link) - ^ Lamba, Manika May (2019). "Autor-topische Modellierung des Desidoc Journal of Library and Information Technology (2008-2017), Indien". Bibliotheksphilosophie und Praxis.
- ^ Lamba, Manika Sep (2018). Metadaten-Markierung von Bibliotheks- und Informationswissenschaft Thesen: Shodhganga (2013-2017) (PDF). ETD2018: Über die Grenzen von Felgen und Ozeanen hinaus. Taiwan, Taipei.
- ^ Nelson, Rob. "Abbau des Versandes". Bergbau des Versandes. Digital Stipendienlabor, Universität Richmond. Abgerufen 26. März 2021.
- ^ Yin, Zhijun (2011). "Geografische Themenentdeckung und Vergleich". Verfahren der 20. Internationalen Konferenz über World Wide Web: 247–256. doi:10.1145/1963405.1963443. ISBN 9781450306324. S2CID 17883132.
- ^ Chang, Jonathan (2009). "Relationale Themenmodelle für Dokumentnetzwerke" (PDF). Aistats. 9: 81–88.
- ^ Rosen-Zvi, Michal (2004). "Das Autor-topische Modell für Autoren und Dokumente". Verfahren der 20. Konferenz über Unsicherheit in der künstlichen Intelligenz: 487–494. Arxiv:1207.4169.
- ^ Bleii, David M. (April 2012). "Einführung in probabilistische Themenmodelle" (PDF). Comm. ACM. 55 (4): 77–84. doi:10.1145/2133806.2133826. S2CID 753304.
- ^ Sanjeev Arora; Rong GE; Ankur Moitra (April 2012). "Lernsthemenmodelle - jenseits von SVD". Arxiv:1204.1956 [cs.lg].
- ^ Martin Gerlach; Tiago Pexioto; Eduardo Altmann (2018). "Ein Netzwerkansatz für Themenmodelle". Wissenschaft Fortschritte. 4 (7): EAAQ1360. Arxiv:1708.01677. Bibcode:2018SCIA .... 4.1360G. doi:10.1126/sciadv.aaq1360. PMC 6051742. PMID 30035215.
- ^ Liu, L.; Tang, L.; et al. (2016). "Ein Überblick über die Themenmodellierung und ihre aktuellen Anwendungen in Bioinformatik". Springerplus. 5 (1): 1608. doi:10.1186/s40064-016-3252-8. PMC 5028368. PMID 27652181. S2CID 16712827.
- ^ Valle, F.; Osella, M.; Caselle, M. (2020). "Eine Themenmodellierungsanalyse von Transkriptomdaten von TCGA -Brust- und Lungenkrebs". Krebsarten. 12 (12): 3799. doi:10.3390/Cancer12123799. PMC 7766023. PMID 33339347. S2CID 229325007.
Weitere Lektüre
- Steyvers, Mark; Griffiths, Tom (2007). "Probabilistische Themenmodelle". In Landauer, T.; McNamara, D; Dennis, S.; et al. (Hrsg.). Handbuch der latenten semantischen Analyse (PDF). Psychologiepresse. ISBN 978-0-8058-5418-3. Archiviert von das Original (PDF) Am 2013-06-24.
- Bleii, D.M.; Lafferty, J. D. (2009). "Themenmodelle" (PDF).
- Bleii, D.; Lafferty, J. (2007). "Ein korreliertes Themamodell von Wissenschaft". Annalen der angewandten Statistiken. 1 (1): 17–35. Arxiv:0708.3601. doi:10.1214/07-AOAS114. S2CID 8872108.
- Mimno, D. (April 2012). "Computational Historiography: Data Mining in einem Jahrhundert der Klassikzeitschriften" (PDF). Journal über Computer- und Kulturerbe. 5 (1): 1–19. doi:10.1145/2160165.2160168. S2CID 12153151.
- Marwick, Ben (2013). "Entdeckung aufstrebender Themen und Kontroversen in der Anthropologie mithilfe von Textmining, Themenmodellierung und Analyse des sozialen Netzwerks von Microblog -Inhalten". In Yanchang, Zhao; Yonghua, Cen (Hrsg.). Data Mining -Anwendungen mit r. Elsevier. S. 63–93.
- Jockers, M. 2010 Wer ist dein DH-Blog-Kumpel: Match-Making am Tag der DH-Blogger mit Themenmodellierung Matthew L. Jockers, veröffentlicht am 19. März 2010
- Drouin, J. 2011 Einstieg in das Thema "Themenmodellierung"[Permanent Dead Link] Kirchliches Proustarchiv. Gepostet am 17. März 2011
- Templeton, C. 2011 Themenmodellierung in den Geisteswissenschaften: Ein Überblick Maryland Institute for Technology in the Humanities Blog. Gepostet 1. August 2011
- Griffiths, T.; Steyvers, M. (2004). "Wissenschaftliche Themen finden". Verfahren der National Academy of Sciences. 101 (Suppl 1): 5228–35. Bibcode:2004pnas..101.5228g. doi:10.1073/pnas.0307752101. PMC 387300. PMID 14872004.
- Yang, T., A Torget und R. Mihalcea (2011) Themenmodellierung in historischen Zeitungen. Verfahren des 5. ACL-HLT-Workshops für Sprachtechnologie für kulturelles Erbe, Sozialwissenschaften und Geisteswissenschaften. Der Verein für Computer -Linguistik, Madison, WI. Seiten 96–104.
- Block, S. (Januar 2006). "Mehr mit Digitalisierung tun: Eine Einführung in die Themenmodellierung früher amerikanischer Quellen". Common-Place Das interaktive Journal of Early American Life. 6 (2).
- Newman, D.; Block, S. (März 2006). "Probabilistische Thema Zerlegung einer Zeitung aus dem 18. Jahrhundert" (PDF). Zeitschrift der American Society for Information Science und Technologie. 57 (5): 753–767. doi:10.1002/ASI.20342.
Externe Links
- Mimno, David. "Themenmodellierung Bibliographie".
- Brett, Megan R. "Themenmodellierung: Eine grundlegende Einführung". Journal of Digital Humanities.
- Themenmodelle, die auf Online -Nachrichten und Bewertungen angewendet werden Video einer Google Tech Talk -Präsentation von Alice OH zu Themenmodellierung mit LDA
- Modellierung Wissenschaft: Dynamische Themenmodelle der wissenschaftlichen Forschung Video einer Google Tech Talk -Präsentation von David M. Blei
- Automatisierte Themenmodelle in der Politikwissenschaft Video einer Präsentation von Brandon Stewart am Tools für Text Workshop, 14. Juni 2010
- Shawn Graham, Ian Milligan und Scott Weingart "Erste Schritte mit Themenmodellierung und Schläger". Der Programmierhistoriker. Archiviert von das Original Am 2014-08-28. Abgerufen 2014-05-29.
- Bleii, David M. "Einführungsmaterial und Software"
- Code, Demo - Beispiel für die Verwendung von LDA für Themenmodellierung