Textabbau

Textabbau, auch bezeichnet als Textdatenabbau, ähnlich zu Textanalyse, ist der Prozess der Ableitung von hoher Qualität Information aus Text. Es beinhaltet "die Entdeckung durch den Computer neuer, bisher unbekannter Informationen, indem automatisch Informationen aus verschiedenen schriftlichen Ressourcen extrahiert werden".[1] Schriftliche Ressourcen können umfassen Websites, Bücher, E -Mails, Bewertungenund Artikel. Hochwertige Informationen werden typischerweise durch Entwickeln von Mustern und Trends mit Mitteln erhalten Statistisches Musterlernen. Laut Hotho et al. (2005) können wir zwischen drei verschiedenen Perspektiven des Textabbaus unterscheiden: Informationsextraktion, Data Mining, und ein KDD (Wissenserfassung in Datenbanken) Prozess.[2] Der Textmining beinhaltet normalerweise den Prozess der Strukturierung des Eingabetxtes (normalerweise analysiert, zusammen mit der Zugabe einiger abgeleiteter linguistischer Merkmale und der Entfernung anderer sowie der anschließenden Einführung in a a Datenbank), Ableitungen von Mustern innerhalb der Strukturierte Datenund schließlich Bewertung und Interpretation der Ausgabe. "Hohe Qualität" im Textabbau bezieht sich normalerweise auf eine Kombination von Relevanz, Neuheit, und Interesse. Typische Textabbauaufgaben umfassen Textkategorisierung, Textclustering, Konzept/Entitätsextraktion, Produktion von körnigen Taxonomien, Stimmungsanalyse, Zusammenfassung der Dokumenteund Entitätsbeziehungsmodellierung (d.h., Lernbeziehungen zwischen genannte Entitäten).

Textanalyse beinhaltet Informationsrückgewinnung, lexikalische Analyse Worthäufigkeitsverteilungen zu studieren, Mustererkennung, Tagging/Anmerkung, Informationsextraktion, Data Mining Techniken einschließlich Link- und Assoziationsanalyse, Visualisierung, und Prädiktive Analytics. Das übergeordnete Ziel besteht im Wesentlichen darin, Text in Daten zur Analyse durch Anwendung von zu verwandeln Verarbeitung natürlicher Sprache (NLP), verschiedene Arten von Algorithmen und analytische Methoden. Eine wichtige Phase dieses Prozesses ist die Interpretation der gesammelten Informationen.

Eine typische Anwendung besteht darin, eine Reihe von Dokumenten zu scannen, die in a geschrieben wurden Natürliche Sprache und entweder modellieren die dokumentieren SET für Vorhersageklassifizierung Zwecke oder füllen Sie einen Datenbank- oder Suchindex mit den extrahierten Informationen aus. Das dokumentieren ist das Grundelement, wenn Sie mit dem Textabbau beginnen. Hier definieren wir ein Dokument als eine Einheit von Textdaten, die normalerweise in vielen Arten von Sammlungen vorhanden ist.[3]

Textanalyse

Der Begriff Textanalyse beschreibt einen Satz von sprachlich, statistisch, und maschinelles Lernen Techniken, die den Informationsgehalt von Textquellen für den Informationsgehalt für Text modellieren und strukturieren Business Intelligence, Explorationsdatenanalyse, Forschung, oder Untersuchung.[4] Der Begriff ist ungefähr gleichbedeutend mit Textminen; In der Tat modifizierte Ronen Feldman eine Beschreibung von "Text Mining" von 2000 "2000".[5] im Jahr 2004, um "Textanalyse" zu beschreiben.[6] Der letztere Begriff wird jetzt häufiger in den Geschäftseinstellungen verwendet, während "Textmining" in einigen der frühesten Anwendungsbereiche verwendet wird, die bis in die 1980er Jahre ausgehen,[7] insbesondere Forschung und staatliche Geheimdienste.

Der Begriff Textanalyse beschreibt auch, dass die Anwendung von Textanalysen auf Geschäftsprobleme unabhängig oder in Verbindung mit Abfrage und Analyse von Felddaten reagiert. Es ist eine Binsenweisheit, dass 80 Prozent der geschäftsrelevanten Informationen stammen unstrukturiert Form, in erster Linie Text.[8] Diese Techniken und Prozesse entdecken und präsentieren Wissen - Fakten, Geschäftsregelnund Beziehungen - das ist ansonsten in Textform gesperrt, undurchdringlich für die automatisierte Verarbeitung.

Textanalyseprozesse

Unteraufgaben-Komponenten einer größeren Textanalytik-Anstrengung-umfassen typisch:

  • Dimensionsreduzierung ist eine wichtige Technik für die Vorverarbeitung von Daten. Die Technik wird verwendet, um das Stammwort für tatsächliche Wörter zu identifizieren und die Größe der Textdaten zu verringern.
  • Informationsrückgewinnung oder Identifizierung von a Korpus ist ein vorbereitender Schritt: Sammeln oder Identifizieren einer Reihe von Textmaterialien, im Web oder in einem Dateisystem, einer Datenbank oder in einem Inhalten Corpus Manager, zur Analyse.
  • Obwohl einige Textanalysesysteme ausschließlich fortgeschrittene statistische Methoden anwenden, wenden viele andere umfangreichere Verarbeitung natürlicher Sprache, wie zum Beispiel Teil des Sprachausschusses, syntaktisch Parsingund andere Arten der sprachlichen Analyse.[9]
  • Genannte Entitätserkennung Ist die Verwendung von Gazetteern oder statistischen Techniken zur Identifizierung benannter Textfunktionen: Personen, Organisationen, Ortsnamen, Stock -Ticker -Symbole, bestimmte Abkürzungen usw.
  • Disambiguierung - die Verwendung von Kontext Hinweise - Möglicherweise müssen entscheiden, wo sich "Ford" auf einen ehemaligen US -Präsidenten, einen Fahrzeughersteller, einen Filmstar, einen Flussübergang oder ein anderes Unternehmen beziehen kann.[10]
  • Erkennung von Muster identifizierten Entitäten: Merkmale wie Telefonnummern, E-Mail-Adressen, Mengen (mit Einheiten) können durch reguläre Ausdruck oder andere Musterübereinstimmungen erkannt werden.
  • Dokumentclustering: Identifizierung ähnlicher Textdokumente.[11]
  • Korreferenz: Identifizierung von Nomensätze und andere Begriffe, die sich auf dasselbe Objekt beziehen.
  • Beziehung, Fakt und Ereignisextraktion: Identifizierung von Assoziationen zwischen Entitäten und anderen Informationen im Text
  • Stimmungsanalyse beinhaltet das Erkennen von subjektivem (im Gegensatz zu sachlichem) Material und das Extrahieren verschiedener Formen von Einstellungsinformationen: Stimmung, Meinung, Stimmung und Emotionen. Textanalyse -Techniken sind hilfreich bei der Analyse der Stimmung auf der Ebene der Entität, des Konzepts oder der Themenebene sowie bei der Unterscheidung von Meinungsbesitzern und Meinungsobjekten.[12]
  • Quantitative Textanalyse ist eine Reihe von Techniken, die sich aus den Sozialwissenschaften ergeben, in denen entweder ein menschlicher Richter oder ein Computer semantische oder grammatikalische Beziehungen zwischen Wörtern extrahiert werden, um die Bedeutung oder stilistische Muster von normalerweise ein gelegentlicher persönlicher Text zum Zweck von zu finden Psychologische Profilerstellung usw.[13]
  • Die Vorverarbeitung beinhaltet normalerweise Aufgaben wie Tokenisierung, Filterung und Stamm.

Anwendungen

Die Textminen -Technologie wird jetzt weitgehend auf eine Vielzahl von Regierungs-, Forschungs- und Geschäftsbedürfnissen angewendet. Alle diese Gruppen können einen Textmining für Datensätze verwalten und Dokumente durchsuchen, die für ihre täglichen Aktivitäten relevant sind. Anwaltskräfte können einen Textabbau verwenden E-Discovery, zum Beispiel. Regierungen und Militärgruppen verwenden Textmining für nationale Sicherheit und Intelligenzzwecke. Wissenschaftliche Forscher integrieren Textmining -Ansätze in Bemühungen, große Sätze von Textdaten zu organisieren (d. H. Das Problem von unstrukturierte Daten), um Ideen zu bestimmen, die durch Text kommuniziert werden (z. B.,, Stimmungsanalyse in sozialen Medien[14][15][16]) und zu unterstützen wissenschaftliche Entdeckung in Feldern wie die Biowissenschaften und Bioinformatik. Im Geschäft werden Anwendungen verwendet, um sie zu unterstützen Wettbewerbsintelligenz und automatisiert Anzeigenplatzierungunter zahlreichen anderen Aktivitäten.

Sicherheitsanwendungen

Viele Textminen -Softwarepakete werden für vermarktet Sicherheitsanwendungeninsbesondere die Überwachung und Analyse von Online -Klartextquellen wie z. Internetnachrichten, Blogsusw. für nationale Sicherheit Zwecke.[17] Es ist auch an der Untersuchung des Textes beteiligt Verschlüsselung/Entschlüsselung.

Biomedizinische Anwendungen

A flowchart of a text mining protocol.
Ein Beispiel für ein Text-Mining-Protokoll, das in einer Untersuchung von Protein-Protein-Komplexen verwendet wird, oder Proteindocking.[18]

Eine Reihe von Textminenanwendungen in der biomedizinischen Literatur wurde beschrieben,[19] einschließlich rechnerischer Ansätze zur Unterstützung von Studien in Proteindocking,[20] Proteinwechselwirkungen,[21][22] und Proteinkrankheiten Assoziationen.[23] Darüber hinaus können Datensätze mit demografischen Informationen in Bevölkerungsstudien und unerwünschten Ereignisberichten mit großen Patienten -Textdatensätzen im klinischen Bereich klinische Studien und Präzisionsmedizin erleichtern. Textminingalgorithmen können die Schichtung und Indexierung spezifischer klinischer Ereignisse in großen Patienten mit Symptomen, Nebenwirkungen und Komorbiditäten aus elektronischen Gesundheitsakten, Ereignisberichten und Berichten aus bestimmten diagnostischen Tests erleichtern.[24] Eine Online -Anwendung für Textminen in der biomedizinischen Literatur ist Pubgene, eine öffentlich zugängliche Suchmaschine Dies kombiniert biomedizinisches Textmining mit Netzwerkvisualisierung.[25][26] Gopubmed ist eine wissensbasierte Suchmaschine für biomedizinische Texte. Textmining -Techniken ermöglichen es uns auch, unbekanntes Wissen aus unstrukturierten Dokumenten im klinischen Bereich zu extrahieren[27]

Softwareanwendungen

Textminenmethoden und Software werden auch von großen Unternehmen recherchiert und entwickelt, einschließlich IBM und Microsoft, um die Bergbau- und Analyseprozesse weiter zu automatisieren, sowie von verschiedenen Unternehmen, die im Bereich Such- und Indexierung im Allgemeinen arbeiten, um ihre Ergebnisse zu verbessern. Innerhalb des öffentlichen Sektors hat sich viel Mühe darauf konzentriert, Software für die Verfolgung und Überwachung zu erstellen Terroristenaktivitäten.[28] Für Studienzwecke, Weka -Software ist eine der beliebtesten Optionen in der wissenschaftlichen Welt und fungiert als hervorragender Einstiegspunkt für Anfänger. Für Python -Programmierer gibt es ein ausgezeichnetes Toolkit namens NLTK allgemeinere Zwecke. Für fortgeschrittenere Programmierer gibt es auch die Gensim Bibliothek, die sich auf Wortbetting-basierte Textdarstellungen konzentriert.

Online -Medienanwendungen

Textmining wird von großen Medienunternehmen wie der verwendet Tribune Company, um Informationen zu klären und den Lesern mehr Sucherlebnisse zu bieten, was wiederum die Site "Klebrigkeit" und Einnahmen erhöht. Darüber hinaus profitieren die Redakteure am Backend davon, Nachrichten über die Eigenschaften hinweg zu teilen, zu verknüpfen und zu paketen, was die Möglichkeiten zur Monetarisierung von Inhalten erheblich erhöht.

Geschäfts- und Marketinganwendungen

Textanalyse wird im Geschäft verwendet, insbesondere im Marketing, wie in Kundenbeziehungsmanagement.[29] Coussement und Van den Poel (2008)[30][31] Wenden Sie es an, um sich zu verbessern Prädiktive Analytics Modelle für Kundenabkleidung (Kundenabnutzung).[30] Der Textmining wird auch bei Vorhersage von Aktienrenditen angewendet.[32]

Stimmungsanalyse

Stimmungsanalyse kann eine Analyse von Filmkritiken beinhalten, um zu schätzen, wie günstig eine Rezension für einen Film ist.[33] Eine solche Analyse erfordert möglicherweise einen markierten Datensatz oder eine Kennzeichnung der Affektivität von Wörtern. Ressourcen für die Affektivität von Wörtern und Konzepten wurden erstellt Wordnet[34] und Conceptnet,[35] beziehungsweise.

Text wurde verwendet, um Emotionen im verwandten Bereich des affektiven Computing zu erkennen.[36] Textbasierte Ansätze für affektives Computing wurden für mehrere Korpora verwendet, wie z. B. Studentenbewertungen, Kindergeschichten und Nachrichten.

Wissenschaftliche Literaturabbau und akademische Anwendungen

Die Ausgabe des Textminens ist für Verlage, die groß sind, von Bedeutung Datenbanken von Informationen benötigen Indizierung zum Abrufen. Dies gilt insbesondere für wissenschaftliche Disziplinen, in denen häufig hochspezifische Informationen im geschriebenen Text enthalten sind. Daher wurden Initiativen ergriffen, wie z. Natur Vorschlag für eine offene Textabbauschnittstelle (OTMI) und die Nationales Gesundheitsinstitut's Common Journal Publishing Dokumenttypdefinition (DTD), die Maschinen semantische Hinweise liefern würden, um bestimmte Abfragen zu beantworten, die im Text enthalten sind, ohne Publisher -Hindernisse für den öffentlichen Zugang zu entfernen.

Akademische Institutionen haben sich auch in die Initiative der Textminen für die Textminen einbezogen:

Methoden für die wissenschaftliche Literaturabbau

Es wurden Computermethoden entwickelt, um das Informationsabruf aus der wissenschaftlichen Literatur zu unterstützen. Veröffentlichte Ansätze umfassen Methoden zum Suchen,[40] Neuheit bestimmen,[41] und Klärung Homonyme[42] unter technischen Berichten.

Digitale Geisteswissenschaften und Computersoziologie

Die automatische Analyse der riesigen Textkorpora hat Wissenschaftlern die Möglichkeit geschaffen, Millionen von Dokumenten in mehreren Sprachen mit sehr begrenzten manuellen Eingriffen zu analysieren. Schlüsselerkennungstechnologien waren analysiert, Maschinenübersetzung, Thema Kategorisierungund maschinelles Lernen.

Narratives Netzwerk von US -Wahlen 2012[43]

Die automatische Analyse der Textkorpora hat die Extraktion von Akteuren und ihrer relationalen Netzwerke in großem Maßstab ermöglicht und Textdaten in Netzwerkdaten verwandelt. Die resultierenden Netzwerke, die Tausende von Knoten enthalten können Knoten.[44] Dies automatisiert den Ansatz, der durch quantitative Erzählanalyse eingeführt wird.[45] wodurch Subjekt verb objekt Tripletts werden mit Akteurenpaaren identifiziert, die durch eine Aktion verknüpft sind, oder Paare, die vom Akteur-Objekt gebildet werden.[43]

Inhaltsanalyse ist seit langem ein traditioneller Teil der Sozialwissenschaften und Medienstudien. Die Automatisierung der Inhaltsanalyse hat eine "ermöglicht"Große Daten"Die Revolution findet in diesem Bereich statt, mit Studien in Social Media und Zeitungsinhalten, die Millionen von Nachrichten enthalten. Geschlechtsvoreingenommen, Lesbarkeit, Inhaltsähnlichkeit, Leserpräferenzen und sogar Stimmung wurden anhand von Textmining -Methoden über Millionen von Dokumenten analysiert.[46][47][48][49][50] Die Analyse der Lesbarkeit, der Geschlechterverzerrung und der Themenverzerrung wurde in Flaounas et al.[51] zeigen, wie unterschiedliche Themen unterschiedliche Geschlechterverzerrungen und Lesbarkeitsniveaus haben; Die Möglichkeit, Stimmungsmuster in einer riesigen Bevölkerung durch Analyse von Twitter -Inhalten zu erkennen, wurde ebenfalls demonstriert.[52][53]

Software

Textmining -Computerprogramme sind von vielen verfügbar kommerziell und Open Source Unternehmen und Quellen. Sehen Liste der Textminen -Software.

Urheberrechtsgesetz

Situation in Europa

Video von Copyright -Kampagne für Copyright -Kampagne zur Erklärung von TDM und seinen Urheberrechtsproblemen in der EU, 2016 [3:52

Unter Europäisches Urheberrecht und Datenbankgesetze, der Bergbau von Werken in den Copyright (wie beispielsweise von Webabbau) ohne die Erlaubnis des Urheberrechtsbesitzers ist illegal. In Großbritannien im Jahr 2014 änderte die Regierung auf Empfehlung der Hargreaves -Überprüfung das Urheberrechtsrecht[54] Textbergbau als Einschränkung und Ausnahme. Es war das zweite Land der Welt, dies zu tun, folgt zu Japan, was 2009 eine Mining-spezifische Ausnahme einführte, was jedoch aufgrund der Einschränkung der Information Society Directive (2001) ermöglicht die britische Ausnahme nur den Inhaltsmining für nichtkommerzielle Zwecke. Das britische Urheberrechtsgesetz erlaubt nicht, dass diese Bestimmung durch vertragliche Bedingungen überschrieben wird.

Das Europäische Kommission Erleichterte Stakeholder -Diskussion über Text und Data Mining 2013 unter dem Titel der Lizenzen für Europa.[55] Die Tatsache, dass die Fokussierung auf die Lösung dieses rechtlichen Problems Lizenzen und keine Einschränkungen und Ausnahmen des Urheberrechts waren, führten Vertreter von Universitäten, Forschern, Bibliotheken, zivilgesellschaftlichen Gruppen und Leitungen zur uneingeschränkter Zugang Verlage verlassen den Stakeholder -Dialog im Mai 2013.[56]

Situation in den Vereinigten Staaten

US -Urheberrechtund insbesondere seine faire Nutzung Bestimmungen bedeutet, dass der Textabbau in Amerika sowie andere Länder wie Israel, Taiwan und Südkorea als legal angesehen wird. Da der Textmining transformativ ist, was bedeutet, dass es die ursprüngliche Arbeit nicht erzeugt, wird es unter fairer Verwendung als rechtmäßig angesehen. Zum Beispiel als Teil der Google Book Abrechnung Der vorsitzende Richter in dem Fall entschied, dass das Digitalisierungsprojekt von Google von In-Copyright-Büchern rechtmäßig war, teilweise aufgrund der transformativen Verwendungszwecke, die das Digitalisierungsprojekt angezeigt hat-eine solche Verwendung als Text- und Data-Mining.[57]

Implikationen

Bis vor kurzem verwendeten Websites am häufigsten textbasierte Suchvorgänge, bei denen nur Dokumente mit bestimmten benutzerdefinierten Wörtern oder Phrasen gefunden wurden. Nun durch Verwendung von a Semantisches Web, Textmining kann Inhalte basierend auf Bedeutung und Kontext finden (und nicht nur durch ein bestimmtes Wort). Darüber hinaus kann eine SMS -Software für Textminen verwendet werden, um große Dossiers von Informationen über bestimmte Personen und Ereignisse zu erstellen. Beispielsweise können große Datensätze basierend auf Daten aus Nachrichtenberichten erstellt werden, um die Analyse der sozialen Netzwerke zu erleichtern oder Spionageabwehr. In der Tat kann die Textminen -Software in einer ähnlichen Eigenschaft einer einer ähnlich sein Intelligenzanalyst oder Forschungsbibliothekar, wenn auch mit einem begrenzteren Analyseumfang. Textmining wird auch in einigen E -Mails verwendet Spamfilter Um die Eigenschaften von Nachrichten zu bestimmen, die wahrscheinlich Werbung oder anderes unerwünschtes Material sind. Textmining spielt eine wichtige Rolle bei der Bestimmung der finanziellen Grundstimmung des Marktes.

Zukunft

Zunahme Zinsen werden an mehrsprachige Data Mining gezahlt: Die Fähigkeit, Informationen über Sprachen hinweg zu gewinnen und ähnliche Elemente aus verschiedenen sprachlichen Quellen nach ihrer Bedeutung zu erfassen.

Die Herausforderung, den großen Anteil an Unternehmensinformationen auszunutzen, die aus "unstrukturiertem" Form stammen, ist seit Jahrzehnten anerkannt.[58] Es ist in der frühesten Definition von erkannt Business Intelligence (Bi), in einem IBM Journal -Artikel von H.P. Luhn, ein Business Intelligence -System, das ein System beschreibt, das wird:

"... Verwenden Sie Datenverarbeitungsmaschinen für die automatische Abbindung und automatische Kodierung von Dokumenten und für die Erstellung von Interessenprofilen für jeden der" Aktionspunkte "in einer Organisation. Sowohl eingehende als auch intern generierte Dokumente werden automatisch abtrahiert, gekennzeichnet durch ein Wort Muster und automatisch an entsprechende Aktionspunkte gesendet. "

Während sich die Managementinformationssysteme ab den 1960er Jahren entwickelten und in den 80er und 90er Jahren als Softwarekategorie und Praxis des Praxis auftraten, lag der Schwerpunkt auf numerischen Daten, die in relationalen Datenbanken gespeichert waren. Dies ist nicht überraschend: Text in "unstrukturierten" Dokumenten ist schwer zu verarbeiten. Die Entstehung von Textanalysen in ihrer aktuellen Form beruht auf einer Neuausarbeitung der Forschung in den späten 1990er Jahren von der Algorithmusentwicklung zur Anwendung, wie von Prof. beschrieben. Marti A. Hearst In dem Papier entwirrende Textdatenabbau:[59]

Seit fast einem Jahrzehnt betrachtet die Computational Linguistics Community große Textsammlungen als Ressource, die abgebildet werden sollen, um bessere Textanalysemalgorithmen zu erstellen. In diesem Artikel habe ich versucht, einen neuen Schwerpunkt vorzuschlagen: die Verwendung großer Online -Textsammlungen, um neue Fakten und Trends über die Welt selbst zu entdecken. Ich schlage vor, dass wir, um Fortschritte zu erzielen, keine vollständig künstliche intelligente Textanalyse benötigen. Vielmehr kann eine Mischung aus rechnergesteuerter und benutzerdefinierter Analyse die Tür für aufregende neue Ergebnisse öffnen.

Hearsts Aussage von 1999 ist ziemlich gut die Technologie des Standes der Textanalyse beschreibt und ein Jahrzehnt später übt.

Siehe auch

Verweise

Zitate

  1. ^ "Marti Hearst: Was ist Text Mining?".
  2. ^ Hootho, A., Nürnberger, A. und Paaß, G. (2005). "Eine kurze Übersicht über Textmining". Im LDV -Forum, Vol. 20 (1), p. 19-62
  3. ^ Feldman, R. und Sanger, J. (2007). Das Text -Mining -Handbuch. Cambridge University Press. New York
  4. ^ [1] Archiviert 29. November 2009 bei der Wayback -Maschine
  5. ^ "KDD-2000 Workshop zum Textmining-Rufen Sie nach Papieren auf". Cs.cmu.edu. Abgerufen 2015-02-23.
  6. ^ [2] Archiviert 3. März 2012 bei der Wayback -Maschine
  7. ^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Zugang zur natürlichen Sprache zu strukturiertem Text". Proceedings der 9. Konferenz über die Computersprachlingistik. Vol. 1. S. 127–32. doi:10.3115/991813.991833. S2CID 6433117.
  8. ^ "Unstrukturierte Daten und die 80 -prozentige Regel". Durchbruchsanalyse. August 2008. Abgerufen 2015-02-23.
  9. ^ Antunes, João (2018-11-14). Exploração de informações contextuais para Enriquecimento semântico em Repräsentanta acções de textos (Mestado em ciências de computação e matemática computacional These) (in Portugiesisch). São Carlos: Universidade de São Paulo. doi:10.11606/d.55.2019.tde-03012019-103253.
  10. ^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (Dezember 2014). "Entitätsverbinden trifft die Disambiguation von Wort Sinn: ein einheitlicher Ansatz". Transaktionen des Assoziation für Computer -Linguistik. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
  11. ^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "Ein neu entwickeltes baumbasiertes Modell mit lokalem Neulern für Dokumente Clustering und Visualisierung". Neuronale Verarbeitungsbuchstaben. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
  12. ^ "Full Circle Sentiment Analysis". Durchbruchsanalyse. 2010-06-14. Abgerufen 2015-02-23.
  13. ^ Mehl, Matthias R. (2006). "Quantitative Textanalyse". Handbuch der Multimethod -Messung in der Psychologie. p. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
  14. ^ Pang, Bo; Lee, Lillian (2008). "Meinungsabbau und Stimmungsanalyse". Grundlagen und Trends beim Abrufen von Informationen. 2 (1–2): 1–135. Citeseerx 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669.
  15. ^ Paltoglou, Georgios; Thelwall, Mike (2012-09-01). "Twitter, MySpace, Digg: Unüberwachte Stimmungsanalyse in sozialen Medien". ACM -Transaktionen zu intelligenten Systemen und Technologie. 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
  16. ^ "Stimmungsanalyse in Twitter <Semeval-2017 Aufgabe 4". Alt.qcri.org. Abgerufen 2018-10-02.
  17. ^ Zanasi, Alessandro (2009). "Virtuelle Waffen für echte Kriege: Textmining für die nationale Sicherheit". Proceedings des Internationalen Workshops über Computer Intelligence in der Sicherheit für Informationssysteme cisis'08. Fortschritte im Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  18. ^ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). "Textmining für Proteindocken". PLoS Computational Biology. 11 (12): E1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. ISSN 1553-7358. PMC 4674139. PMID 26650466.
  19. ^ Cohen, K. Bretonnel; Hunter, Lawrence (2008). "Erste Schritte im Textabbau". PLoS Computational Biology. 4 (1): e20. Bibcode:2008PLSCB ... 4 ... 20c. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.
  20. ^ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "Textmining für Proteindocken". PLoS Computational Biology. 11 (12): E1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
  21. ^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein -Protein -Interaktionsvorhersagen unter Verwendung von Textminingmethoden". Methoden. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
  22. ^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Mailand; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (2016-10-18). "Die String-Datenbank im Jahr 2017: Qualitätskontrollierte Protein-Protein-Vereinsnetzwerke, die allgemein zugänglich gemacht wurden". Nukleinsäurenforschung. 45 (D1): D362 - D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
  23. ^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Pipei; Han, Jiawei (2018-10-01). "Phrasenabbau von Textdaten zur Analyse extrazellulärer Matrixproteinmuster bei kardiovaskulären Erkrankungen". American Journal of Physiology. Herz- und Kreislaufphysiologie. 315 (4): H910 - H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  24. ^ Van le, d; Montgomery, J; Kirkby, KC; Scanlan, J (10. August 2018). "Risikovorhersage unter Verwendung der natürlichen Sprachverarbeitung elektronischer psychischer Gesundheitsakten in einer stationären forensischen Psychiatrie -Umgebung". Journal of Biomedical Informatics. 86: 49–58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
  25. ^ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). "Ein Literaturnetz menschlicher Gene zur Hochdurchsatzanalyse der Genexpression". Naturgenetik. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
  26. ^ Masys, Daniel R. (2001). "Verknüpfung von Microarray -Daten mit der Literatur". Naturgenetik. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
  27. ^ Renganathan, Vinaitherthan (2017). "Textmining im biomedizinischen Bereich mit Schwerpunkt auf Dokumentclustering". Forschung im Gesundheitswesen Informatik. 23 (3): 141–146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
  28. ^ [3] Archiviert 4. Oktober 2013 bei der Wayback -Maschine
  29. ^ "Textanalyse". Medallia. Abgerufen 2015-02-23.
  30. ^ a b Coussement, Kristof; Van den Poel, Dirk (2008). "Integration der Stimme von Kunden durch Call Center -E -Mails in ein Entscheidungsunterstützungssystem für die Vorhersage von Abwanderung". Informationsmanagement. 45 (3): 164–74. Citeseerx 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
  31. ^ Coussement, Kristof; Van den Poel, Dirk (2008). "Verbesserung der Kundenbeschwerdeverwaltung durch automatische E -Mail -Klassifizierung mithilfe von Funktionen des sprachlichen Stils als Prädiktoren". Entscheidungsunterstützungssysteme. 44 (4): 870–82. doi:10.1016/j.ds.2007.10.010.
  32. ^ Ramiro H. Gálvez; Agustín Gravano (2017). "Bewertung der Nützlichkeit des Online -Message Board -Mining in automatischen Vorhersagesystemen". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  33. ^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Daumen hoch?". Verfahren der ACL-02-Konferenz über empirische Methoden in der Verarbeitung natürlicher Sprache. Vol. 10. S. 79–86. doi:10.3115/1118693.1118704. S2CID 7105713.
  34. ^ Alessandro Vacitutti; Carlo Strapparava; Oliviero Stock (2005). "Entwicklung affektiver lexikaler Ressourcen" (PDF). Psychnology Journal. 2 (1): 61–83.
  35. ^ Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "Senticnet: Eine öffentlich verfügbare semantische Ressource für Meinungsabbau" (PDF). Verfahren von AAAI CSK. S. 14–18.
  36. ^ Calvo, Rafael A; D'Mello, Sidney (2010). "Affektkennung: Eine interdisziplinäre Überprüfung von Modellen, Methoden und ihrer Anwendungen". IEEE -Transaktionen zum affektiven Computing. 1 (1): 18–37. doi:10.1109/t-AFFC.2010.1. S2CID 753606.
  37. ^ "Die Universität von Manchester". Manchester.ac.uk. Abgerufen 2015-02-23.
  38. ^ "Tsujii Laboratory". Tsujii.is.su-tokyo.ac.jp. Abgerufen 2015-02-23.
  39. ^ "Die Universität von Tokio". Utokyo. Abgerufen 2015-02-23.
  40. ^ Shen, Jiaming; Xiao, Jinfeng; Er, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (2018-06-27). Entitäts Suche nach wissenschaftlicher Literatur: Ein unbeaufsichtigter Ranking -Ansatz. ACM. S. 565–574. doi:10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
  41. ^ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (2017-02-06). "Die Schönheit von Brimstone Butterfly: Neuheit der Patente, die durch nahezu Umweltanalyse basierend auf dem Textabbau ermittelt wurden". Scientometrics. 111 (1): 103–115. doi:10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
  42. ^ Roll, Uri; Correia, Ricardo A.; Berger-Tal, ODED (2018-03-10). "Verwenden von maschinellem Lernen, um Homonyme in großen Textkorpora zu entwirren". Naturschutzbiologie. 32 (3): 716–724. doi:10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
  43. ^ a b Automatisierte Analyse der US -Präsidentschaftswahlen unter Verwendung von Big Data und Netzwerkanalyse; S Sudhahar, Ga Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
  44. ^ Netzwerkanalyse von narrativen Inhalten in großen Korpora; S Sudhahar, G de Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
  45. ^ Quantitative narrative Analyse; Roberto Franzosi; Emory University © 2010
  46. ^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, findmypast Zeitung; Cristianini, Nello (2017-01-09). "Inhaltsanalyse von 150 Jahren britischer Zeitschriften". Verfahren der National Academy of Sciences. 114 (4): E457 - E465. Bibcode:2017pnas..114e.457l. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962.
  47. ^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. de Bie, N. Mosdell, J. Lewis, N. Cristianini, Die Struktur der EU MediaSphere, PLoS One, vol. 5 (12), S. E14243, 2010.
  48. ^ Nowcasting -Ereignisse aus dem sozialen Web mit statistischem Lernen gegen Lampos, N Cristianini; ACM -Transaktionen zu intelligenten Systemen und Technologien (TIST) 3 (4), 72
  49. ^ Noam: Analyse- und Überwachungssystem für News Outlets; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T de Bie, N Cristianini Proc. der 2011 ACM Sigmod International Conference zum Management von Daten
  50. ^ Automatische Entdeckung von Mustern in Medieninhalten, n Cristianini, kombinatorisches Muster-Matching, 2-13, 2011
  51. ^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. de Bie, N. Mosdell, J. Lewis, N. Cristianini, Forschungsmethoden im Zeitalter des digitalen Journalismus, digitaler Journalismus, Routledge, 2012
  52. ^ Zirkadiane Stimmungsschwankungen im Twitter -Inhalt; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Gehirn- und Neurowissenschaften Fortschritte, 1, 2398212817744501.
  53. ^ Auswirkungen der Rezession auf die öffentliche Stimmung in Großbritannien; T Lansdall-Welfare, V Lampos, N Cristianini; MSND -Sitzung (Mining Social Network Dynamics) in Social -Media -Anwendungen
  54. ^ Forscher gab Data Mining Right Right unter den neuen britischen Urheberrechtsgesetzen Archiviert 9. Juni 2014 bei der Wayback -Maschine
  55. ^ "Lizenzen für Europa - strukturierter Stakeholder Dialogue 2013". Europäische Kommission. Abgerufen 14. November 2014.
  56. ^ "Text und Data Mining: seine Bedeutung und die Notwendigkeit einer Veränderung in Europa". Vereinigung der Europäischen Forschungsbibliotheken. 2013-04-25. Abgerufen 14. November 2014.
  57. ^ "Richter gewährt ein zusammenfassendes Urteil zugunsten von Google Books - einem fairen Nutzungssieg". Lexologie. Antonelli Law Ltd. 19. November 2013. Abgerufen 14. November 2014.
  58. ^ "Eine kurze Geschichte der Textanalyse von Seth Grimes". Beyenetwork. 2007-10-30. Abgerufen 2015-02-23.
  59. ^ Hearst, Marti A. (1999). "Entwirrender Textdatenmining". Proceedings der 37. Jahrestagung des Vereins für Computer -Linguistik zur Computational Linguistics. S. 3–10. doi:10.3115/1034678.1034679. ISBN 978-1-55860-609-8. S2CID 2340683.

Quellen

  • Ananiadou, S. und McNaught, J. (Herausgeber) (2006). Textabbau für Biologie und Biomedizin. Artech House Books. ISBN978-1-58053-984-5
  • Bilisoly, R. (2008). Praktischer Textabbau mit Perl. New York: John Wiley & Sons. ISBN978-0-470-17643-6
  • Feldman, R. und Sanger, J. (2006). Das Text -Mining -Handbuch. New York: Cambridge University Press. ISBN978-0-521-83657-9
  • Hootho, A., Nürnberger, A. und Paaß, G. (2005). "Eine kurze Übersicht über Textmining". Im LDV -Forum, Vol. 20 (1), p. 19-62
  • Indurkhya, N. und Damerau, F. (2010). Handbuch der Verarbeitung natürlicher Sprache, 2. Auflage. Boca Raton, FL: CRC Press. ISBN978-1-4200-8592-1
  • Kao, A. und Potteet, S. (Herausgeber). Verarbeitung und Textabbau natürlicher Sprache. Springer. ISBN1-84628-175-x
  • Konchady, M. Textmining -Anwendungsprogrammierung (Programmierreihe). Charles River Media. ISBN1-58450-460-9
  • Manning, C. und Schutz, H. (1999). Grundlagen der statistischen Verarbeitung natürlicher Sprache. Cambridge, MA: MIT Press. ISBN978-0-262-13360-9
  • Miner, G., Elder, J., Hill. T, Nisbet, R., Delen, D. und Fast, A. (2012). Praktische Textabbau und statistische Analyse für nicht strukturierte Textdatenanwendungen. Elsevier Academic Press. ISBN978-0-12-386979-1
  • McKnight, W. (2005). "Building Business Intelligence: Textdatenmining in Business Intelligence". DM -Bewertung, 21-22.
  • Srivastava, A. und Sahami. M. (2009). Textmining: Klassifizierung, Clustering und Anwendungen. Boca Raton, FL: CRC Press. ISBN978-1-4200-5940-3
  • Zanasi, A. (Herausgeber) (2007). Textmining und seine Anwendungen auf Intelligenz, CRM und Wissensmanagement. WIT Press. ISBN978-1-84564-131-3

Externe Links