Dokumentklassifizierung
Dokumentklassifizierung oder Dokumentenkategorisierung ist ein Problem in Bibliothek Wissenschaft, Informationswissenschaft und Informatik. Die Aufgabe besteht darin, a zuzuweisen dokumentieren zu einem oder mehreren Klassen oder Kategorien. Dies kann "manuell" (oder "intellektuell") oder erledigt werden oder algorithmisch. Die intellektuelle Klassifizierung von Dokumenten war hauptsächlich die Provinz der Bibliothekswissenschaft, während die algorithmische Klassifizierung von Dokumenten hauptsächlich in Informationswissenschaft und Informatik liegt. Die Probleme überlappen sich jedoch, und es gibt daher interdisziplinäre Untersuchungen zur Klassifizierung von Dokumenten.
Die zu klassifizierten Dokumente können Texte, Bilder, Musik usw. sein. Jede Art von Dokument besitzt seine speziellen Klassifizierungsprobleme. Wenn nicht anders angegeben, ist die Textklassifizierung impliziert.
Dokumente können nach ihrem klassifiziert werden Themen oder nach anderen Attributen (z. B. Dokumenttyp, Autor, Druckjahr usw.). Im Rest dieses Artikels wird nur die Fachklassifizierung berücksichtigt. Es gibt zwei Hauptphilosophien zur Klassifizierung von Dokumenten: den inhaltsbasierten Ansatz und den anforderungsbasierten Ansatz.
"Inhaltsbasierte" versus "anforderungsbasierte" Klassifizierung
Inhaltsbasierte Klassifizierung ist eine Klassifizierung, in der das Gewicht bestimmter Fächer in einem Dokument die Klasse bestimmt, der das Dokument zugewiesen wird. Es ist beispielsweise eine gemeinsame Regel für die Klassifizierung in Bibliotheken, dass mindestens 20% des Inhalts eines Buches über die Klasse gehen sollten, der das Buch zugewiesen ist.[1] In der automatischen Klassifizierung kann es sein, dass in einem Dokument die Anzahl der Wörter angegeben wird.
Antragsorientierte Klassifizierung (oder -indexing) ist eine Klassifizierung, in der die erwartete Anfrage von Benutzern die Einstufung von Dokumenten beeinflusst. Der Klassifikator fragt sich: „Unter welchen Deskriptoren sollte diese Entität gefunden werden?“ und „Denken Sie an alle möglichen Abfragen und entscheiden Sie für die, die das Unternehmen relevant ist“ (Sogels, 1985, S. 230[2]).
Anforderungsorientierte Klassifizierung kann eine Klassifizierung sein, die auf eine bestimmte Zielgruppe oder Benutzergruppe abzielt. Beispielsweise kann eine Bibliothek oder eine Datenbank für feministische Studien im Vergleich zu einer historischen Bibliothek unterschiedlich klassifizieren/indexieren. Es ist jedoch wahrscheinlich besser, eine anforderungsorientierte Klassifizierung als zu verstehen Richtlinienbasierte Klassifizierung: Die Klassifizierung erfolgt nach einigen Idealen und spiegelt den Zweck der Bibliothek oder Datenbank wider, die die Klassifizierung durchführen. Auf diese Weise handelt es sich nicht unbedingt um eine Art Klassifizierung oder Indexierung, die auf Benutzerstudien basiert. Nur wenn empirische Daten über die Verwendung oder Benutzer angewendet werden, sollte eine anforderungsorientierte Klassifizierung als benutzerbasierter Ansatz angesehen werden.
Klassifizierung versus Indexierung
Manchmal wird zwischen Unterscheidung zwischen der Zuweisung von Dokumenten an Klassen ("Klassifizierung") und der Zuweisung durchgeführt Themen Dokumente ("Subjektindexierung") aber Frederick Wilfrid Lancaster hat argumentiert, diese Unterscheidung ist nicht fruchtbar. "Diese terminologischen Unterschiede", schreibt er, "sind ziemlich bedeutungslos und dienen nur zu Verwirrung" (Lancaster, 2003, S. 21[3]). Die Ansicht, dass diese Unterscheidung rein oberflächlich ist Thesaurus und umgekehrt (vgl., Aitchison, 1986,[4] 2004;[5] Broughton, 2008;[6] Riesthuis & Bliedung, 1991[7]). Daher das Kennzeichnung eines Dokuments (beispielsweise durch Zuweisen eines Begriffs von a kontrolliertes Wortschatz zu einem Dokument) ist zur gleichen Zeit, um dieses Dokument der Klasse der Dokumente zuzuweisen, die durch diesen Begriff indiziert sind (alle als X indizierten oder klassifizierten Dokumente gehören zu derselben Dokumenteklasse). Mit anderen Worten, das Beschriften eines Dokuments ist das gleiche wie die Zuweisung der unter diesem Etikett indizierten Dokumente.
Automatische Dokumentklassifizierung (ADC)
Aufgaben der automatischen Dokumentenklassifizierung können in drei Arten unterteilt werden: Überwachende Dokumentklassifizierung Wenn ein externer Mechanismus (wie z. B. menschliches Feedback) Informationen zur richtigen Klassifizierung für Dokumente liefert, unbeaufsichtigte Klassifizierung der Dokumente (auch bekannt als Dokumentclustering), wo die Klassifizierung vollständig ohne Bezugnahme auf externe Informationen durchgeführt werden muss, und Halbüberwachende Dokumentklassifizierung,[8] wo Teile der Dokumente vom externen Mechanismus gekennzeichnet sind. Unter verschiedenen Lizenzmodellen stehen mehrere Softwareprodukte zur Verfügung.[9][10][11][12][13][14]
Techniken
Zu den automatischen Dokumentenklassifizierungstechniken gehören:
- Erwartungsmaximierung (EM)
- Naiver Bayes -Klassifikator
- tf -idf
- Sofort ausgebildete neuronale Netze
- Latente semantische Indexierung
- Support-Vektor-Maschinen (SVM)
- Künstliche neuronale Netz
- K-Nearest Nachbaralgorithmen
- Entscheidungsbäume wie zum Beispiel ID3 oder C4.5
- Konzeptabbau
- Raues Set-Basierter Klassifikator
- Weichset-Basierter Klassifikator
- Lernen mehrerer Instanz
- Verarbeitung natürlicher Sprache Ansätze
Anwendungen
Klassifizierungstechniken wurden an angewendet
- Spamfilterung, ein Prozess, der versucht zu erkennen E-Mail-Spam Nachrichten aus legitimen E -Mails
- Email RoutingSenden einer E -Mail, die je nach Thema an eine allgemeine Adresse an eine bestimmte Adresse oder einen bestimmten Mailbox gesendet wird[15]
- Sprachidentifizierungautomatisch die Sprache eines Textes bestimmen
- Genre -Klassifizierung, die automatisch das Genre eines Textes bestimmen[16]
- Lesbarkeitsbewertungautomatisch den Grad der Lesbarkeit eines Textes bestimmen, entweder geeignete Materialien für verschiedene Altersgruppen oder Lesertypen oder als Teil eines größeren SMS -Vereinbarung System
- StimmungsanalyseErmittlung der Haltung eines Sprechers oder eines Schriftstellers in Bezug auf ein Thema oder die Gesamtkontextpolarität eines Dokuments.
- Gesundheitsbezogene Klassifizierung unter Verwendung von Social Media in der Überwachung der öffentlichen Gesundheit [17]
- Artikel -Triage, die Artikel auswählen, die für die manuelle Literaturkuration relevant sind, beispielsweise als erster Schritt, um manuell kuratierte Annotationsdatenbanken in Biologie zu generieren [18]
Siehe auch
- Kategorisierung
- Klassifizierung (Disambiguierung)
- Zusammengesetzte Term Processing
- Konzeptbasierte Bildindexierung
- Inhaltsbasiertes Bildabruf
- Dezimalschnittsnummerierung
- Dokumentieren
- Dokumentenabruf
- Dokumentclustering
- Informationsrückgewinnung
- Wissensorganisation
- Wissensorganisationssystem
- Bibliotheksklassifizierung
- Maschinelles Lernen
- Identifizierung der Muttersprache
- String -Metriken
- Betreff (Dokumente)
- Subjektindexierung
- Überwachtes Lernen, unbeaufsichtigtes Lernen
- Textabbau, Webabbau, Konzeptabbau
Weitere Lektüre
- Fabrizio Sebastiani. Maschinelles Lernen in automatisierter Textkategorisierung. ACM Computing Surveys, 34 (1): 1–47, 2002.
- Stefan Büttcher, Charles L. A. Clarke und Gordon V. Cormack. Informationsabruf: Implementierung und Bewertung von Suchmaschinen Archiviert 2020-10-05 am Wayback -Maschine. Mit Press, 2010.
Verweise
- ^ Library of Congress (2008). Das Handbuch für Betreffüberschriften. Washington, DC.: Abteilung für Kongress-, Politik und Standards. (Blatt H 180: "Überschriften nur für Themen zuweisen, die mindestens 20% der Arbeiten ausmachen.")
- ^ Sogels, Dagobert (1985). Organisieren von Informationen: Prinzipien der Datenbank- und Abrufsysteme. Orlando, FL: Akademische Presse.
- ^ Lancaster, F. W. (2003). Indexierung und Zusammenfassung in Theorie und Praxis. Library Association, London.
- ^ Aitchison, J. (1986). "Eine Klassifizierung als Quelle für Thesaurus: die bibliografische Klassifizierung von H. E. Bliss als Quelle für Thesaurus -Begriffe und -struktur." Journal of Documentation, Vol. 42 Nr. 3, S. 160-181.
- ^ Aitchison, J. (2004). "Thesauri von BC2: Probleme und Möglichkeiten, die in einem experimentellen Thesaurus enthüllt wurden, der aus dem Bliss Music -Zeitplan stammt." Bliss Classification Bulletin, Vol. 46, S. 20-26.
- ^ Broughton, V. (2008). "Eine facettierte Klassifizierung als Grundlage einer Facettenterminologie: Umwandlung einer klassifizierten Struktur in das Thesaurus -Format in der Glückseligkeitsklassifizierung (2. Aufl.).] "Axiomathes, Bd. 18 Nr. 2, S. 193-210.
- ^ Riesthuis, G. J. A. & Bliedung, St. (1991). "Thesaurifikation der UDC." Tools für Wissensorganisation und Human Interface, Vol. 2, S. 109-117. Index Verlag, Frankfurt.
- ^ R. G. Rossi, Lopes, A. D. A. und Rezende, S. O. (2016). Optimierung und Kennzeichnung in zweiparteilen heterogenen Netzwerken zur Verbesserung der transduktiven Klassifizierung von Texten. Informationsverarbeitung & Management, 52 (2): 217–257.
- ^ "Ein interaktiver automatischer Dokumentenklassifizierungsprototyp" (PDF). Archiviert von das Original (PDF) Am 2017-11-15. Abgerufen 2017-11-14.
- ^ Interaktiver automatischer Dokumentklassifizierungsprototyp Archiviert 24. April 2015 bei der Wayback -Maschine
- ^ Dokumentklassifizierung - Artsyl
- ^ Abbyy Finereader Engine 11 für Windows
- ^ Klassifikator - Antidot
- ^ "3 Dokumentenklassifizierungsmethoden für schwierige Projekte". www.bisok.com. Abgerufen 2021-08-04.
- ^ Stephan Busemann, Sven Schmeier und Roman G. Arens (2000). Nachrichtenklassifizierung im Call Center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna und Robert Dale, Hrsg., Proc. 6. angewandte natürliche Sprachverarbeitung Konf. (Anlp'00), S. 158-165, ACL.
- ^ Santini, Marina; Rosso, Mark (2008), Testen einer Genre-fähigen Anwendung: eine vorläufige Bewertung (PDF), BCS IRSG Symposium: zukünftige Anweisungen im Informationszugriff, London, Großbritannien, S. 54–63, archiviert von das Original (PDF) Am 2019-11-15, abgerufen 2011-10-21
- ^ X. Dai, M. Bikdash und B. Meyer, "Von den sozialen Medien zur öffentlichen Gesundheitsüberwachung: Word-Einbettungs-Clustering-Methode für die Twitter-Klassifizierung", Southeastcon 2017, Charlotte, NC, 2017, S. 1-7.doi:10.1109/secon.2017.7925400
- ^ Krallinger, M; Leitner, f; Rodriguez-Penagos, C; Valencia, A (2008). "Überblick über die Protein-Protein-Interaktionsannotationsextraktionsaufgabe von Bio Kreativ II ". Genombiologie. 9 Suppl 2: S4. doi:10.1186/GB-2008-9-S2-S4. PMC 2559988. PMID 18834495.
Externe Links
- Einführung in die Dokumentenklassifizierung
- Bibliographie zur automatisierten Textkategorisierung
- Bibliographie zur Abfrageklassifizierung
- Textklassifizierung Analyseseite
- Lernen, Text zu klassifizieren - Kap. 6 des Buches natürlicher Sprachverarbeitung mit Python (Online verfügbar)
- TechTC - Technion -Repository der Textkategorisierungsdatensätze
- David D. Lewis 'Datensätze
- Biocreative III ACT (Artikelklassifizierungsaufgabe) Datensatz