Tf -idf

Im Informationsrückgewinnung, tf -idf (Auch Tf*idf, Tfidf, Tf -idf, oder Tf -idf), kurz für Term Frequenz -Inverse -Dokumentfrequenz, ist eine numerische Statistik, die widerspiegeln soll, wie wichtig ein Wort für a ist dokumentieren in einer Sammlung oder Korpus.[1] Es wird oft als verwendet Gewichtungsfaktor Bei der Suche nach Informationsabruf, Textabbau, und Benutzermodellierung. Der TF -IDF -Wert nimmt zu anteilig Zu der Anzahl, mit der ein Wort im Dokument angezeigt wird und durch die Anzahl der Dokumente im Korpus, die das Wort enthalten, ausgeglichen wird, um die Tatsache anzupassen, dass einige Wörter im Allgemeinen häufiger erscheinen. TF-IDF ist heute eines der beliebtesten Termgewichtssysteme. Eine im Jahr 2015 durchgeführte Umfrage ergab, dass 83% der textbasierten Empfehlungssysteme in digitalen Bibliotheken TF-IDF verwenden.[2]

Variationen des TF -IDF -Gewichtungsschemas werden häufig von verwendet Suchmaschinen Als zentrales Werkzeug beim Wertungen und Rangieren eines Dokuments eines Dokuments Relevanz ein Benutzer gegeben Anfrage. TF -IDF kann erfolgreich verwendet werden für Stoppwörter Filterung in verschiedenen Feldern, einschließlich Textübersicht und Klassifizierung.

Einer der einfachsten Ranking -Funktionen wird durch Summieren des TF -IDF für jeden Abfragebestand berechnet; Viele weitere ausgefeilte Ranking -Funktionen sind Varianten dieses einfachen Modells.

Motivationen

Begriffsfrequenz

Angenommen, wir haben eine Reihe von englischen Textdokumenten und möchten sie einstufen, mit denen das Dokument für die Abfrage "The Brown Cow" relevanter ist. Ein einfacher Weg, um zu beginnen, besteht darin, Dokumente zu beseitigen, die nicht alle drei Wörter "The", "Brown" und "Cow" enthalten, aber dies lässt immer noch viele Dokumente zurück. Um sie weiter zu unterscheiden, können wir die Anzahl der Zeiten zählen, die jeder Begriff in jedem Dokument auftritt. Die Häufigkeit, mit der ein Begriff in einem Dokument auftritt Begriffsfrequenz. In dem Fall, in dem die Dokumentenlänge jedoch stark variiert, werden häufig Anpassungen vorgenommen (siehe Definition unten). Die erste Form der Begriffsgewichtung ist darauf zurückzuführen Hans Peter Luhn (1957), die zusammengefasst werden können wie:[3]

Das Gewicht eines Begriffs, der in einem Dokument auftritt, ist einfach proportional zur Begriffsfrequenz.

Umgekehrte Dokumentfrequenz

Da der Begriff "das" so häufig ist, wird die Begriffsfrequenz tendenziell fälschlicherweise Dokumente betonen, die zufällig das Wort "das" häufigere "verwenden, ohne den aussagekräftigeren Begriffen" braun "und" Kuh "genug Gewicht zu geben. Der Begriff "Das" ist kein gutes Schlüsselwort, um relevante und nicht relevante Dokumente und Begriffe zu unterscheiden, im Gegensatz zu den weniger gemeinsamen Wörtern "Brown" und "Cow". Daher an umgekehrte Dokumentfrequenz Der Faktor wird eingebaut, der das Gewicht der Begriffe verringert, die im Dokumentsatz sehr häufig auftreten, und das Gewicht der Begriffe erhöht, die selten auftreten.

Karen Spärck Jones (1972) konzipierten eine statistische Interpretation der Termspezifität als Inverse Dokument Frequenz (IDF), die zu einem Eckpfeiler der Begriffsgewichtung wurde:[4]

Die Spezifität eines Terms kann als umgekehrte Funktion der Anzahl der Dokumente quantifiziert werden, in denen er auftritt.

Definition

  1. Das TF -IDF ist das Produkt von zwei Statistiken, Begriffsfrequenz und umgekehrte Dokumentfrequenz. Es gibt verschiedene Möglichkeiten zur Bestimmung der genauen Werte beider Statistiken.
  2. Eine Formel, die darauf abzielt, die Bedeutung eines Schlüsselworts oder einer Phrase innerhalb eines Dokuments oder einer Webseite zu definieren.
Varianten des Term Frequenz (TF) Gewicht
Gewichtungsschema TF Gewicht
binär
Rohzahl
Begriffsfrequenz
Protokollnormalisierung
Doppelnormalisierung 0,5
Doppelnormalisierung k

Begriffsfrequenz

Begriffsfrequenz, tf (t,d), ist die relative Häufigkeit des Terms t Innerhalb des Dokuments dAnwesend

,

wo ft,d ist der Rohzahl eines Begriffs in einem Dokument, d. H. Der Häufigkeit dieser Begriff t tritt im Dokument auf d. Beachten Sie, dass der Nenner einfach die Gesamtzahl der Begriffe im Dokument ist d (Zählen Sie jedes Auftreten des gleichen Begriffs separat). Es gibt verschiedene andere Möglichkeiten, um die Termfrequenz zu definieren:[5]: 128

  • Die Rohzahl selbst: tf (t,d) = ft,d
  • Boolesche "Frequenzen": tf (t,d) = 1 wenn t tritt auf in d und 0 sonst;
  • logarithmisch skaliert Frequenz: tf (t,d) = log (1 + ft,d);[6]
  • Augmented Frequenz, um eine Verzerrung zu längeren Dokumenten zu verhindern, z. Rohfrequenz geteilt durch die Rohfrequenz des am häufigsten vorkommenden Begriffs im Dokument:

Umgekehrte Dokumentfrequenz

Varianten mit inverser Dokumentfrequenz (IDF) Gewicht
Gewichtungsschema IDF -Gewicht ())
einstellig 1
umgekehrte Dokumentfrequenz
umgekehrte Dokumentfrequenz glatt
umgekehrte Dokumentfrequenz max
probabilistische inverse Dokumenthäufigkeit

Das umgekehrte Dokumentfrequenz ist ein Maß dafür, wie viel Informationen das Wort liefert, d. H. Wenn es in allen Dokumenten üblich oder selten ist. Es ist der logarithmisch skaliert Umgekehrter Bruchteil der Dokumente, die das Wort enthalten (erhalten durch Teilen der Gesamtzahl der Dokumente durch die Anzahl der Dokumente, die den Begriff enthalten, und dann den Logarithmus dieses Quotienten):

mit

  • : Gesamtzahl der Dokumente im Korpus
  • : Anzahl der Dokumente, bei denen der Begriff erscheint (d. H., ). Wenn sich der Begriff nicht im Korpus befindet, führt dies zu einer Division durch Null. Es ist daher üblich, den Nenner an anzupassen .
Diagramm verschiedener inverser Dokumentfrequenzfunktionen: Standard, glatt, probabilistisch.

Term Frequenz -Inverse -Dokumentfrequenz

Dann wird TF -IDF als berechnet als

Ein hohes Gewicht in TF -IDF wird durch einen hohen Term erreicht Frequenz (im angegebenen Dokument) und eine niedrige Dokumentfrequenz des Begriffs in der gesamten Sammlung von Dokumenten; Die Gewichte neigen daher dazu, gemeinsame Begriffe herauszufiltern. Da das Verhältnis innerhalb der Protokollfunktion des IDF immer größer oder gleich 1 ist, ist der Wert von IDF (und TF -IDF) größer oder gleich 0. Wenn ein Begriff in mehr Dokumenten erscheint, nähert sich das Verhältnis innerhalb des Logarithmus 1 Bringen Sie die IDF und TF -IDF näher an 0.

Empfohlene TF -IDF -Gewichtungsschemata
Gewichtungsschema Dokumentenbegriff Gewicht Abfragebestand
1
2
3

Rechtfertigung von IDF

IDF wurde als "Termspezifität" vorgestellt Karen Spärck Jones In einem Papier von 1972. Obwohl es gut funktioniert hat wie ein HeuristikDie theoretischen Grundlagen sind seit mindestens drei Jahrzehnten mindestens drei Jahrzehnte später, und viele Forscher versuchen zu finden Informationstheoretik Begründung dafür.[7]

Die eigene Erklärung von Spärck Jones schlug nicht viel Theorie vor, abgesehen von einer Verbindung zu Zipf -Gesetz.[7] Es wurden Versuche unternommen, IDF auf a zu setzen probabilistisch Fundament,[8] Durch Schätzung der Wahrscheinlichkeit, dass ein bestimmtes Dokument d enthält einen Begriff t als relative Dokumentfrequenz,

damit wir IDF als definieren können

Die inverse Dokumentfrequenz ist nämlich der Logarithmus der "inversen" relativen Dokumentfrequenz.

Diese probabilistische Interpretation nimmt wiederum die gleiche Form wie die von Selbstinformation. Die Anwendung solcher Informations-theoretischen Vorstellungen auf Probleme beim Abrufen von Informationen führt jedoch zu Problemen, wenn Sie versuchen, die angemessenen zu definieren Ereignisräume für die erforderlichen Wahrscheinlichkeitsverteilungen: Dokumente müssen nicht nur berücksichtigt werden, sondern auch Fragen und Begriffe.[7]

Link zur Informationstheorie

Sowohl die Begriffsfrequenz als auch die umgekehrte Dokumentfrequenz können in Bezug auf von formuliert werden Informationstheorie; Es hilft zu verstehen, warum ihr Produkt eine Bedeutung in Bezug auf gemeinsame Informationsinhalte eines Dokuments hat. Eine charakteristische Annahme der Verteilung ist das:

Diese Annahme und ihre Auswirkungen laut Aizawa: "repräsentieren die Heuristik, die TF -IDF einsetzt."[9]

Das bedingte Entropie eines "zufällig ausgewählten" Dokuments im Korpus , bedingt zu der Tatsache, dass es einen bestimmten Begriff enthält (Und unter der Annahme, dass alle Dokumente eine gleiche Wahrscheinlichkeit ausgewählt werden können) ist:

In Bezug auf die Notation, und sind "Zufallsvariablen", die jeweils einem Dokument oder einem Begriff entsprechen. Das gegenseitige Information kann ausgedrückt werden als

Der letzte Schritt ist zu erweitern , die bedingungslose Wahrscheinlichkeit, einen Begriff in Bezug auf die (zufällige) Wahl eines Dokuments zu zeichnen, um zu erhalten:

Dieser Ausdruck zeigt, dass die Summierung des TF -IDF aller möglichen Begriffe und Dokumente die gegenseitigen Informationen zwischen Dokumenten und Begriff unter Berücksichtigung aller Spezifitäten ihrer gemeinsamen Verteilung erholt.[9] Jedes TF -IDF trägt daher das an ein Begriff X -Dokumentpaar angehängte "Bit of Information".

Beispiel für TF -IDF

Angenommen, wir haben Term Count -Tabellen eines Korpus, das nur aus zwei Dokumenten besteht, wie rechts aufgeführt.

Dokument 2
Begriff Begriff zählen
Dies 1
ist 1
Ein weiterer 2
Beispiel 3
Dokument 1
Begriff Begriff zählen
Dies 1
ist 1
a 2
Probe 1

Die Berechnung von TF -IDF für den Begriff "Dies" wird wie folgt durchgeführt:

In seiner Rohfrequenzform ist TF nur die Frequenz des "This" für jedes Dokument. In jedem Dokument erscheint das Wort "dies" einmal; Da das Dokument 2 jedoch mehr Wörter hat, ist seine relative Frequenz kleiner.

Eine IDF ist konstant pro Korpus, und Konten für das Verhältnis von Dokumenten, die das Wort "This" enthalten. In diesem Fall haben wir einen Korpus von zwei Dokumenten und alle enthalten das Wort "This".

TF -IDF ist also Null für das Wort "This", was impliziert, dass das Wort nicht sehr informativ ist, wie es in allen Dokumenten erscheint.

Das Wort "Beispiel" ist interessanter - es kommt dreimal vor, aber nur im zweiten Dokument:

Endlich,

(Verwendung der Basis 10 Logarithmus).

Über Begriffe hinaus

Die Idee hinter TF -IDF gilt auch für andere als Bedingungen. 1998 wurde das Konzept der IDF auf Zitate angewendet.[10] Die Autoren argumentierten, dass "wenn ein sehr ungewöhnliches Zitat von zwei Dokumenten geteilt wird, dies höher gewichtet werden sollte als ein Zitat, das von einer großen Anzahl von Dokumenten erstellt wurde". Darüber hinaus wurde TF -IDF auf "visuelle Wörter" angewendet, um Objekte in Videos abzustimmen.[11] und ganze Sätze.[12] Das Konzept von TF -IDF erwies sich jedoch in allen Fällen nicht als effektiver als ein einfaches TF -Schema (ohne IDF). Wenn TF-IDF auf Zitate angewendet wurde, konnten die Forscher keine Verbesserung gegenüber einem einfachen Zitierzählgewicht finden, das keine IDF-Komponente aufwies.[13]

Derivate

Eine Reihe von Termgewichtsschemata wurde von TF-IDF abgeleitet. Einer von ihnen ist TF -PDF (Term Frequenz * Proportional -Dokumentfrequenz).[14] TF -PDF wurde 2001 im Zusammenhang mit der Identifizierung neuer Themen in den Medien eingeführt. Die PDF -Komponente misst den Unterschied, wie oft ein Begriff in verschiedenen Domänen auftritt. Ein weiteres Derivat ist TF -IDUF. In tf -iduf,[15] IDF wird nicht basierend auf dem Dokumentkorpus berechnet, das durchsucht oder empfohlen werden soll. Stattdessen wird IDF in den persönlichen Dokumentsammlungen der Benutzer berechnet. Die Autoren berichten, dass TF -IDUF gleichermaßen wirksam war wie TF -IDF, könnte aber auch in Situationen angewendet werden, in denen z. B. ein Benutzermodellierungssystem keinen Zugriff auf ein globales Dokumentkorpus hat.

Siehe auch

Verweise

  1. ^ Rajaraman, A.; Ullman, J.D. (2011). "Data Mining" (PDF). Bergbau von massiven Datensätzen. S. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.
  2. ^ Breiter, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). "Research-Paper-Empfehlungssysteme: Eine Literaturumfrage". Internationales Journal über digitale Bibliotheken. 17 (4): 305–338. doi:10.1007/s00799-015-0156-0. ISSN 1432-5012. S2CID 207035184.
  3. ^ Luhn, Hans Peter (1957). "Ein statistischer Ansatz zur mechanisierten Codierung und Suche von literarischen Informationen" (PDF). IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147/rd.14.0309. Abgerufen 2. März 2015. Es besteht auch die Wahrscheinlichkeit, dass je häufiger ein Begriff und eine Kombination von Begriffen auftreten, desto mehr Bedeutung ist der Autor, der die Essenz seiner Gesamtidee widerspiegelt.
  4. ^ Spärck Jones, K. (1972). "Eine statistische Interpretation der Begriffspezifität und ihre Anwendung beim Abrufen". Journal of Dokumentation. 28 (1): 11–21. Citeseerx 10.1.1.115.8343. doi:10.1108/eb026526.
  5. ^ Manning, C.D.; Raghavan, P.; Schutz, H. (2008). "Scoring, Term Gewichtung und das Vektorraummodell" (PDF). Einführung zum Informationsabruf. p. 100. doi:10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1.
  6. ^ "TFIDF-Statistik | SAX-VSM".
  7. ^ a b c Robertson, S. (2004). "Inverse Dokumenthäufigkeit verstehen: über theoretische Argumente für IDF". Journal of Dokumentation. 60 (5): 503–520. doi:10.1108/00220410410560582.
  8. ^ Siehe auch Wahrscheinlichkeitsschätzungen in der Praxis in Einführung zum Informationsabruf.
  9. ^ a b Aizawa, Akiko (2003). "Eine informationstheoretische Perspektive von TF-IDF-Maßnahmen". Informationsverarbeitung und -verwaltung. 39 (1): 45–65. doi:10.1016/s0306-4573 (02) 00021-3.
  10. ^ Bollacker, Kurt D.; Lawrence, Steve; Giles, C. Lee (1998-01-01). Citeseer: Ein autonomer Webagent für das automatische Abrufen und die Identifizierung interessanter Veröffentlichungen. Verfahren der zweiten internationalen Konferenz über autonome Agenten. Agenten '98. S. 116–123. doi:10.1145/280765.280786. ISBN 978-0-89791-983-8. S2CID 3526393.
  11. ^ Sivic, Josef; Zisserman, Andrew (2003-01-01). Video Google: Ein Text -Abrufansatz für Objekte in Videos. Proceedings der neunten IEEE Internationalen Konferenz über Computer Vision - Band 2. ICCV '03. S. 1470–. doi:10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0. S2CID 14457153.
  12. ^ Seki, Yohei. "Satzextraktion durch TF/IDF und Positiongewichtung aus Zeitungsartikeln" (PDF). Nationales Institut für Informatik.
  13. ^ Beel, Joeran; Breiter, Corinna (2017). "Bewertung des CC-IDF-Zitiergewichtsschemas-Wie effektiv kann" inverse Dokumentfrequenz "(IDF) auf Referenzen angewendet werden?" (PDF). Verfahren der 12. Ikonferenz.
  14. ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). Emerging Theme Tracking System. Proceedings Dritter internationaler Workshop zu fortgeschrittenen Fragen des E-Commerce- und webbasierten Informationssystems. Wecwis 2001. p. 2. Citeseerx 10.1.1.16.7986. doi:10.1109/wecwis.2001.933900. ISBN 978-0-7695-1224-2. S2CID 1049263.
  15. ^ Langer, Stefan; Gipp, Bela (2017). "TF-IDUF: Ein neuartiges Termgewichtsschema für die Benutzermodellierung basierend auf den persönlichen Dokumentsammlungen der Benutzer" (PDF). Ikonferenz.

Externe Links und vorgeschlagene Lesen