Ranking (Informationsabruf)

Rangfolge von Abfrage ist eines der grundlegenden Probleme in Informationsrückgewinnung (Ir),[1] die wissenschaftliche/technische Disziplin dahinter Suchmaschinen.[2] Bei einer Abfrage q und eine Sammlung D von Dokumenten, die mit der Abfrage übereinstimmen, besteht das Problem darin, die Dokumente in den Dokumenten in zu rangieren, dh sortieren Sie die Dokumente in D Nach einem Kriterium, so dass die "besten" Ergebnisse früh in der Ergebnisliste des Benutzer angezeigt werden. Das Ranking in Bezug auf das Abrufen von Information ist ein wichtiges Konzept in der Informatik und wird in vielen verschiedenen Anwendungen wie Suchmaschinenabfragen und verwendet Empfehlungssysteme.[3] Eine Mehrheit der Suchmaschinen verwendet Ranking -Algorithmen, um den Benutzern genaue und relevant Ergebnisse.[4]

Geschichte

Der Begriff des Seitenranges stammt aus den 1940er Jahren und die Idee entstand im Bereich der Wirtschaft. 1941, Wassily Leontief entwickelte eine iterative Methode zur Bewertung des Sektors eines Landes auf der Grundlage der Bedeutung anderer Sektoren, die Ressourcen zur Verfügung stellten. 1965 Charles H Hubbell an der Universität von Kalifornien, Santa Barbaraveröffentlichte eine Technik zur Bestimmung der Bedeutung von Personen, die auf der Bedeutung der Menschen basieren, die sie unterstützen.[5]

Gabriel Pinski und Francis Narin haben einen Ansatz für Rangjournale entwickelt.[6] Ihre Regel war, dass ein Tagebuch wichtig ist, wenn es von anderen wichtigen Zeitschriften angeführt wird. Jon Kleinberg, ein Informatiker bei Cornell Universitätentwickelte einen fast identischen Ansatz zu Seitenrang was genannt wurde Hypertext -induzierte Themensuche oder Hits und es behandelte Webseiten als "Hubs" und "Behörden".

Der PageRank -Algorithmus von Google wurde 1998 von den Gründern von Google entwickelt Sergey Brin und Larry Seite Und es ist ein wichtiger Bestandteil der Google -Methode, Webseiten in Ranking in Webseiten zu erhalten Suchergebnisse.[7] Alle oben genannten Methoden sind etwas ähnlich, da alle die Struktur von Links ausnutzen und einen iterativen Ansatz erfordern.[8]

Ranking -Modelle

Ranking -Funktionen werden auf einer Vielzahl von Mitteln bewertet. Einer der einfachsten besteht darin, die zu bestimmen Präzision des ersten k Top-Rang-Ergebnisse für einige feste k; Zum Beispiel der Anteil der 10 besten Ergebnisse, die im Durchschnitt in vielen Abfragen relevant sind.

IR -Modelle können weitgehend in drei Typen unterteilt werden: Boolesche Modelle oder Bir, Vektorraummodelle, und Probabilistische Modelle.[9] Verschiedene Vergleiche zwischen Abrufmodellen finden Sie in der Literatur (z. B.,, [10]).

Boolesche Modelle

Das Boolesche Modell oder BIR ist ein einfaches Basis -Abfragemodell, bei dem jede Abfrage den zugrunde liegenden Prinzipien der relationalen Algebra mit algebraischen Ausdrücken folgt und bei denen Dokumente nicht abgerufen werden, wenn sie nicht vollständig miteinander übereinstimmen. Da die Abfrage entweder das Dokument (1) abreißt oder das Dokument (0) nicht abholt, gibt es keine Methodik, um sie zu bewerten.

Vektorraummodell

Da das Boolesche Modell nur vollständige Übereinstimmungen abreißt, wird das Problem nicht angesprochen, dass die Dokumente teilweise übereinstimmen. Das Vektorraummodell Löst dieses Problem durch Einführung von Vektoren von Indexelementen, die jeweils Gewichte zugeordnet sind. Die Gewichte sind von positiv (falls vollständig oder in gewissem Maße übereinstimmen) bis zu negativ (wenn sie nicht übereinstimmen oder völlig entgegengesetzt sind), wenn Dokumente vorhanden sind. Term Frequenz - umgekehrte Dokumentfrequenz (tf-idf) ist eine der beliebtesten Techniken, bei denen Gewichte Begriffe (z. B. Wörter, Schlüsselwörter, Phrasen usw.) und Dimensionen die Anzahl der Wörter innerhalb von Korpus sind.

Die Ähnlichkeitsbewertung zwischen Abfrage und Dokument kann durch Berechnung des Kosinuswerts zwischen Abfraggewichtsvektor und Dokumentgewichtsvektor verwendet werden Kosinusähnlichkeit. Die gewünschten Dokumente können abgerufen werden, indem sie gemäß den Ähnlichkeitsbewertungen und den abgerufenen Top -K -Dokumenten abgerufen werden, die die höchsten Punktzahlen haben oder für den Abfragetektor am relevantesten sind.

Probabilistisches Modell

Im probabilistischen Modell wurde die Wahrscheinlichkeitstheorie als Hauptmittel für die Modellierung des Abrufprozesses in mathematischen Begriffen verwendet. Das Wahrscheinlichkeitsmodell des Informationsabrufs wurde 1960 von Maron und Kuhns eingeführt und von Roberston und anderen Forschern weiterentwickelt. Laut Spack Jones und Willett (1997): Die Begründung für die Einführung probabilistischer Konzepte ist offensichtlich: IR -Systeme befassen sich mit natürlicher Sprache, und dies ist zu weit ungenau, um ein System mit Sicherheit zu ermöglichen, die für eine bestimmte Abfrage relevant ist.

Das Modell wendet die Wahrscheinlichkeitstheorie für das Abrufen von Informationen an (ein Ereignis hat eine Möglichkeit von 0 Prozent bis 100 Prozent des Auftretens). In der Wahrscheinlichkeitsmodell wird die Relevanz in Bezug auf die Wahrscheinlichkeit ausgedrückt. Hier werden Dokumente in der Reihenfolge der Relevanzwahrscheinlichkeit eingestuft. Es berücksichtigt die Berücksichtigung des Unsicherheitselements im IR -Prozess. d.h. Unsicherheit darüber, ob vom System abgerufene Dokumente für eine bestimmte Abfrage relevant sind.

Das Wahrscheinlichkeitsmodell beabsichtigt, die Wahrscheinlichkeit zu schätzen und zu berechnen, dass ein Dokument für eine bestimmte Abfrage basierend auf einigen Methoden relevant ist. Das „Ereignis“ in diesem Zusammenhang mit dem Abrufen von Informationen bezieht sich auf die Relevanzwahrscheinlichkeit zwischen einer Abfrage und einem Dokument. Im Gegensatz zu anderen IR-Modellen behandelt das Wahrscheinlichkeitsmodell die Relevanz nicht als exakte Mess- oder Match-Messung.

Das Modell verwendet verschiedene Methoden, um die Relevanzwahrscheinlichkeit zwischen Abfragen und Dokumenten zu bestimmen. Die Relevanz im Wahrscheinlichkeitsmodell wird nach der Ähnlichkeit zwischen Abfragen und Dokumenten beurteilt. Das Ähnlichkeitsurteil hängt weiter von der Begriffsfrequenz ab.

Für eine Abfrage, die nur aus einer Begriff (b) besteht, ist die Wahrscheinlichkeit, dass ein bestimmtes Dokument (DM) relevant ist Beziehung zu der Anzahl der Benutzer, die den Begriff (b) übermittelt haben. Wie im Modell von Maron und Kuhn dargestellt, kann die Wahrscheinlichkeit dargestellt werden, dass Benutzer, die eine bestimmte Abfragemester (b) einreichen, ein einzelnes Dokument (DM) als relevant beurteilen.

Entsprechend Gerard Salton und Michael J. McGill, das Wesen dieses Modells ist, dass, wenn Schätzungen für die Wahrscheinlichkeit des Auftretens verschiedener Begriffe in relevanten Dokumenten berechnet werden können Nicht, kann geschätzt werden.[11]

Mehrere Experimente haben gezeigt, dass das probabilistische Modell gute Ergebnisse liefern kann. Solche Ergebnisse waren jedoch nicht ausreichend besser als diejenigen, die mit dem Booleschen oder Vektorraummodell erhalten wurden.[12][13]

Bewertungsmaßnahmen

Die häufigsten Bewertungsmaßnahmen sind Präzision, Rückruf und F-Score. Sie werden mit nicht ordnungsgemäßen Dokumentensätzen berechnet. Diese Maßnahmen müssen erweitert werden oder neue Maßnahmen müssen definiert werden, um die ranglebigen Abrufergebnisse zu bewerten, die in modernen Suchmaschinen Standard sind. In einem ranglebigen Abrufkontext werden geeignete Mengen von abgerufenen Dokumenten natürlich durch die oberen K abgerufenen Dokumente angegeben. Für jeden solchen Satz können Präzisions- und Rückrufwerte aufgetragen werden, um eine Präzisionsrecall-Kurve zu ergeben.[14]

Präzision

Präzision misst die Genauigkeit des Abrufprozesses. Wenn der tatsächliche Satz relevanter Dokumente mit i bezeichnet wird und der abgerufene Satz von Dokumenten mit O bezeichnet wird, wird die Genauigkeit gegeben:

Abrufen

Rückruf ist ein Maß für die Vollständigkeit des IR -Prozesses. Wenn der tatsächliche Satz relevanter Dokumente mit i bezeichnet wird und der abgerufene Satz von Dokumenten mit O bezeichnet wird, wird der Rückruf gegeben:

F1 -Punktzahl

F1 -Score versucht, die Präzision und Rückrufmaßnahme zu kombinieren. Es ist das harmonische Mittel der beiden. Wenn P die Präzision und R der Rückruf ist, wird der F-Score gegeben durch:

Seitenrangalgorithmus

Das Seitenrang Algorithmus gibt eine Wahrscheinlichkeitsverteilung aus, mit der die Wahrscheinlichkeit dargestellt wird, dass eine Person, die zufällig auf die Links klickt, zu einer bestimmten Seite ankommt. PageRank kann für Sammlungen von Dokumenten jeder Größe berechnet werden. In mehreren Forschungsarbeiten wird angenommen, dass die Verteilung zu Beginn des Computerprozesses gleichmäßig auf alle Dokumente in der Sammlung aufgeteilt wird. Die PageRank -Berechnungen erfordern mehrere Durchgänge durch die Sammlung, um die ungefähren PageRank -Werte anzupassen, um den theoretischen tatsächlichen Wert genauer zu reflektieren. Die Formeln sind unten angegeben:

d.h. der PageRank -Wert für eine Seite u hängt von den PageRank -Werten für jede Seite ab v im Satz enthalten Bu (Der Satz, der alle Seiten enthält, die mit der Seite verknüpft sind u), geteilt durch die Menge L(v) von Links von Seite v.

Hits Algorithmus

Ähnlich zu Seitenrang, Hits verwendet die Linkanalyse zur Analyse der Relevanz der Seiten, funktioniert jedoch nur an kleinen Subgraph -Sätzen (anstelle des gesamten Webdiagramms) sowie an abhängigen Abfragen. Die Untergraphen werden nach Gewichten in Hubs und Behörden eingestuft, auf denen Seiten, die am höchsten rangieren, abgerufen und angezeigt werden.[15]

Siehe auch

Verweise

  1. ^ Piccoli, Gabriele; Pigni, Federico (Juli 2018). Informationssysteme für Manager: mit Fällen (Ausgabe 4.0 ed.). Prospect Press. p. 28. ISBN 978-1-943153-50-3. Abgerufen 25. November 2018.
  2. ^ Mogotsi, I. C. C. "Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze: Einführung in den Informationsabruf: Cambridge University Press, Cambridge, England, 2008, 482 PP, ISBN: 978-0-521-86571-5". Informationsrückgewinnung. 13 (2): 192–195. doi:10.1007/s10791-009-9115-y. ISSN 1386-4564.
  3. ^ "Was ist Informationsabruf?". Geeksforgeeks. 2020-07-02. Abgerufen 2022-03-02.
  4. ^ "Suchalgorithmus und Ranking -System von Google - Google Search". www.google.com. Abgerufen 2022-03-02.
  5. ^ "Wissenschaftler findet den PageRank-Algorithmus aus den 1940er Jahren". MIT Technology Review. Abgerufen 2022-03-02.
  6. ^ Pinski, Gabriel; Narin, Francis. "Zitiereinfluss für Journalaggregate wissenschaftlicher Veröffentlichungen: Theorie, mit Anwendung auf die Literatur der Physik". Informationsverarbeitung und -verwaltung. 12 (5): 297–312. doi:10.1016/0306-4573 (76) 90048-0.
  7. ^ "Was sind SERP -Funktionen?". www.accuranker.com. 2019-03-28. Abgerufen 2022-03-02.
  8. ^ Franceschet, Massimo (17. Februar 2010). "Wissenschaftler findet den PageRank-Algorithmus aus den 1940er Jahren". www.technologyreview.com.
  9. ^ Datta, Joydip (16. April 2010). "Ranking im Informationsabruf" (PDF). Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology. p. 7. Abgerufen 25. April 2019.{{}}: CS1 Wartung: URL-Status (Link)
  10. ^ Turtle, Howard R.; Croft, W.bruce (1992). "Ein Vergleich von Text -Abrufmodellen". Das Computerjournal. OUP. 35 (3): 279–290.{{}}: CS1 Wartung: URL-Status (Link)
  11. ^ Harter, Stephen P. (1984-07-01). "Einführung in das Abrufen von Modem Information (Gerard Salton und Michael J. McGill)". Ausbildung für Informationen. 2 (3): 237–238. doi:10.3233/EFI-1984-2307.
  12. ^ Chu, H. Informationsdarstellung und Abruf im digitalen Zeitalter. Neu -Delhi: Ess -Ess -Veröffentlichung.
  13. ^ G.G.Choudhary. Einführung zum modernen Informationsabruf. Facettenveröffentlichung.
  14. ^ Manning, Christopher; Raghavan, Prabhakar; Schutz, Hinrich. Bewertung der Ranglisten -Abrufergebnisse. Cambridge University Press.
  15. ^ Tanase, Racula; Radu, Remus (16. April 2010). "Vorlesung Nr. 4: Hits Algorithmus - Hubs und Behörden im Internet".