Bewertungsmaßnahmen (Informationsabruf)
Bewertungsmaßnahmen für ein Informationsabrufsystem werden verwendet, um zu beurteilen, wie gut die Suchergebnisse die Abfrage des Benutzers erfüllen. Das Abrufengebiet des Informationsabrufs hat zu diesem Zweck verschiedene Arten von quantitativen Metriken verwendet, basierend auf dem beobachteten Benutzerverhalten oder auf den Punktzahlen aus vorbereiteten Benchmark -Testsätzen. Neben dem Benchmarking mit dieser Art von Maß sollte eine Bewertung für ein Informationsabrufsystem auch eine Validierung der verwendeten Maßnahmen enthalten, d. H. Eine Bewertung der Messungen, die sie messen sollen und wie gut das System zu seinem beabsichtigten Anwendungsfall passt . [1] Metriken werden häufig in zwei Typen aufgeteilt: Online -Metriken befassen sich mit den Interaktionen der Benutzer mit dem Suchsystem, während Offline -Metriken die theoretische Relevanz messen, mit anderen Worten, wie wahrscheinlich jedes Ergebnis oder jedes Ergebnis oder die Wahrscheinlichkeit ist oder Seite der Suchmaschinenergebnisse (SERP) Seite als Ganzes besteht darin, die Informationsbedürfnisse des Benutzers zu erfüllen.
Notation
Die in den folgenden Formeln verwendeten mathematischen Symbole bedeuten:
- - Überschneidung - In diesem Fall geben Sie die Dokumente in an beide setzt x und y
- - Kardinalität - In diesem Fall die Anzahl der Dokumente in Set x
- - Integral
- - Summe
- - Symmetrischer Unterschied
Online -Metriken
Online -Metriken werden im Allgemeinen aus Suchprotokollen erstellt. Die Metriken werden häufig verwendet, um den Erfolg von a zu bestimmen A/B -Test.
Sitzungsrate
Die Sitzungsrate der Sitzung ist ein Verhältnis von Suchsitzungen, die nicht zu einem Klick führen.
Klickrate
Klickrate (CTR) ist das Verhältnis von Benutzern, die auf einen bestimmten Link zu der Anzahl der gesamten Benutzer klicken, die eine Seite, eine E -Mail oder eine Anzeige anzeigen. Es wird häufig verwendet, um den Erfolg eines Onlinewerbung Kampagne für eine bestimmte Website sowie die Effektivität von E -Mail -Kampagnen.[2]
Sitzungserfolgsrate
Die Erfolgsquote der Sitzung misst das Verhältnis von Benutzersitzungen, die zu einem Erfolg führen. Das Definieren von "Erfolg" hängt häufig vom Kontext ab, für die Suche ein erfolgreiches Ergebnis wird häufig mithilfe von Verwendung gemessen Verweilzeit Als Hauptfaktor zusammen mit sekundärer Benutzerinteraktion wird beispielsweise der Benutzer, der das Ergebnis -URL kopiert, als erfolgreiches Ergebnis angesehen, ebenso wie Kopie/Einfügen vom Snippet.
Null -Ergebnisrate
Null -Ergebnisrate (Zrr) ist das Verhältnis der Suchmaschinenergebnisse (SERPs), die mit Null Ergebnissen zurückgegeben wurden. Die Metrik zeigt entweder a abrufen Problem oder dass die gesuchten Informationen nicht im Index sind.
Offline -Metriken
Offline -Metriken werden im Allgemeinen aus Relevanz -Urteilssitzungen erstellt, in denen die Richter die Qualität der Suchergebnisse erzielen. Sowohl binäre (relevante/nicht relevante) als auch mehrstufige (z. B. Relevanz von 0 bis 5) Skalen können verwendet werden, um jedes Dokument als Reaktion auf eine Abfrage zurückzubringen. In der Praxis können Anfragen sein schlecht gepasiertund es kann unterschiedliche Relevanztöne geben. Zum Beispiel gibt es Unklarheiten in der Abfrage "Mars": Der Richter weiß nicht, ob der Benutzer nach dem Planeten sucht Mars, das Mars Schokoriegel oder der Sänger Bruno Mars.
Präzision
Präzision ist der Anteil der abgerufenen Dokumente, die sind relevant zum Bedarf des Benutzers.
Im Binärklassifizierung, Präzision ist analog zu positiv vorhergesagter Wert. Präzision berücksichtigt alle abgerufenen Dokumente. Es kann auch unter Berücksichtigung der am meisten vom System zurückgegebenen Top -Ergebnisse bewertet werden Präzision@k.
Beachten Sie, dass sich die Bedeutung und Verwendung von "Präzision" im Bereich des Informationsabrufs von der Definition von unterscheidet Genauigkeit und Präzision innerhalb anderer Zweige der Wissenschaft und Statistiken.
Abrufen
Rückruf ist der Bruchteil der Dokumente, die für die erfolgreich abgerufene Abfrage relevant sind.
In der binären Klassifizierung wird der Rückruf häufig genannt Empfindlichkeit. So kann es als betrachtet werden Die Wahrscheinlichkeit, dass ein relevantes Dokument von der Abfrage abgerufen wird.
Es ist trivial, einen Rückruf von 100% zu erreichen, indem alle Dokumente als Reaktion auf jede Abfrage zurückgegeben werden. Der Rückruf allein reicht daher nicht aus, aber man muss die Anzahl nicht relevanter Dokumente auch messen, beispielsweise durch Berechnung der Genauigkeit.
Ausfallen
Der Anteil der nicht relevanten Dokumente, die von allen nicht relevanten Dokumenten abgerufen werden:
In der binären Klassifizierung ist ein Ausfall eng miteinander verbunden mit Spezifität und ist gleich zu . Es kann als betrachtet werden Die Wahrscheinlichkeit, dass ein nicht relevantes Dokument von der Abfrage abgerufen wird.
Es ist trivial, durch Rückgabe von Nulldokumenten als Reaktion auf jede Abfrage einen Ausfall von 0% zu erreichen.
F-Score / F-Messung
Das gewichtete harmonische Mittel Präzision und Rückruf, der traditionelle F-Messung oder ausgewogener F-Score ist:
Dies ist auch als die bekannt Messen Sie, denn Rückruf und Präzision sind gleichmäßig gewichtet.
Die allgemeine Formel für nicht negative Real ist:
Zwei andere häufig verwendete F -Maßnahmen sind die messen, welche Gewichte doppelt so viel Präzision und die erinnern und die Messen Sie, welches Präzision doppelt so viel wie erinnert.
Die F-Messung wurde von Van Rijsbergen (1979) so abgeleitet, dass "Misst die Wirksamkeit des Abrufens in Bezug auf einen Benutzer, der angeschlossen ist Zeiten, die so wichtig sind, sich als Präzision zu erinnern ". Es basiert auf Van Rijsbergens Wirksamkeitsmaß . Ihre Beziehung ist:
- wo
F-Messungen können im Vergleich zu Präzision und Rückruf eine bessere einzelne Metrik sein. Sowohl Präzision als auch Rückruf geben unterschiedliche Informationen, die sich beim Kombinieren gegenseitig ergänzen können. Wenn einer von ihnen mehr als der andere auszeichnet, wird F-Messung es widerspiegeln.
Durchschnittliche Präzision
Präzision und Rückruf sind Einzelwertmetriken, die auf der gesamten Liste der vom System zurückgegebenen Dokumente basieren. Bei Systemen, die eine Rangliste von Dokumenten zurückgeben, ist es wünschenswert, auch die Reihenfolge zu berücksichtigen, in der die zurückgegebenen Dokumente dargestellt werden. Durch Berechnen einer Präzision und eines Rückrufs an jeder Position in der Rangliste der Dokumente kann man eine Präzisions-Recall-Kurve zeichnen, wobei die Präzision aufgetragen wird als Funktion des Rückrufs . Durchschnittliche Präzision berechnet den Durchschnittswert von über das Intervall von zu :[3]
Das ist der Bereich unter der Präzisionsrecall-Kurve. Dieses Integral wird in der Praxis durch eine begrenzte Summe über jede Position in der Rangliste der Dokumente ersetzt:
wo ist der Rang in der Abfolge von abgerufenen Dokumenten, ist die Anzahl der abgerufenen Dokumente, ist die Präzision beim Grenzwert in der Liste und ist die Änderung des Rückrufs von Gegenständen zu .[3]
Diese endliche Summe entspricht:
wo Ist eine Indikatorfunktion, die 1 entspricht, wenn das Element am Rang ist ist ein relevantes Dokument, sonst null.[4] Beachten Sie, dass der Durchschnitt über alle relevanten Dokumente liegt und die nicht abgerufenen Dokumente eine Präzisionsbewertung von Null erhalten.
Einige Autoren interpolieren die Funktionieren Sie, um die Auswirkungen von "Wiggles" in der Kurve zu verringern.[5][6] Zum Beispiel Herausforderung der Pascal -Klassen für visuelle Objekte (ein Benchmark für die Erkennung von Computer Vision Object) bis 2010[7] berechnet die durchschnittliche Genauigkeit durch Mittelung der Genauigkeit über einen Satz gleichmäßig verteilter Rückrufstufen {0, 0,1, 0,2, ... 1,0}:[5][6]
wo ist eine interpolierte Genauigkeit, die die maximale Präzision über alle Rückrufe größer als größer als :
- .
Eine Alternative besteht darin, eine Analyse abzuleiten Funktion durch Annahme einer bestimmten parametrischen Verteilung für die zugrunde liegenden Entscheidungswerte. Zum Beispiel a Binormale Präzisionsrecall-Kurve Kann durch Annahme von Entscheidungswerten in beiden Klassen erhalten werden, um einer Gaußschen Verteilung zu folgen.[8]
Präzision bei k
Für das Abrufen des modernen (Webmaßstabs) Informationen ist der Rückruf keine sinnvolle Metrik mehr, da viele Abfragen Tausende relevanter Dokumente haben und nur wenige Benutzer daran interessiert sein werden, alle zu lesen. Präzision Bei K -Dokumenten (P@k) ist immer noch eine nützliche Metrik (z. B. P@10 oder "Genauigkeit bei 10" entspricht der Anzahl der relevanten Ergebnisse unter den Top 10 abgerufenen Dokumenten), berücksichtigt jedoch nicht die Positionen der Positionen der Relevante Dokumente unter den oberen k.[9] Ein weiterer Mangel ist, dass selbst ein perfektes System bei einer Abfrage mit weniger relevanten Ergebnissen als K eine Punktzahl von weniger als 1 hat.[10] Es ist einfacher, manuell zu bewerten, da nur die Top -K -Ergebnisse untersucht werden müssen, um festzustellen, ob sie relevant sind oder nicht.
R-Präzision
R-Präzision erfordert das Wissen aller Dokumente, die für eine Abfrage relevant sind. Die Anzahl der relevanten Dokumente, , wird als Grenzwert für die Berechnung verwendet, und dies variiert von der Abfrage bis zur Abfrage. Wenn beispielsweise 15 Dokumente für "rot" in einem Korpus (r = 15) relevant sind, zählt die relevante Nummer, die relevant sind verwandelt das in eine Relevanzfraktion: .[11]
R-Präzision ist gleich dem Rückruf am R-Th.[10]
Empirisch korreliert diese Maßnahme oft stark mit der durchschnittlichen Präzision.[10]
Mittlere durchschnittliche Präzision
Die mittlere durchschnittliche Präzision (Karte) für eine Reihe von Abfragen ist der Mittelwert der durchschnittliche Präzision Punktzahlen für jede Abfrage.
wo Q ist die Anzahl der Abfragen.
Discounted cumulative gain
Quellen: Fawcett (2006),[12] Piryonesi und El-Diraby (2020),[13] Powers (2011),[14] Ting (2011),[15] CAWCR,[16] D. Chicco & G. Jurman (2020, 2021),[17][18] Tharwat (2018).[19] Balayla (2020)[20] DCG verwendet eine abgestufte Relevanzskala von Dokumenten aus dem Ergebnis, um die Nützlichkeit oder Gewinne eines Dokuments basierend auf seiner Position in der Ergebnisliste zu bewerten. Die Prämisse von DCG besteht darin, dass hochrelevante Dokumente, die in einer Suchergebnisliste niedriger erscheinen, bestraft werden sollten, da der abgestufte Relevanzwert logarithmisch proportional zur Position des Ergebnisses reduziert wird. Die DCG sammelte sich an einer bestimmten Rangposition ist definiert als: Da die Ergebnismenge zwischen verschiedenen Abfragen oder Systemen variieren kann, verwendet die normalisierte Version von DCG ein ideales DCG. Zu diesem Zweck sortiert es Dokumente einer Ergebnisliste nach Relevanz und erzeugt ein ideales DCG an Position P (), was die Punktzahl normalisiert: Die NDCG -Werte für alle Abfragen können gemittelt werden, um ein Maß für die durchschnittliche Leistung eines Ranking -Algorithmus zu erhalten. Beachten Sie, dass in einem perfekten Ranking -Algorithmus die wird dasselbe sein wie die Erzeugung eines NDCG von 1,0. Alle NDCG-Berechnungen sind dann relative Werte im Intervall 0,0 bis 1,0 und somit vergleichbar. Andere Maßnahmen
VisualisierungZu den Visualisierungen der Informationsabrufleistung gehören:
Nicht-MethodeTop -AbfragenlisteTop -Abfragen werden über einen festen Zeitraum die häufigsten Abfragen festgestellt. Die Liste der Top -Abfragen hilft dabei, den von den Benutzern eingegebenen Abfragen zu kennen. Nicht-RelevanzmetrikenAbfragen pro ZeitDas Messen, wie viele Abfragen am Suchsystem pro (Monat/Tag/Stunde/Minute/Sec) ausgeführt werden, verfolgt die Auslastung des Suchsystems. Es kann für die Diagnose verwendet werden, um einen unerwarteten Anstieg der Abfragen oder einfach als Grundlinie im Vergleich zu anderen Metriken wie der Abfragelatenz anzuzeigen. Beispielsweise kann ein Anstieg des Abfragungsverkehrs verwendet werden, um einen Anstieg der Abfragelatenz zu erklären. Siehe auchVerweise
|