Bewertungsmaßnahmen (Informationsabruf)

Bewertungsmaßnahmen für ein Informationsabrufsystem werden verwendet, um zu beurteilen, wie gut die Suchergebnisse die Abfrage des Benutzers erfüllen. Das Abrufengebiet des Informationsabrufs hat zu diesem Zweck verschiedene Arten von quantitativen Metriken verwendet, basierend auf dem beobachteten Benutzerverhalten oder auf den Punktzahlen aus vorbereiteten Benchmark -Testsätzen. Neben dem Benchmarking mit dieser Art von Maß sollte eine Bewertung für ein Informationsabrufsystem auch eine Validierung der verwendeten Maßnahmen enthalten, d. H. Eine Bewertung der Messungen, die sie messen sollen und wie gut das System zu seinem beabsichtigten Anwendungsfall passt . [1] Metriken werden häufig in zwei Typen aufgeteilt: Online -Metriken befassen sich mit den Interaktionen der Benutzer mit dem Suchsystem, während Offline -Metriken die theoretische Relevanz messen, mit anderen Worten, wie wahrscheinlich jedes Ergebnis oder jedes Ergebnis oder die Wahrscheinlichkeit ist oder Seite der Suchmaschinenergebnisse (SERP) Seite als Ganzes besteht darin, die Informationsbedürfnisse des Benutzers zu erfüllen.

Notation

Die in den folgenden Formeln verwendeten mathematischen Symbole bedeuten:

  • - Überschneidung - In diesem Fall geben Sie die Dokumente in an beide setzt x und y
  • - Kardinalität - In diesem Fall die Anzahl der Dokumente in Set x
  • - Integral
  • - Summe
  • - Symmetrischer Unterschied

Online -Metriken

Online -Metriken werden im Allgemeinen aus Suchprotokollen erstellt. Die Metriken werden häufig verwendet, um den Erfolg von a zu bestimmen A/B -Test.

Sitzungsrate

Die Sitzungsrate der Sitzung ist ein Verhältnis von Suchsitzungen, die nicht zu einem Klick führen.

Klickrate

Klickrate (CTR) ist das Verhältnis von Benutzern, die auf einen bestimmten Link zu der Anzahl der gesamten Benutzer klicken, die eine Seite, eine E -Mail oder eine Anzeige anzeigen. Es wird häufig verwendet, um den Erfolg eines Onlinewerbung Kampagne für eine bestimmte Website sowie die Effektivität von E -Mail -Kampagnen.[2]

Sitzungserfolgsrate

Die Erfolgsquote der Sitzung misst das Verhältnis von Benutzersitzungen, die zu einem Erfolg führen. Das Definieren von "Erfolg" hängt häufig vom Kontext ab, für die Suche ein erfolgreiches Ergebnis wird häufig mithilfe von Verwendung gemessen Verweilzeit Als Hauptfaktor zusammen mit sekundärer Benutzerinteraktion wird beispielsweise der Benutzer, der das Ergebnis -URL kopiert, als erfolgreiches Ergebnis angesehen, ebenso wie Kopie/Einfügen vom Snippet.

Null -Ergebnisrate

Null -Ergebnisrate (Zrr) ist das Verhältnis der Suchmaschinenergebnisse (SERPs), die mit Null Ergebnissen zurückgegeben wurden. Die Metrik zeigt entweder a abrufen Problem oder dass die gesuchten Informationen nicht im Index sind.

Offline -Metriken

Offline -Metriken werden im Allgemeinen aus Relevanz -Urteilssitzungen erstellt, in denen die Richter die Qualität der Suchergebnisse erzielen. Sowohl binäre (relevante/nicht relevante) als auch mehrstufige (z. B. Relevanz von 0 bis 5) Skalen können verwendet werden, um jedes Dokument als Reaktion auf eine Abfrage zurückzubringen. In der Praxis können Anfragen sein schlecht gepasiertund es kann unterschiedliche Relevanztöne geben. Zum Beispiel gibt es Unklarheiten in der Abfrage "Mars": Der Richter weiß nicht, ob der Benutzer nach dem Planeten sucht Mars, das Mars Schokoriegel oder der Sänger Bruno Mars.

Präzision

Präzision ist der Anteil der abgerufenen Dokumente, die sind relevant zum Bedarf des Benutzers.

Im Binärklassifizierung, Präzision ist analog zu positiv vorhergesagter Wert. Präzision berücksichtigt alle abgerufenen Dokumente. Es kann auch unter Berücksichtigung der am meisten vom System zurückgegebenen Top -Ergebnisse bewertet werden Präzision@k.

Beachten Sie, dass sich die Bedeutung und Verwendung von "Präzision" im Bereich des Informationsabrufs von der Definition von unterscheidet Genauigkeit und Präzision innerhalb anderer Zweige der Wissenschaft und Statistiken.

Abrufen

Rückruf ist der Bruchteil der Dokumente, die für die erfolgreich abgerufene Abfrage relevant sind.

In der binären Klassifizierung wird der Rückruf häufig genannt Empfindlichkeit. So kann es als betrachtet werden Die Wahrscheinlichkeit, dass ein relevantes Dokument von der Abfrage abgerufen wird.

Es ist trivial, einen Rückruf von 100% zu erreichen, indem alle Dokumente als Reaktion auf jede Abfrage zurückgegeben werden. Der Rückruf allein reicht daher nicht aus, aber man muss die Anzahl nicht relevanter Dokumente auch messen, beispielsweise durch Berechnung der Genauigkeit.

Ausfallen

Der Anteil der nicht relevanten Dokumente, die von allen nicht relevanten Dokumenten abgerufen werden:

In der binären Klassifizierung ist ein Ausfall eng miteinander verbunden mit Spezifität und ist gleich zu . Es kann als betrachtet werden Die Wahrscheinlichkeit, dass ein nicht relevantes Dokument von der Abfrage abgerufen wird.

Es ist trivial, durch Rückgabe von Nulldokumenten als Reaktion auf jede Abfrage einen Ausfall von 0% zu erreichen.

F-Score / F-Messung

Das gewichtete harmonische Mittel Präzision und Rückruf, der traditionelle F-Messung oder ausgewogener F-Score ist:

Dies ist auch als die bekannt Messen Sie, denn Rückruf und Präzision sind gleichmäßig gewichtet.

Die allgemeine Formel für nicht negative Real ist:

Zwei andere häufig verwendete F -Maßnahmen sind die messen, welche Gewichte doppelt so viel Präzision und die erinnern und die Messen Sie, welches Präzision doppelt so viel wie erinnert.

Die F-Messung wurde von Van Rijsbergen (1979) so abgeleitet, dass "Misst die Wirksamkeit des Abrufens in Bezug auf einen Benutzer, der angeschlossen ist Zeiten, die so wichtig sind, sich als Präzision zu erinnern ". Es basiert auf Van Rijsbergens Wirksamkeitsmaß . Ihre Beziehung ist:

wo

F-Messungen können im Vergleich zu Präzision und Rückruf eine bessere einzelne Metrik sein. Sowohl Präzision als auch Rückruf geben unterschiedliche Informationen, die sich beim Kombinieren gegenseitig ergänzen können. Wenn einer von ihnen mehr als der andere auszeichnet, wird F-Messung es widerspiegeln.

Durchschnittliche Präzision

Präzision und Rückruf sind Einzelwertmetriken, die auf der gesamten Liste der vom System zurückgegebenen Dokumente basieren. Bei Systemen, die eine Rangliste von Dokumenten zurückgeben, ist es wünschenswert, auch die Reihenfolge zu berücksichtigen, in der die zurückgegebenen Dokumente dargestellt werden. Durch Berechnen einer Präzision und eines Rückrufs an jeder Position in der Rangliste der Dokumente kann man eine Präzisions-Recall-Kurve zeichnen, wobei die Präzision aufgetragen wird als Funktion des Rückrufs . Durchschnittliche Präzision berechnet den Durchschnittswert von über das Intervall von zu :[3]

Das ist der Bereich unter der Präzisionsrecall-Kurve. Dieses Integral wird in der Praxis durch eine begrenzte Summe über jede Position in der Rangliste der Dokumente ersetzt:

wo ist der Rang in der Abfolge von abgerufenen Dokumenten, ist die Anzahl der abgerufenen Dokumente, ist die Präzision beim Grenzwert in der Liste und ist die Änderung des Rückrufs von Gegenständen zu .[3]

Diese endliche Summe entspricht:

wo Ist eine Indikatorfunktion, die 1 entspricht, wenn das Element am Rang ist ist ein relevantes Dokument, sonst null.[4] Beachten Sie, dass der Durchschnitt über alle relevanten Dokumente liegt und die nicht abgerufenen Dokumente eine Präzisionsbewertung von Null erhalten.

Einige Autoren interpolieren die Funktionieren Sie, um die Auswirkungen von "Wiggles" in der Kurve zu verringern.[5][6] Zum Beispiel Herausforderung der Pascal -Klassen für visuelle Objekte (ein Benchmark für die Erkennung von Computer Vision Object) bis 2010[7] berechnet die durchschnittliche Genauigkeit durch Mittelung der Genauigkeit über einen Satz gleichmäßig verteilter Rückrufstufen {0, 0,1, 0,2, ... 1,0}:[5][6]

wo ist eine interpolierte Genauigkeit, die die maximale Präzision über alle Rückrufe größer als größer als :

.

Eine Alternative besteht darin, eine Analyse abzuleiten Funktion durch Annahme einer bestimmten parametrischen Verteilung für die zugrunde liegenden Entscheidungswerte. Zum Beispiel a Binormale Präzisionsrecall-Kurve Kann durch Annahme von Entscheidungswerten in beiden Klassen erhalten werden, um einer Gaußschen Verteilung zu folgen.[8]

Präzision bei k

Für das Abrufen des modernen (Webmaßstabs) Informationen ist der Rückruf keine sinnvolle Metrik mehr, da viele Abfragen Tausende relevanter Dokumente haben und nur wenige Benutzer daran interessiert sein werden, alle zu lesen. Präzision Bei K -Dokumenten (P@k) ist immer noch eine nützliche Metrik (z. B. P@10 oder "Genauigkeit bei 10" entspricht der Anzahl der relevanten Ergebnisse unter den Top 10 abgerufenen Dokumenten), berücksichtigt jedoch nicht die Positionen der Positionen der Relevante Dokumente unter den oberen k.[9] Ein weiterer Mangel ist, dass selbst ein perfektes System bei einer Abfrage mit weniger relevanten Ergebnissen als K eine Punktzahl von weniger als 1 hat.[10] Es ist einfacher, manuell zu bewerten, da nur die Top -K -Ergebnisse untersucht werden müssen, um festzustellen, ob sie relevant sind oder nicht.

R-Präzision

R-Präzision erfordert das Wissen aller Dokumente, die für eine Abfrage relevant sind. Die Anzahl der relevanten Dokumente, , wird als Grenzwert für die Berechnung verwendet, und dies variiert von der Abfrage bis zur Abfrage. Wenn beispielsweise 15 Dokumente für "rot" in einem Korpus (r = 15) relevant sind, zählt die relevante Nummer, die relevant sind verwandelt das in eine Relevanzfraktion: .[11]

R-Präzision ist gleich dem Rückruf am R-Th.[10]

Empirisch korreliert diese Maßnahme oft stark mit der durchschnittlichen Präzision.[10]

Mittlere durchschnittliche Präzision

Die mittlere durchschnittliche Präzision (Karte) für eine Reihe von Abfragen ist der Mittelwert der durchschnittliche Präzision Punktzahlen für jede Abfrage.

wo Q ist die Anzahl der Abfragen.

Discounted cumulative gain

Terminologie und Ableitungen
von einem Verwirrung Matrix
Zustand positiv (p)
die Anzahl der realen positiven Fälle in den Daten
Zustand negativ (n)
die Anzahl der realen negativen Fälle in den Daten

wahres positives (TP)
Ein Testergebnis, das das Vorhandensein einer Erkrankung oder eines Merkmals korrekt angibt
True Negative (TN)
Ein Testergebnis, das das Fehlen einer Erkrankung oder Eigenschaft korrekt angibt
Falsch positiv (FP)
Ein Testergebnis, das fälschlicherweise angibt, dass eine bestimmte Bedingung oder ein bestimmtes Attribut vorliegt
Falsch negativ (fn)
Ein Testergebnis, das fälschlicherweise angibt, dass eine bestimmte Bedingung oder ein bestimmtes Attribut fehlt

Empfindlichkeit, abrufen, Trefferquote, oder wahre positive Rate (TPR)
Spezifität, Selektivität oder wahre negative Rate (TNR)
Präzision oder positiv vorhergesagter Wert (PPV)
negativer Vorhersagewert (NPV)
Miss Rate oder Falsche negative Rate (FNR)
ausfallen oder Falsche positive Rate (FPR)
falsche Entdeckungsrate (FDR)
Falsche Auslassung (ZUM)
Positives Wahrscheinlichkeitsverhältnis (LR+)
Negatives Wahrscheinlichkeitsverhältnis (LR-)
Prävalenzschwelle (PT)
Bedrohungsbewertung (TS) oder Critical Success Index (CSI)

Häufigkeit
Richtigkeit (ACC)
ausgewogene Genauigkeit (BA)
F1 -Punktzahl
ist der harmonische Mittel von Präzision und Empfindlichkeit:
PHI -Koeffizient (φ oder rφ) oder Matthews Korrelationskoeffizient (MCC)
Fowlkes - Malllows Index (FM)
Information oder Buchmacher Information (BM)
Ausprägung (Mk) oder deltap (Δp)
Diagnose -Quotenverhältnis (Dor)

Quellen: Fawcett (2006),[12] Piryonesi und El-Diraby (2020),[13] Powers (2011),[14] Ting (2011),[15] CAWCR,[16] D. Chicco & G. Jurman (2020, 2021),[17][18] Tharwat (2018).[19] Balayla (2020)[20] DCG verwendet eine abgestufte Relevanzskala von Dokumenten aus dem Ergebnis, um die Nützlichkeit oder Gewinne eines Dokuments basierend auf seiner Position in der Ergebnisliste zu bewerten. Die Prämisse von DCG besteht darin, dass hochrelevante Dokumente, die in einer Suchergebnisliste niedriger erscheinen, bestraft werden sollten, da der abgestufte Relevanzwert logarithmisch proportional zur Position des Ergebnisses reduziert wird.

Die DCG sammelte sich an einer bestimmten Rangposition ist definiert als:

Da die Ergebnismenge zwischen verschiedenen Abfragen oder Systemen variieren kann, verwendet die normalisierte Version von DCG ein ideales DCG. Zu diesem Zweck sortiert es Dokumente einer Ergebnisliste nach Relevanz und erzeugt ein ideales DCG an Position P (), was die Punktzahl normalisiert:

Die NDCG -Werte für alle Abfragen können gemittelt werden, um ein Maß für die durchschnittliche Leistung eines Ranking -Algorithmus zu erhalten. Beachten Sie, dass in einem perfekten Ranking -Algorithmus die wird dasselbe sein wie die Erzeugung eines NDCG von 1,0. Alle NDCG-Berechnungen sind dann relative Werte im Intervall 0,0 bis 1,0 und somit vergleichbar.

Andere Maßnahmen

Visualisierung

Zu den Visualisierungen der Informationsabrufleistung gehören:

Nicht-Methode

Top -Abfragenliste

Top -Abfragen werden über einen festen Zeitraum die häufigsten Abfragen festgestellt. Die Liste der Top -Abfragen hilft dabei, den von den Benutzern eingegebenen Abfragen zu kennen.

Nicht-Relevanzmetriken

Abfragen pro Zeit

Das Messen, wie viele Abfragen am Suchsystem pro (Monat/Tag/Stunde/Minute/Sec) ausgeführt werden, verfolgt die Auslastung des Suchsystems. Es kann für die Diagnose verwendet werden, um einen unerwarteten Anstieg der Abfragen oder einfach als Grundlinie im Vergleich zu anderen Metriken wie der Abfragelatenz anzuzeigen. Beispielsweise kann ein Anstieg des Abfragungsverkehrs verwendet werden, um einen Anstieg der Abfragelatenz zu erklären.

Siehe auch

Verweise

  1. ^ Karlgren, Jussi (2019). "Einführung systematischer Bewertungsbenchmarks in Betriebsumgebungen" (PDF). Informationsabruf in einer sich verändernden Welt. Abgerufen 27. Juni 2022.
  2. ^ American Marketing Association Wörterbuch. [1] Abgerufen 2012-11-02. Das Marketing Accountability Standards Board (MASB) befürwortet diese Definition als Teil ihrer laufenden Gemeinsame Sprache im Marketingprojekt.
  3. ^ a b Zhu, MU (2004). "Rückruf, Präzision und durchschnittliche Präzision" (PDF). Archiviert von das Original (PDF) Am 2011-05-04. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  4. ^ Turpin, Andrew; Scholer, Falk (2006). Benutzerleistung versus Präzisionsmaßnahmen für einfache Suchaufgaben. Verfahren der 29. jährlichen internationalen ACM Sigir -Konferenz für Forschung und Entwicklung im Informationsabruf (Seattle, WA, 06. bis 11. August 2006). New York, NY: ACM. pp.11–18. Citeseerx 10.1.1.533.4100. doi:10.1145/1148170.1148176. ISBN 978-1-59593-369-0. S2CID 9810253.
  5. ^ a b Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew (Juni 2010). "Die Pascal Visual Object Classes (VOC) Herausforderung" (PDF). Internationales Journal of Computer Vision. 88 (2): 303–338. doi:10.1007/s11263-009-0275-4. HDL:20.500.11820/88A29DE3-6220-442B-AB2D-284210CF72D6. S2CID 4246903. Archiviert von das Original (PDF) Am 2011-11-20. Abgerufen 2011-08-29.
  6. ^ a b Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Einführung zum Informationsabruf. Cambridge University Press.
  7. ^ "Das Entwicklungskit Challenge 2012 (VOC2012) Pascal Visual Object Classes Challenge". Host.robots.ox.ac.uk. Abgerufen 2019-03-23.
  8. ^ K.H. Brodersen, C. S. Ong, K.E. Stephan, J. M. Buhmann (2010). Die binormale Annahme an Präzisionsrecall-Kurven Archiviert 8. Dezember 2012 bei der Wayback -Maschine. Verfahren der 20. Internationalen Konferenz zur Mustererkennung, 4263-4266.
  9. ^ Kalervo, J ~ alevelin (2017). "IR -Bewertungsmethoden zum Abrufen hochrelevanter Dokumente" (PDF). ACM Sigir Forum. 51, 2: 243–250.
  10. ^ a b c Christopher D. Manning; Prabhakar Raghavan & Hinrich Schütze (2009). "Kapitel 8: Bewertung des Informationsabrufs" (PDF). Abgerufen 2015-06-14. Teil von Einführung zum Informationsabruf [2]
  11. ^ a b c d e http://trec.nist.gov/pubs/trec15/appendices/ce.measures06.pdf[Bare URL PDF]
  12. ^ Fawcett, Tom (2006). "Eine Einführung in die ROC -Analyse" (PDF). Mustererkennungsbuchstaben. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  13. ^ Piryonesi S. madeh; El-Diraby Tamer E. (2020-03-01). "Datenanalyse im Vermögensverwaltung: kostengünstige Vorhersage des Index des Pflasterbedingers". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE) IS.1943-555X.0000512.
  14. ^ Powers, David M. W. (2011). "Evaluierung: Von Präzision, Rückruf und F-Messung bis ROC, Information, Markierungs- und Korrelation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  15. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (Hrsg.). Enzyklopädie des maschinellen Lernens. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  16. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group zur Prognoseprüfungsforschung". Zusammenarbeit für australisches Wetter und Klimaforschung. Weltmeteorologische Organisation. Abgerufen 2019-07-17.
  17. ^ Chicco d.; Jurman G. (Januar 2020). "Die Vorteile des Matthews -Korrelationskoeffizienten (MCC) gegenüber F1 -Score und Genauigkeit bei der Bewertung der Binärklassifizierung". BMC -Genomik. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  18. ^ Chicco d.; Toetsch n.; Jurman G. (Februar 2021). "Der Matthews-Korrelationskoeffizient (MCC) ist zuverlässiger als ausgewogene Genauigkeit, die Information von Buchmachern und die Markierung bei der Zweiklasse-Verwirrungsmatrixbewertung". Biodata -Bergbau. 14 (13): 1-22. doi:10.1186/S13040-021-00244-Z. PMC 7863449. PMID 33541410.
  19. ^ Tharwat A. (August 2018). "Klassifizierungsbewertungsmethoden". Angewandte Computer und Informatik. doi:10.1016/j.aci.2018.08.003.
  20. ^ Balayla, Jacques (2020). "Prävalenzschwelle (ϕE) und die Geometrie der Screening -Kurven". Plus eins. 15 (10). doi:10.1371/journal.pone.0240215.
  21. ^ C. Lioma; J. G. Simonsen; B. Larsen (2017). "Bewertungsmaßnahmen für Relevanz und Glaubwürdigkeit in Ranglisten" (PDF). Verfahren der ACM Sigir Internationalen Konferenz zur Theorie des Informationsabrufs, 91-98.