Relevanz (Informationsabruf)
Im Informationswissenschaft und Informationsrückgewinnung, Relevanz bezeichnet, wie gut ein abgerufenes Dokument oder eine Reihe von Dokumenten dem erfüllt Informationsbedarf des Benutzer. Relevanz kann Bedenken wie Akten, Autorität oder Neuheit des Ergebnisses umfassen.
Geschichte
Die Sorge um das Problem, relevante Informationen zu finden, stammt aus dem 17. Jahrhundert zumindest auf die erste Veröffentlichung von wissenschaftlichen Zeitschriften.
Die formale Relevanzstudie begann im 20. Jahrhundert mit der Untersuchung dessen, was später genannt werden würde Bibliometrie. In den 1930er und 1940er Jahren,, S. C. Bradford verwendete den Begriff "relevant", um Artikel zu charakterisieren, die für ein Thema relevant sind (vgl., Bradfords Gesetz). In den 1950er Jahren entstanden die ersten Informationsabrufsysteme, und die Forscher stellten das Abrufen irrelevanter Artikel als bedeutendes Anliegen fest. 1958 machte B. C. Vickery das Konzept der Relevanz in einer Ansprache auf der Internationalen Konferenz über wissenschaftliche Informationen ausdrücklich.[1]
Seit 1958 haben Informationswissenschaftler Definitionen von Relevanz untersucht und diskutiert. Ein besonderer Schwerpunkt der Debatte war die Unterscheidung zwischen "Relevanz für ein Thema" oder "topische Relevanz" und "Benutzerrelevanz".[1]
Auswertung
Die Informationsabrufgemeinschaft hat die Verwendung von Testsammlungen und Benchmark -Aufgaben zur Messung der topischen Relevanz betont, beginnend mit dem Cranfield -Experimente der frühen 1960er Jahre und gipfeln in der TREC Bewertungen, die bis heute als Hauptbewertungsrahmen für die Informationsabrufforschung dauern.[2]
Um zu bewerten, wie gut ein Informationsrückgewinnung System abgerufene topisch relevante Ergebnisse, die Relevanz von abgerufenen Ergebnissen muss quantifiziert werden. Im Cranfield-Stil -Bewertungen beinhalten typischerweise die Zuweisung von a Relevanzniveau zu jedem abgerufenen Ergebnis ein Prozess, der als bekannt ist Relevanzbewertung. Relevanzniveaus können binär sein (was darauf hinweist, dass ein Ergebnis relevant ist oder nicht relevant ist) oder bewertet (was die Ergebnisse anzeigen, einen unterschiedlichen Übereinstimmungsgrad zwischen dem Thema des Ergebniss und den Informationsbedürfnissen aufweisen). Sobald die Relevanzniveaus den abgerufenen Ergebnissen zugewiesen wurden, Leistungsmessungen des Informationsabrufs Kann verwendet werden, um die Qualität der Ausgabe eines Abrufsystems zu bewerten.
Im Gegensatz zu diesem Fokus ausschließlich auf die topische Relevanz hat die Informationswissenschaftsgemeinschaft Benutzerstudien hervorgehoben, die die Relevanz der Benutzer berücksichtigen.[3] Diese Studien konzentrieren sich häufig auf Aspekte von Menschliche interaktion mit dem Computer (siehe auch Human-Computer-Informationen Abruf).
Clustering und Relevanz
Das Clusterhypothese, vorgeschlagen von C. J. Van Rijsbergen 1979 behauptet, dass zwei Dokumente, die einander ähnlich sind, eine hohe Wahrscheinlichkeit haben, für die gleichen Informationsbedürfnisse relevant zu sein. In Bezug auf den Einbettungs -Ähnlichkeitsraum kann die Clusterhypothese global oder lokal interpretiert werden.[4] Die globale Interpretation geht davon aus, dass es einige feste Reihe von zugrunde liegenden Themen gibt, die aus der Ähnlichkeit zwischen Dokument abgeleitet werden. Diese globalen Cluster oder ihre Vertreter können dann verwendet werden, um die Relevanz von zwei Dokumenten in Beziehung zu setzen (z. B. zwei Dokumente im selben Cluster sollten beide für dieselbe Anfrage relevant sein). Zu den Methoden in diesem Sinne gehören:
- Cluster-basierte Informationsabnahme[5][6]
- Cluster-basierte Dokumenterweiterung wie z. Latente semantische Analyse oder seine Sprachmodellierungsäquivalente.[7] Es ist wichtig sicherzustellen, dass Cluster - entweder isoliert oder in Kombination - den Satz möglicher relevanter Dokumente erfolgreich modellieren.
Eine zweite Interpretation, vor allem durch Fortgeschrittene durch Ellen Voorhees,[8] konzentriert sich auf die lokalen Beziehungen zwischen Dokumenten. Die lokale Interpretation vermeidet es, die Anzahl oder Größe der Cluster in der Sammlung zu modellieren und auf mehreren Skalen Relevanz zu ermöglichen. Zu den Methoden in diesem Sinne gehören:
- Mehrfacher Cluster -Abruf[6][8]
- Aktivierung ausbreiten[9] und Relevanzausbreitung[10] Methoden
- Lokale Dokumentweiterung[11]
- Score -Regularisierung[12]
Lokale Methoden erfordern ein genaues und geeignetes Dokument Ähnlichkeitsmaß.
Probleme und Alternativen
Die am relevantesten Dokumente sind nicht unbedingt diejenigen, die auf der ersten Seite der Suchergebnisse am nützlichsten sind. Beispielsweise können zwei doppelte Dokumente individuell als sehr relevant angesehen werden, ist jedoch nur nützlich, um eines davon anzuzeigen. Eine Maßnahme namens "maximale marginale Relevanz" (MMR) wurde vorgeschlagen, um diesen Mangel zu überwinden. Es berücksichtigt die Relevanz jedes Dokuments nur in Bezug darauf, wie viel neue Informationen die vorherigen Ergebnisse erzielt.[13]
In einigen Fällen kann eine Abfrage eine mehrdeutige Interpretation oder eine Vielzahl potenzieller Antworten aufweisen. Die Bereitstellung einer Vielfalt von Ergebnissen kann bei der Bewertung des Nutzens eines Ergebnissatzes eine Überlegung sein.[14]
Siehe auch
Verweise
- ^ a b Mizzaro, Stefano (1997). "Relevanz: die ganze Geschichte" (PDF). Zeitschrift der American Society for Information Science. 48 (9): 810–832. doi:10.1002/(SICI) 1097-4571 (199709) 48: 9 <810 :: Aid-Asi6> 3.0.co; 2-u.
- ^ Sanderson, P. Clough, M. (2013-06-15). "Bewertung der Leistung von Informationsabrufsystemen mithilfe von Testsammlungen". Informationr.net. Abgerufen 2020-05-28.
- ^ Yunjie, Xu (2006). "Relevanzurteil: Was betrachten die Benutzer über die Topikalität hinaus?". Zeitschrift der American Society for Information Science und Technologie. 57 (7): 961–973. doi:10.1002/asi.20361.
- ^ F. Diaz, Autokorrelation und Regularisierung von Abfragebasis Abrufwerten. Doktorarbeit, Universität von Massachusetts Amherst, Amherst, MA, Februar 2008, Kapitel 3.
- ^ Croft, W.bruce (1980). "Ein Modell der Clustersuche basierend auf der Klassifizierung". Informationssysteme. 5 (3): 189–195. doi:10.1016/0306-4379 (80) 90010-1.
- ^ a b Griffiths, Alan; Luckhurst, H. Claire; Willett, Peter (1986). "Verwenden von Interdokument -Ähnlichkeitsinformationen in Dokumentenabrufsystemen" (PDF). Zeitschrift der American Society for Information Science. 37: 3–11. doi:10.1002/(SICI) 1097-4571 (198601) 37: 1 <3 :: Aid-Asi1> 3.0.co; 2-o.
- ^ X. Liu und W. B. Croft “,“Cluster-basierte Abruf mit Sprachmodellen, ”In Sigir ’04: Proceedings der 27. jährlichen Internationalen Konferenz für Forschung und Entwicklung im Informationsabruf (New York, NY, USA), S. 186–193, ACM Press, 2004.
- ^ a b E. M. Voorhees, "Die Cluster -Hypothese Revisited" in Sigir ’85: Proceedings der 8. jährlichen internationalen ACM Sigir -Konferenz für Forschung und Entwicklung im Informationsabruf (New York, NY, USA), S. 188–196, ACM Press, 1985.
- ^ S. Preece, ein Verbreitungsaktivierungsnetzwerkmodell zum Abrufen von Informationen. Doktorarbeit, Universität von Illinois, Urbana-Champaign, 1981.
- ^ T. Qin, T.-Y. Liu, X.-D. Zhang, Z. Chen und W.-Y. Ma, "Eine Untersuchung der Relevanzverbreitung für die Websuche, ”In Sigir ’05: Proceedings der 28. jährlichen International ACM Sigir Conference für Forschung und Entwicklung im Informationsabruf (New York, NY, USA), S. 408–415, ACM Press, 2005.
- ^ A. Singhal und F. Pereira, “Dokumentausweiterung für Sprachabnahme, ”In Sigir ’99: Proceedings der 22. jährlichen internationalen ACM Sigir -Konferenz für Forschung und Entwicklung im Informationsabruf (New York, NY, USA), S. 34–41, ACM Press, 1999.
- ^ Qin, Tao; Liu, Tie-Yan; Zhang, Xu-dong; Chen, Zheng; MA, Weiging (2005). "Eine Studie zur Relevanzverbreitung für die Websuche" (PDF). Proceedings der 28. jährlichen International ACM Sigir -Konferenz über Forschung und Entwicklung im Informationsabruf. p. 408. doi:10.1145/1076034.1076105. ISBN 1595930345.
- ^ Carbonell, Jaime; Goldstein, Jade (1998). "Die Verwendung von MMR, diversitätsbasiertem Umbau für das Nachbestehen von Dokumenten und das Erstellen von Zusammenfassungen". Proceedings der 21. jährlichen International ACM Sigir -Konferenz über Forschung und Entwicklung im Informationsabruf. S. 335–336. Citeseerx 10.1.1.50.2490. doi:10.1145/290941.291025. ISBN 978-1581130157.
- ^ "Vielfalt in Dokument Abruf (DDR) 2012".
Weitere Lektüre
- Hjørland, Birger (2010). "Die Grundlage des Konzepts der Relevanz" (PDF). Zeitschrift der American Society for Information Science und Technologie. 61 (2): 217–237. doi:10.1002/asi.21261.
- Relevanz: Kommunikation und Kognition. von Dan Sperber; Deirdre Wilson. 2. Aufl. Oxford; Cambridge, MA: Blackwell Publishers, 2001. ISBN978-0-631-19878-9
- Saracevic, Tefko (1975). "Relevanz: Ein Überblick über und ein Rahmen für das Denken über den Begriff in der Informationswissenschaft" (PDF). Zeitschrift der American Society for Information Science. 26 (6): 321–343. doi:10.1002/ASI.4630260604.
- Saracevic, Tefko (2007). "Relevanz: Eine Überprüfung der Literatur und ein Rahmen für das Denken über den Begriff in der Informationswissenschaft. Teil II: Natur und Manifestationen von Relevanz" (PDF). Zeitschrift der American Society for Information Science und Technologie. 58 (13): 1915–1933. doi:10.1002/asi.20682. Archiviert von das Original (PDF) am 2008-02-21.
- Saracevic, Tefko (2007). "Relevanz: Eine Überprüfung der Literatur und ein Rahmen für das Denken über den Begriff in der Informationswissenschaft. Teil III: Verhalten und Auswirkungen der Relevanz" (PDF). Zeitschrift der American Society for Information Science und Technologie. 58 (13): 2126–2144. doi:10.1002/asi.20681. Archiviert von das Original (PDF) am 2008-02-21.
- Saracevic, T. (2007). Relevanz in der Informationswissenschaft. Eingeladener jährlicher Thomson Scientific Lazerow Memorial Lecture an der School of Information Sciences, Universität von Tennessee. 19. September 2007. ((Video)
- Einführung zum Informationsabruf: Bewertung. Stanford. (Präsentation in PDF)