Verallgemeinerter Vektorraummodell
Das Verallgemeinerter Vektorraummodell ist eine Verallgemeinerung der Vektorraummodell benutzt in Informationsrückgewinnung. Wong et al.[1] präsentierte eine Analyse der Probleme, die die paarweise Orthogonalitätsannahme der Vektorraummodell (VSM) schafft. Von hier aus erweiterten sie das VSM auf das generalisierte Vektorraummodell (GVSM).
Definitionen
GVSM führt den Begriff Korrelationen ein, die die paarweise Orthogonalitätsannahme abwerten. Insbesondere der Faktor betrachtete einen neuen Raum, in dem jeder Begriff Vektor ti wurde als lineare Kombination von ausgedrückt 2n Vektoren mr wo r = 1 ... 2n.
Für ein Dokument dk und eine Frage q Die Ähnlichkeitsfunktion wird nun:
wo ti und tj sind jetzt Vektoren von a 2n Dimensionsraum.
Begriffskorrelation kann auf verschiedene Arten implementiert werden. Zum Beispiel haben Wong et al. Verwendet die Begriff Auftrittsfrequenzmatrix, die aus der automatischen Indexierung als Eingabe in ihren Algorithmus erhalten wurde. Der Begriff Auftreten und der Ausgang sind die Begriffskorrelation zwischen einem beliebigen Paar von Indexbegriffen.
Semantische Informationen zu GVSM
Es gibt mindestens zwei grundlegende Anweisungen zum Einbettung von Term in die Begriffsbekämpfung, außer als genaues Keyword -Matching, in ein Abrufmodell:
- Berechnen Sie semantische Korrelationen zwischen Begriffen
- Berechnung der Frequenz-Ko-Aufrufstatistik aus großen Korpora
Kürzlich Tsatsaronis[2] konzentriert sich auf den ersten Ansatz.
Sie messen semantische Verwandtschaft (Sr) unter Verwendung eines Thesaurus (O) wie Wordnet. Es berücksichtigt die durch Kompaktheit erfasste Pfadlänge (erfasst durch Kompaktheit (SCM) und die Pfadtiefe, erfasst durch semantische Pfadausarbeitung (Spe). Sie schätzen die inneres Produkt von:
wo si und sj sind Begriffssinns ti und tj jeweils maximieren .
Bauen auch nach dem ersten Ansatz haben Waitelonis et al.[3] semantische Verwandtschaft berechnet haben aus Verknüpfte offene Daten Ressourcen einschließlich Dbpedia ebenso wie Yago Taxonomie. Dadurch nutzen sie taxonomische Beziehungen zwischen semantischen Einheiten in Dokumenten und Fragen danach benannte Entitätsverknüpfung.
Verweise
- ^ Wong, S. K. M.; Ziarko, Wojciech; Wong, Patrick C. N. (1985-06-05), "Generalized Vector Spaces Model in Information Abruf", Proceedings der 8. jährlichen internationalen ACM Sigir -Konferenz für Forschung und Entwicklung im Informationsabruf - Sigir '85, Sigir ACM, S. 18–25,, doi:10.1145/253495.253506, ISBN 0897911598
- ^ Tsatsaronis, George; Panagiotopoulou, Vicky (2009-04-02), Ein verallgemeinertes Vektorraummodell für das Abrufen von Text basierend auf semantischer Verwandtschaft (PDF), EACL ACM
- ^ Waitelonis, Jörg; Exeler, Claudia; Sack, Harald (2015-09-11), Verbindete Daten ermöglichten das verallgemeinerte Vektorraummodell, um das Abrufen von Dokumenten zu verbessern (PDF), ISWC 2015, CEUR-WS 1581