W-shingling
Im Verarbeitung natürlicher Sprache a W-Shingling ist ein Satz von einzigartig Gürtelrose (deshalb N-Gramm) Jedes davon besteht aus zusammenhängenden Untersequenzen von Token innerhalb eines dokumentieren, was dann verwendet werden kann, um die zu ermitteln Ähnlichkeit zwischen Dokumenten. Das Symbol w bezeichnet die Menge der Token in jedem ausgewählten Schindel oder gelöst für.
Das Dokument "Eine Rose ist eine Rose ist eine Rose" kann daher maximal sein tokenisiert folgendermaßen:
- (a, Rose, ist, a, Rose, ist, a, Rose)
Das einstellen von allen zusammenhängenden Sequenzen von 4 Token (Also 4 =nsomit 4-Gramm) ist
- {(a, Rose, ist, a), (Rose, ist, a, rose), (ist, a, rose, is), (a, rose, is, a), (Rose, a, Rose) }, Der dann in dieser speziellen Instanz auf {(a, Rose, A), (Rose, a, Rose), (a, a, rose, is)} reduziert oder maximal schindeliert werden kann.
Ähnlichkeit
Für eine bestimmte Schindelgröße, in dem zwei Dokumente zwei Dokumente A und B Ähnliches kann als das Verhältnis der Größen ihrer Schindeln ausdrückt werden. Überschneidung und Union, oder
wo | a | ist die Größe von Set A. Die Ähnlichkeit ist eine Zahl im Bereich [0,1], wobei 1 angibt, dass zwei Dokumente identisch sind. Diese Definition ist identisch mit dem Jaccard -Koeffizient Beschreibung der Ähnlichkeit und Vielfalt von Stichprobensätzen.
Siehe auch
- Konzeptabbau (Alternative Methode zur Berechnung der Ähnlichkeitsähnlichkeit mit einer besseren Rechenkomplexität, aber wenn die Messung die Wahrnehmung der Dokumentenähnlichkeit durch den Menschen enger modelliert.)
- N-Gramm
- K-Mer
- Minhash
- Rolling Hash
- Rabin -Fingerabdruck
- Vektorraummodell
- Modell der Wörter
Verweise
- (Manber 1993) Finden ähnlicher Dateien in einem großen Dateisystem. Verwendet der Begriff "Schindel" noch nicht.
- (Broder, Glassman, Manasse und Zweig 1997) Syntaktisches Clustering des Webs. SRC Technical Note #1997-015.
Externe Links
- Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (7. Juli 2008). "W-Shingling". Einführung zum Informationsabruf. Cambridge University Press. ISBN 978-1-139-47210-4.