W-shingling

Im Verarbeitung natürlicher Sprache a W-Shingling ist ein Satz von einzigartig Gürtelrose (deshalb N-Gramm) Jedes davon besteht aus zusammenhängenden Untersequenzen von Token innerhalb eines dokumentieren, was dann verwendet werden kann, um die zu ermitteln Ähnlichkeit zwischen Dokumenten. Das Symbol w bezeichnet die Menge der Token in jedem ausgewählten Schindel oder gelöst für.

Das Dokument "Eine Rose ist eine Rose ist eine Rose" kann daher maximal sein tokenisiert folgendermaßen:

(a, Rose, ist, a, Rose, ist, a, Rose)

Das einstellen von allen zusammenhängenden Sequenzen von 4 Token (Also 4 =nsomit 4-Gramm) ist

{(a, Rose, ist, a), (Rose, ist, a, rose), (ist, a, rose, is), (a, rose, is, a), (Rose, a, Rose) }, Der dann in dieser speziellen Instanz auf {(a, Rose, A), (Rose, a, Rose), (a, a, rose, is)} reduziert oder maximal schindeliert werden kann.

Ähnlichkeit

Für eine bestimmte Schindelgröße, in dem zwei Dokumente zwei Dokumente A und B Ähnliches kann als das Verhältnis der Größen ihrer Schindeln ausdrückt werden. Überschneidung und Union, oder

wo | a | ist die Größe von Set A. Die Ähnlichkeit ist eine Zahl im Bereich [0,1], wobei 1 angibt, dass zwei Dokumente identisch sind. Diese Definition ist identisch mit dem Jaccard -Koeffizient Beschreibung der Ähnlichkeit und Vielfalt von Stichprobensätzen.

Siehe auch

Verweise

Externe Links

  • Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (7. Juli 2008). "W-Shingling". Einführung zum Informationsabruf. Cambridge University Press. ISBN 978-1-139-47210-4.