Stoppen Sie das Wort
Stoppen Sie Wörter sind die Wörter in a Stoppliste (oder STOPLIST oder Negatives Wörterbuch), die vor oder nach herausgefiltert werden (d. H. Verarbeitung der natürlichen Sprache Daten (Text), weil sie unbedeutend sind.[1] Es gibt keine einzige universelle Liste von Stoppwörtern, die von allen verwendet werden Verarbeitung natürlicher Sprache Tools oder irgendwelche Regeln für die Identifizierung von Stoppwörtern und in der Tat verwenden nicht alle Tools sogar eine solche Liste. Daher kann jede Gruppe von Wörtern als Stoppwörter für einen bestimmten Zweck ausgewählt werden. Der "allgemeine Trend in [Informationsabruf -Systemen] -Systemen im Laufe der Zeit wurde von der Standardverwendung ziemlich großer Stopplisten (200–300 Begriffe) bis hin zu sehr kleinen Stopplisten (7–12 Begriffe) bis hin zu keinerlei Stoppliste" erfolgt.[2]
Geschichte der Stoppwörter
Ein Vorgängerkonzept wurde verwendet, um einige zu erstellen Konkordanzen. Zum Beispiel die erste hebräische Konkordanz, Me’ir Nativ, enthielt eine einseitige Liste von nicht indizierten Wörtern mit nicht siubstantiven Präpositionen und Konjunktionen, die den modernen Stoppwörtern ähnlich sind.[3]
Hans Peter Luhn, einer der Pioniere in Informationsrückgewinnung, wird das Gemessen des Ausdrucks und die Verwendung des Konzepts bei der Einführung seines Keywords-in-Context-automatischen Indexierungsprozesses zugeschrieben.[4] Der Ausdruck "Stop Word", der sich nicht in Luhns Präsentation von 1959 befindet, und die damit verbundenen Begriffe "Stop -Liste" und "Stoplist" erscheinen kurz darauf in der Literatur.[5]
Obwohl allgemein angenommen wird, dass Stopplisten nur die häufigsten Wörter in einer Sprache enthalten, war es C.J. Van Rijsbergen, der die erste standardisierte Liste vorschlug, die nicht auf Wortfrequenzinformationen basierte. Die "Van -Liste" enthielt 250 englische Wörter. Das in den 1980er Jahren auf der Van -Liste aufgebaute Martin Porters Wort -Stemming -Programm, und die Porter -Liste wird heute in verschiedenen Softwareanwendungen als Standard -Stoplist verwendet.
Im Jahr 1990 schlug Christopher Fox die erste allgemeine Stoppliste vor, die auf empirischen Wortfrequenzinformationen basiert, die vom Brown Corpus abgeleitet wurden:
Dieses Papier berichtet über eine Übung zur Erstellung einer Stoppliste für allgemeine Text, die auf dem Brown Corpus von 1.014.000 Wörtern basiert, die aus einer breiten Palette von Literatur in englischer Sprache stammen. Wir beginnen mit einer Liste von Token, die mehr als 300 Mal im Brown Corpus auftreten. Aus dieser Liste von 278 Wörtern werden 32 ausgewiesen, dass sie als potenzielle Indexbegriffe zu wichtig sind. 26 Wörter werden dann der Liste hinzugefügt, um zu glauben, dass sie in bestimmten Arten von Literatur sehr häufig auftreten können. Schließlich werden 149 Wörter in die Liste hinzugefügt, da der endliche states -maschinenbasierte Filter, in dem diese Liste verwendet werden soll, in der Lage ist, ihn zu fast gar nicht zu filtern. Das Endprodukt ist eine Liste von 421 Stoppwörtern, die bei der Filterung der am häufigsten vorkommenden und semantisch neutralen Wörter in der allgemeinen Literatur in englischer Sprache maximal effizient und effektiv sein sollten.[6]
Im SEO Terminologie, Stoppwörter sind die häufigsten Wörter, die viele Suchmaschinen verwendet haben, um Platz und Zeit bei der Verarbeitung großer Daten während der Verarbeitung zu vermeiden Krabbeln oder Indizierung.
Für einige SuchmaschinenDies sind einige der häufigsten, kurz am meisten Funktionswörter, wie zum Beispiel das, ist, bei, die, und an. In diesem Fall können Stoppwörter Probleme verursachen, wenn Sie nach Phrasen suchen, die sie enthalten, insbesondere in Namen wie "wie" "Die WHO","Die ... Die", oder "Nimm das"Andere Suchmaschinen entfernen einige der häufigsten Wörter - einschließlich lexikalische Wörter, wie "Want" - aus einer Abfrage, um die Leistung zu verbessern.[7]
In den letzten Jahren haben sich die SEO -Best Practices um Stoppwörter zusammen mit den Feldern von entwickelt maschinelles Lernen und Verarbeitung natürlicher Sprache. Im Februar 2021 twitterte John Müller, Webmaster Trends Analyst bei Google: "Ich würde mir überhaupt keine Sorgen um Stoppwörter machen; auf natürliche Weise schreiben. Suchmaschinen betrachten viel, viel mehr als einzelne Wörter."Sein oder nicht sein"Nur eine Sammlung von Stoppwörtern, aber Stopp -Wörter allein tun es nicht gerecht."[8][9]
Siehe auch
- Konzeptabbau
- Füllstoff (Linguistik)
- Funktionswörter
- Index (Suchmaschine)
- Informationsextraktion
- Verarbeitung natürlicher Sprache
- Abfragebehandlung
- Stamm
- Textabbau
Verweise
- ^ Rajaraman, A.; Ullman, J. D. (2011). "Data Mining" (PDF). Bergbau von massiven Datensätzen. S. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 9781139058452.
- ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2008). Einführung zum Informationsabruf. Cambridge University Press. p. 27.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ Weinberg, Bella Hass (2004). "Vorgänger der wissenschaftlichen Indexierungsstrukturen im Bereich der Religion" (PDF). Zweite Konferenz über die Geschichte und das Erbe wissenschaftlicher und technischer Informationssysteme: 126–134. Archiviert von das Original (PDF) Am 3. Januar 2016. Abgerufen 17. Februar 2016.
- ^ Luhn, H. P. (1959). "Keyword-in-Context-Index für die technische Literatur (KWIC-Index)". Amerikanische Dokumentation. Yorktown Heights, NY: International Business Machines Corp. 11 (4): 288–295. doi:10.1002/ASI.5090110403.
- ^ Flood, Barbara J. (1999). "Historischer Hinweis: Der Beginn einer Stoppliste bei biologischen Abstracts". Zeitschrift der American Society for Information Science. 50 (12): 1066. doi:10.1002/(SICI) 1097-4571 (1999) 50:12 <1066 :: Aid-Asi5> 3.0.co; 2-A.
- ^ Fox, Christopher (1989-09-01). "Eine Stoppliste für allgemeine Text". ACM Sigir Forum. 24 (1–2): 19–21. doi:10.1145/378881.378888. ISSN 0163-5840.
- ^ Paketüberfluss: "Eine unserer wichtigsten Leistungsoptimierungen für die Abfrage" Verwandte Fragen "besteht darin Links von den meisten Beiträgen nach dem Entfernen der Top 10K English Dictionary -Wörter. Dies hilft, die zurückgegebenen Ergebnisse zu begrenzen und zu begrenzen, was die Abfrage dramatisch schneller macht. "
- ^ "Google: Hör auf, dir Sorgen um Stoppwörter zu machen, schreibe einfach auf natürliche Weise". seroundtable.com. Abgerufen 2022-07-15.
- ^ John, Müller (6. Februar 2021). "John Müller auf Stoppwörter im Jahr 2021:" Ich würde mir überhaupt keine Sorgen machen, dass Wörter überstößt. "". Twitter. Abgerufen 15. Juli, 2022.
{{}}
: CS1 Wartung: URL-Status (Link)
Externe Links
- Liste der englischen Stoppwörter (PHP -Array, CSV)
- Volltext-Stoppwörter in MySQL
- Englische Stoppwörter (CSV)
- Stopp Wörter Indonesien Abfrage PHP Array
- Deutsche Stoppwörter,Deutsche Stoppwörter und Phrasen, eine andere Liste von Deutsche Stoppwörter
- Polnische Stoppwörter
- Sammlung von Stoppwörtern in 29 Sprachen (Archiv)
- Liste der Hindi -Stoppwörter