Suchmaschinenindizierung

Suchmaschinenindizierung ist das Sammeln, Parsingund Speichern von Daten, um schnell und genau zu erleichtern Informationsrückgewinnung. Das Indexdesign enthält interdisziplinäre Konzepte aus der Linguistik, kognitive Psychologie, Mathematik, Informatik, und Informatik. Ein alternativer Name für den Prozess im Kontext von Suchmaschinen entworfen, um zu finden Webseiten Im Internet ist Webindizierung.

Beliebte Motoren konzentrieren sich auf die Volltextindizierung von Online, Natürliche Sprache Unterlagen.[1] Medientypen wie Bilder, Video,[2] Audio,[3] und Grafik[4] sind auch durchsuchbar.

Meta -Suchmaschinen Verwenden Sie die Indizes anderer Dienste wieder und speichern Sie keinen lokalen Index, während Cache-basierte Suchmaschinen den Index dauerhaft zusammen mit dem speichern Korpus. Im Gegensatz zu Volltextindizes beschränken Teil-Text-Dienste die indexierte Tiefe, um die Indexgröße zu reduzieren. Größere Dienste führen in der Regel aufgrund der erforderlichen Zeit- und Verarbeitungskosten in einem vorgegebenen Zeitintervall durch Agent-basierten Suchmaschinenindex in Echtzeit.

Indizierung

Der Zweck des Speicherns eines Index besteht darin, Geschwindigkeit und Leistung beim Finden zu optimieren relevant Dokumente für eine Suchabfrage. Ohne einen Index würde die Suchmaschine Scan Jedes Dokument in der Korpus, was erhebliche Zeit und Rechenleistung erfordern würde. Während beispielsweise ein Index von 10.000 Dokumenten in Millisekunden abfragt werden kann, kann ein sequentieller Scan jedes Wortes in 10.000 großen Dokumenten Stunden dauern. Das zusätzliche Computerspeicher Erforderlich, um den Index zu speichern, sowie die erhebliche Zunahme der Zeit, die für ein Update erforderlich ist, werden für die Zeit, die während des Informationsabrufs gespeichert wird, ausgetauscht.

Indexdesignfaktoren

Zu den wichtigsten Faktoren bei der Gestaltung der Architektur einer Suchmaschine gehören:

Faktoren verschmelzen
Wie Daten in den Index eingeben oder wie Wörter oder Subjektfunktionen dem Index während des Text -Corpus -Durchlaufens des Textes hinzugefügt werden und ob mehrere Indexer asynchron arbeiten können. Der Indexer muss zuerst überprüfen, ob er alte Inhalte aktualisiert oder neue Inhalte hinzufügt. Traversal korreliert typischerweise mit dem Datensammlung Politik. Suchmaschinenindex -Zusammenführung ist im Konzept ähnlich wie SQL Zusammenführung Befehl und andere Merge -Algorithmen.[5]
Speichertechniken
So speichern Sie den Index Datendas heißt, ob Informationen daten komprimiert oder gefiltert werden sollten.
Indexgröße
Wie viel Computerspeicher ist erforderlich, um den Index zu unterstützen.
Suchgeschwindigkeit
Wie schnell kann ein Wort in der gefunden werden Umgekehrter Index. Die Geschwindigkeit, um einen Eintrag in einer Datenstruktur zu finden, im Vergleich zu der schneller Aktualisierung oder Entfernung, ist ein zentraler Schwerpunkt der Informatik.
Wartung
Wie der Index im Laufe der Zeit aufrechterhalten wird.[6]
Fehlertoleranz
Wie wichtig es ist, dass der Dienst zuverlässig ist. Zu den Problemen gehören der Umgang mit Indexkorruption, festzustellen, ob schlechte Daten isoliert behandelt werden können, um schlechte Hardware zu handeln, Partitionierungund Schemata wie Hash-basierte oder zusammengesetzte Partitionierung,[7] ebenso gut wie Reproduzieren.

Indexdatenstrukturen

Suchmaschinenarchitekturen variieren in der Art und Weise, wie die Indexierung durchgeführt wird, und in Methoden des Indexspeichers, um die verschiedenen Konstruktionsfaktoren zu erfüllen.

Suffixbaum
Im übertragenen Sinne wie ein Baum strukturiert und unterstützt die lineare Zeitschauer. Gebaut durch Speichern der Suffixe von Wörtern. Der Suffixbaum ist eine Art von Art von Trie. Versucht Unterstützung verlängerbares Hashing, was für die Suchmaschinenindizierung wichtig ist.[8] Wird zur Suche nach Mustern in verwendet DNA Sequenzen und Clustering. Ein großer Nachteil ist, dass das Speichern eines Wortes im Baum möglicherweise Platz erfordern, das über das ist, um das Wort selbst zu speichern.[9] Eine alternative Darstellung ist a Suffix -Array, was als weniger virtuellem Speicher angesehen wird und die Datenkomprimierung wie die unterstützt BWT Algorithmus.
Umgekehrter Index
Speichert eine Liste der Vorkommen jedes Atom -Suchkriteriums,[10] Typischerweise in Form von a Hash-tabelle oder Binärbaum.[11][12]
Zitierindex
Speichert Zitate oder Hyperlinks zwischen Dokumenten zur Unterstützung der Zitieranalyse, ein Thema von Bibliometrie.
n-Gram Index
Speichert Sequenzen der Datenlänge, um andere Arten des Abrufs zu unterstützen oder Textabbau.[13]
Dokumentenmatrix
Wird in der latenten semantischen Analyse verwendet, speichert das Auftreten von Wörtern in Dokumenten in einem zweidimensionalen spärliche Matrix.

Herausforderungen in Parallelität

Eine große Herausforderung bei der Gestaltung von Suchmaschinen ist das Management serieller Computerprozesse. Es gibt viele Möglichkeiten für Rennbedingungen und kohärente Fehler. Beispielsweise wird dem Korpus ein neues Dokument hinzugefügt und der Index muss aktualisiert werden, aber der Index muss gleichzeitig weiter auf Suchanfragen reagieren. Dies ist eine Kollision zwischen zwei konkurrierenden Aufgaben. Bedenken Sie, dass Autoren Informationsproduzenten sind und a Web -Crawler ist der Verbraucher dieser Informationen, schnappt sich den Text und speichert ihn in einem Cache (oder Korpus). Der Vorwärtsindex ist der Verbraucher der vom Korpus erstellten Informationen, und der invertierte Index ist der Verbraucher von Informationen, die vom Vorwärtsindex erstellt wurden. Dies wird allgemein als als bezeichnet Hersteller-Verbrauchermodell. Der Indexer ist der Hersteller von durchsuchbaren Informationen und Benutzer sind die Verbraucher, die suchen müssen. Die Herausforderung wird bei der Arbeit mit verteilter Speicherung und verteilter Verarbeitung vergrößert. Um mit größeren Mengen an indizierten Informationen zu skalieren, kann die Architektur der Suchmaschine beinhalten verteiltes Computer, wo die Suchmaschine aus mehreren Maschinen besteht, die im Einklang arbeiten. Dies erhöht die Inkohärenzmöglichkeiten und erschwert es, eine vollständig synchronisierte, verteilte parallele Architektur aufrechtzuerhalten.[14]

Umgekehrte Indizes

Viele Suchmaschinen enthalten eine Umgekehrter Index Bei der Bewertung a Suchanfrage Um schnell Dokumente zu finden, die die Wörter in einer Abfrage enthalten, und diese Dokumente dann nach Relevanz einräumen. Da der invertierte Index eine Liste der Dokumente mit jedem Wort speichert, kann die Suchmaschine direkt verwenden Zugang So finden Sie die Dokumente, die jedem Wort in der Abfrage zugeordnet sind, um die übereinstimmenden Dokumente schnell abzurufen. Das Folgende ist eine vereinfachte Darstellung eines umgekehrten Index:

Umgekehrter Index
Wort Unterlagen
das Dokument 1, Dokument 3, Dokument 4, Dokument 5, Dokument 7
Kuh Dokument 2, Dokument 3, Dokument 4
sagt Dokument 5
muhen Dokument 7

Dieser Index kann nur bestimmen, ob ein Wort in einem bestimmten Dokument vorhanden ist, da es keine Informationen über die Häufigkeit und Position des Wortes speichert. es wird daher als a angesehen Boolesche Index. Ein solcher Index bestimmt, welche Dokumente mit einer Abfrage übereinstimmen, die übereinstimmenden Dokumente jedoch nicht rangieren. In einigen Entwürfen enthält der Index zusätzliche Informationen wie die Häufigkeit jedes Wortes in jedem Dokument oder die Positionen eines Wortes in jedem Dokument.[15] Positionsinformationen ermöglichen es dem Suchalgorithmus, die Word -Nähe zu identifizieren, um die Suche nach Phrasen zu unterstützen. Die Frequenz kann verwendet werden, um die Relevanz von Dokumenten für die Abfrage zu richten. Solche Themen sind der zentrale Forschungsschwerpunkt von Informationsrückgewinnung.

Der umgekehrte Index ist a spärliche Matrix, da nicht alle Wörter in jedem Dokument vorhanden sind. Reduzieren Computerspeicher Speicheranforderungen, es wird unterschiedlich als zweidimensional gespeichert Array. Der Index ähnelt dem Term Dokumentmatrizen angestellt bei Latente semantische Analyse. Der umgekehrte Index kann als Form einer Hash -Tabelle angesehen werden. In einigen Fällen ist der Index eine Form von a Binärbaum, was zusätzlichen Speicher benötigt, aber die Nachbesserungszeit verkürzen kann. In größeren Indizes ist die Architektur normalerweise a verteilte Hash -Tabelle.[16]

Indexverschmelzung

Der umgekehrte Index wird über einen Zusammenschluss oder einen Wiederaufbau gefüllt. Ein Wiederaufbau ähnelt einem Zusammenschluss, löscht jedoch zunächst den Inhalt des umgekehrten Index. Die Architektur kann so konzipiert werden, dass die inkrementelle Indizierung unterstützt wird.[17] Wenn ein Merge das Dokument oder die Dokumente identifiziert, die hinzugefügt oder aktualisiert werden sollen, und dann jedes Dokument in Wörter analysiert. Für die technische Genauigkeit verbindet eine Zusammenführung neu indizierte Dokumente, die normalerweise im virtuellen Speicher leben, wobei der Index -Cache auf einem oder mehreren Computer -Festplatten liegt.

Nach der Parsen fügt der Indexer das referenzierte Dokument in die Dokumentliste für die entsprechenden Wörter hinzu. In einer größeren Suchmaschine kann der Prozess, jedes Wort im umgekehrten Index zu finden (um zu berichten, dass es in einem Dokument aufgetreten ist) zu zeitaufwändig sein kann, und so wird dieser Prozess üblicherweise in zwei Teile aufgeteilt, die Entwicklung von a Vorwärtsindex und ein Prozess, der den Inhalt des Vorwärtsindex in den umgekehrten Index sortiert. Der umgekehrte Index ist so benannt, weil er eine Inversion des Forward -Index ist.

Der Vorwärtsindex

Der Vorwärtsindex speichert eine Liste von Wörtern für jedes Dokument. Das Folgende ist eine vereinfachte Form des Vorwärtsindex:

Vorwärtsindex
Dokumentieren Wörter
Dokument 1 Die Kuh, sagt, Moo
Dokument 2 Die Katze und, der Hut
Dokument 3 Das, lief, rannte, weg, mit dem Löffel

Die Begründung hinter der Entwicklung eines Vorwärtsindex ist, dass es besser ist, die Wörter pro Dokument miteinander zu speichern. Die Abgrenzung ermöglicht eine asynchrone Systemverarbeitung, die den Umgang mit invertiertem Index -Update -Engpass teilweise umgeht.[18] Der Vorwärtsindex ist sortiert Um es in einen umgekehrten Index zu verwandeln. Der Vorwärtsindex ist im Wesentlichen eine Liste von Paaren, die aus einem Dokument und einem Wort bestehen, das vom Dokument zusammengestellt wurde. Das Konvertieren des Vorwärtsindex in einen umgekehrten Index ist nur eine Frage der Sortierung der Paare nach den Wörtern. In dieser Hinsicht ist der umgekehrte Index ein wortsortierter Vorwärtsindex.

Kompression

Die Erzeugung oder Wartung eines großen Suchmaschinenindex ist eine erhebliche Speicher- und Verarbeitungsherausforderung. Viele Suchmaschinen verwenden eine Form von Kompression Um die Größe der Indizes zu verringern Scheibe.[19] Betrachten Sie das folgende Szenario für einen Volltext, Internet -Suchmaschine.

  • Es dauert 8 Bit (oder 1 Byte) um ein einzelnes Zeichen zu speichern. Etwas Codierungen Verwenden Sie 2 Bytes pro Charakter[20][21]
  • Die durchschnittliche Anzahl von Zeichen in einem bestimmten Wort auf einer Seite kann auf 5 geschätzt werden (Wikipedia: Größenvergleich)

Angesichts dieses Szenarios ein unkomprimierter Index (unter der Annahme eines Nicht-Nichtszusammengebunden, einfach, Index) für 2 Milliarden Webseiten müssten 500 Milliarden Worteinträge speichern. Bei 1 Byte pro Charakter oder 5 Bytes pro Wort würde dies allein 2500 Gigabyte Speicherplatz erfordern. Diese Platzanforderung kann für eine verteilte Speicherarchitektur für fehlertolerante Verteilungen sogar noch größer sein. Abhängig von der gewählten Komprimierungstechnik kann der Index auf einen Bruchteil dieser Größe reduziert werden. Der Kompromiss ist die Zeit und die Verarbeitungsleistung, die zur Durchführung von Komprimierung und Dekompression erforderlich ist.

Insbesondere umfassen große Suchmaschinenkonstruktionen die Lagerkosten sowie die Stromkosten für die Stromversorgung des Lageres. Somit ist Komprimierung ein Maß für die Kosten.

Dokument an Parsen

Das Dokument Parsing bricht die Komponenten (Wörter) eines Dokuments oder eine andere Form von Medien zum Einfügen in die Vorwärts- und Inverted -Indizes ab. Die gefundenen Wörter werden genannt Tokenund so im Kontext der Suchmaschinenindizierung und Verarbeitung natürlicher SpracheDas Parsen wird häufiger als als bezeichnet als Tokenisierung. Es wird manchmal auch als Wortgrenze -Disambiguierung bezeichnet, Tagging, Textsegmentierung, Inhaltsanalyse, Textanalyse, Textabbau, Konkordanz Generation, Sprachsegmentierung, Lexing, oder lexikalische Analyse. Die Begriffe "Indexierung", "Parsen" und "Tokenisierung" werden synonym im Unternehmens -Slang verwendet.

Die Verarbeitung natürlicher Sprache ist Gegenstand kontinuierlicher Forschung und technologischer Verbesserung. Die Tokenisierung stellt viele Herausforderungen beim Extrahieren der erforderlichen Informationen aus Dokumenten zur Indizierung zur Unterstützung der Qualitätssuchung. Die Tokenisierung für die Indexierung beinhaltet mehrere Technologien, deren Umsetzung üblicherweise als Unternehmensgeheimnisse aufbewahrt wird.

Herausforderungen in der Verarbeitung natürlicher Sprache

Wortgrenze -Unklarheit
Einheimisch Englisch Redner mögen zunächst die Tokenisierung als eine einfache Aufgabe betrachten, aber dies ist bei der Entwerfen von a nicht der Fall mehrsprachig Indexer. In digitaler Form die Texte anderer Sprachen wie z. Chinesisch, japanisch oder Arabisch eine größere Herausforderung darstellen, da Wörter nicht klar durch Whitespace. Das Ziel während der Tokenisierung ist es, Wörter zu identifizieren, nach denen Benutzer suchen. Sprachspezifische Logik wird verwendet, um die Grenzen von Wörtern ordnungsgemäß zu identifizieren, was häufig die Gründe für die Gestaltung eines Parsers für jede unterstützte Sprache (oder für Gruppen von Sprachen mit ähnlichen Grenzmarkierungen und Syntax) ist.
Sprachmehrdeutigkeit
Um beim richtigen Ranking zu helfen[22] Übereinstimmende Dokumente sammeln viele Suchmaschinen zusätzliche Informationen zu jedem Wort wie der Sprache oder Lexikalkategorie (Teil der Rede). Diese Techniken sind sprachabhängig, da die Syntax zwischen den Sprachen variiert. Dokumente identifizieren nicht immer die Sprache des Dokuments oder stellen es genau dar. Bei der Tokenisierung des Dokuments versuchen einige Suchmaschinen, die Sprache des Dokuments automatisch zu identifizieren.
Verschiedene Dateiformate
Um korrekt zu identifizieren, welche Bytes eines Dokuments Zeichen darstellen, muss das Dateiformat korrekt behandelt werden. Suchmaschinen, die mehrere Dateiformate unterstützen, müssen in der Lage sein, das Dokument korrekt zu öffnen und zugreifen zu können und die Zeichen des Dokuments zu tokenisieren.
Fehlerhafter Speicher
Die Qualität der natürlichen Sprachdaten ist möglicherweise nicht immer perfekt. Eine nicht näher bezeichnete Anzahl von Dokumenten, insbesondere im Internet, befolgt das ordnungsgemäße Dateiprotokoll nicht genau. Binär Charaktere können fälschlicherweise in verschiedene Teile eines Dokuments codiert werden. Ohne Erkennung dieser Zeichen und angemessener Handhabung könnte sich die Indexqualität oder die Indexer -Leistung abbauen.

Tokenisierung

nicht wie gebildet Menschen, Computer verstehen die Struktur eines natürlichen Sprachdokuments nicht und können Wörter und Sätze nicht automatisch erkennen. Für einen Computer ist ein Dokument nur eine Abfolge von Bytes. Computer wissen nicht, dass ein Speicherzeichen Wörter in einem Dokument trennt. Stattdessen müssen Menschen den Computer programmieren, um zu identifizieren, was ein individuelles oder eindeutiges Wort als Token darstellt. Ein solches Programm wird allgemein als a genannt Tokenizer oder Parser oder Lexer. Viele Suchmaschinen sowie andere Software für natürliche Sprachverarbeitung integrieren Spezialprogramme zum Parsen, wie z. Yacc oder Lex.

Während der Tokenisierung identifiziert der Parser Sequenzen von Zeichen, die Wörter und andere Elemente darstellen, wie z. B. Zeichensetzung, die durch numerische Codes dargestellt werden, von denen einige nicht-druckende Kontrollzeichen sind. Der Parser kann sich auch identifizieren Entitäten wie zum Beispiel Email Adressen, Telefonnummern und URLs. Wenn Sie jedes Token identifizieren, können mehrere Eigenschaften gespeichert werden, wie z. Anzahl, Satzposition, Länge und Zeilennummer.

Spracherkennung

Wenn die Suchmaschine mehrere Sprachen unterstützt, besteht ein gemeinsamer Anfangsschritt während der Tokenisierung darin, die Sprache jedes Dokuments zu identifizieren. Viele der nachfolgenden Schritte sind sprachabhängig (wie z. Stamm und Teil der Rede Tagging). Spracherkennung ist der Prozess, mit dem ein Computerprogramm versucht, automatisch zu identifizieren oder zu kategorisieren, die Sprache eines Dokuments. Andere Namen für die Spracherkennung sind Sprachklassifizierung, Sprachanalyse, Sprachidentifizierung und Sprach -Tagging. Die automatisierte Spracherkennung ist Gegenstand einer laufenden Forschung in Verarbeitung natürlicher Sprache. Das Finden der Sprache, zu der die Wörter gehört, kann die Verwendung eines Spracherkennungsdiagramms beinhalten.

Formatanalyse

Wenn die Suchmaschine mehrere unterstützt Dokumentformate, Dokumente müssen für die Tokenisierung vorbereitet sein. Die Herausforderung besteht darin, dass viele Dokumentformate zusätzlich zu Textinhalten Formatierungsinformationen enthalten. Zum Beispiel, Html Dokumente enthalten HTML -Tags, die Formatierungsinformationen wie neue Zeilenstarts, mutige Schwerpunkte und festlegen Schriftart Größe oder Stil. Wenn die Suchmaschine den Unterschied zwischen Inhalten und „Markup“ ignorieren würde, würden in den Index fremde Informationen aufgenommen, was zu schlechten Suchergebnissen führt. Formatanalyse ist die Identifizierung und Handhabung der in Dokumente eingebetteten Formatierungsinhalte, die die Art und Weise steuert, wie das Dokument auf einem Computerbildschirm gerendert oder von einem Softwareprogramm interpretiert wird. Die Formatanalyse wird auch als Strukturanalyse, Formatanalyse, Tag -Stripping, Formatstrippen, Textnormalisierung, Textreinigung und Textvorbereitung bezeichnet. Die Herausforderung der Formatanalyse wird durch die Feinheiten verschiedener Dateiformate weiter kompliziert. Bestimmte Dateiformate sind geschützt mit sehr wenigen Informationen, die gut dokumentiert sind. Häufige, gut dokumentierte Dateiformate, die viele Suchmaschinen unterstützen, umfassen:

Zu den Optionen für den Umgang mit verschiedenen Formaten gehört die Verwendung eines öffentlich verfügbaren kommerziellen Parsen -Tools, das von der Organisation angeboten wird, die das Format entwickelt, pflegt oder besitzt, und das Schreiben eines Brauchs Parser.

Einige Suchmaschinen unterstützen die Inspektion von Dateien, die in a gespeichert sind komprimiert oder verschlüsseltes Dateiformat. Bei der Arbeit mit einem komprimierten Format dekomprimiert der Indexer das Dokument zuerst. Dieser Schritt kann zu einer oder mehreren Dateien führen, von denen jede separat indiziert werden muss. Häufig unterstützt Druckdateiformate enthalten:

Die Formatanalyse kann Qualitätsverbesserungsmethoden beinhalten, um „schlechte Informationen“ in den Index aufzunehmen. Inhalte können die Formatierungsinformationen so manipulieren, um zusätzliche Inhalte zu enthalten. Beispiele für das Missbrauch von Dokumentenformatieren für Spamdexing:

  • Einschließlich Hunderte oder Tausende von Wörtern in einem Abschnitt, der auf dem Computerbildschirm nicht versteckt ist, aber mit der Formatierung für den Indexer sichtbar ist (z. B. versteckt "div" Tag in Html, was die Verwendung von beinhalten kann CSS oder JavaScript zu tun).
  • Setzen Sie die Vordergrund -Schriftfarbe von Wörtern auf dieselbe wie die Hintergrundfarbe, wobei Wörter auf dem Computerbildschirm einer Person versteckt sind, die das Dokument anzeigt, aber nicht dem Indexer versteckt ist.

Abschnittserkennung

Einige Suchmaschinen enthalten vor der Tokenisierung die Erkennung von Abschnittsbekenntnissen, die Identifizierung von wichtigen Teilen eines Dokuments. Nicht alle Dokumente in einem Korpus lesen wie ein gut geschriebenes Buch, das in organisierte Kapitel und Seiten unterteilt ist. Viele Dokumente über die Netz, wie Newsletter und Unternehmensberichte, enthalten fehlerhafte Inhalte und Nebenabschnitte, die kein primäres Material enthalten (das, worum es im Dokument geht). In diesem Artikel wird beispielsweise ein Seitenmenü mit Links zu anderen Webseiten angezeigt. Einige Dateiformate wie HTML oder PDF ermöglichen es, dass Inhalte in Spalten angezeigt werden. Obwohl der Inhalt in verschiedenen Bereichen der Ansicht angezeigt oder gerendert wird, kann der RAW -Markup -Inhalt diese Informationen nacheinander speichern. Wörter, die nacheinander im Rohquellinhalt erscheinen, werden nacheinander indexiert, obwohl diese Sätze und Absätze in verschiedenen Teilen des Computerbildschirms gerendert werden. Wenn Suchmaschinen diesen Inhalt so indexieren, als ob er normaler Inhalt wäre, kann die Qualität des Index und der Suchqualität aufgrund des gemischten Inhalts und der unsachgemäßen Proximität des Wortes verschlechtert werden. Es werden zwei Hauptprobleme festgestellt:

  • Inhalt in verschiedenen Abschnitten wird im Index als verwandt behandelt, wenn dies in Wirklichkeit nicht der Fall ist
  • Der organisatorische "Seitenleisten -Inhalt" ist im Index enthalten, aber der Seitenbalkeninhalt trägt nicht zur Bedeutung des Dokuments bei, und der Index ist mit einer schlechten Darstellung seiner Dokumente gefüllt.

Die Abschnittsanalyse kann die Suchmaschine erfordern, um die Rendering -Logik jedes Dokuments zu implementieren, im Wesentlichen eine abstrakte Darstellung des tatsächlichen Dokuments, und dann die Darstellung dann indexieren. Beispielsweise werden einige Inhalte im Internet über JavaScript gerendert. Wenn die Suchmaschine die Seite nicht rendert und das JavaScript innerhalb der Seite bewertet, würde sie diesen Inhalt nicht auf die gleiche Weise „sehen“ und das Dokument falsch indizieren. Angesichts der Tatsache, dass sich einige Suchmaschinen nicht um Probleme kümmern, vermeiden viele Webseiten -Designer, Inhalte über JavaScript anzuzeigen oder die zu verwenden NoScript Tag, um sicherzustellen, dass die Webseite ordnungsgemäß indiziert ist. Gleichzeitig kann diese Tatsache auch sein ausgebeutet Damit der Suchmaschinenindexer unterschiedlicher Inhalte als der Betrachter „anzeigen“.

HTML -Prioritätssystem

Indexierung muss das oft erkennen Html Tags, um Priorität zu organisieren. Indexierung niedriger Priorität zu hohen Marge zu Beschriftungen wie stark und Verknüpfung Um die Reihenfolge der Priorität zu optimieren, wenn sich diese Etiketten am Anfang des Textes befinden, könnten sich nicht als relevant erweisen. Einige Indexer mögen Google und Bing Stellen Sie sicher, dass die Suchmaschine Nimmt die großen Texte aufgrund einer starken Kompatibilität des Systemsystems nicht als relevante Quelle.[23]

Meta -Tag -Indexierung

Spezifische Dokumente enthalten häufig eingebettete Meta -Informationen wie Autor, Schlüsselwörter, Beschreibung und Sprache. Für HTML -Seiten die Meta -Tag Enthält Schlüsselwörter, die auch im Index enthalten sind. Früheres Internet Suchmaschinentechnologie Würde nur die Schlüsselwörter in den Meta -Tags für den Vorwärtsindex indizieren; Das vollständige Dokument würde nicht analysiert. Zu dieser Zeit war die Volltextindizierung nicht so gut etabliert, noch war es Computerhardware in der Lage, solche Technologie zu unterstützen. Das Design der HTML -Markup -Sprache beinhaltete zunächst die Unterstützung für Meta -Tags, um richtig und leicht zu indizieren, ohne eine Tokenisierung zu erfordern.[24]

Als das Internet in den neunziger Jahren wuchs, viele stationäre Unternehmen Ging 'online' und etablierte Unternehmenswebsites. Die Keywords, die zur Beschreibung von Webseiten (von denen viele von Unternehmens-ähnlich wie Produktbroschüren waren) verwendeten, änderten sich von beschreibend zu Marketing-orientierten Keywords, um den Verkauf zu fördern, indem die Webseite hoch in den Suchergebnissen für bestimmte Suchabfragen platziert werden. Die Tatsache, dass diese Schlüsselwörter subjektiv angegeben wurden Spamdexing, die in den neunziger Jahren viele Suchmaschinen dazu veranlasste, Volltext-Indexierungstechnologien zu übernehmen. Suchmaschinendesigner und Unternehmen konnten nur so viele "Marketing -Keywords" in den Inhalt einer Webseite einbringen, bevor sie alle interessanten und nützlichen Informationen entleeren. Angesichts dieser Interessenkonflikte mit dem geschäftlichen Ziel, benutzerorientierte Websites zu entwerfen, die „klebrig“ waren, die Customer Lifetime Value Die Gleichung wurde geändert, um nützlichere Inhalte in die Website einzubeziehen, in der Hoffnung, den Besucher beizubehalten. In diesem Sinne war die Volltextindizierung objektiver und erhöhte die Qualität der Suchmaschinenergebnisse, da es sich um einen weiteren Schritt von der subjektiven Steuerung der Suchmaschinenergebnisplatzierung entfernt handelte, was wiederum die Forschung von Indexierungstechnologien mit Volltext förderte.

Im Desktop -SucheViele Lösungen enthalten Meta -Tags, um Autoren eine Möglichkeit zu bieten, weiter anzupassen, wie die Suchmaschine Inhalte aus verschiedenen Dateien indexiert, die nicht aus dem Dateiinhalt ersichtlich sind. Die Desktop -Suche steht mehr unter der Kontrolle des Benutzers, während die Internet -Suchmaschinen mehr auf den Volltextindex konzentrieren müssen.

Siehe auch

Verweise

  1. ^ Clarke, C., Cormack, G.: Dynamische inverted Indizes für ein verteiltes Volltext-Abrufsystem. TechRep MT-95-01, University of Waterloo, Februar 1995.
  2. ^ Sikos, L. F. (August 2016). "RDF-betriebene semantische Video-Annotation-Tools mit Concept Mapping mit verknüpften Daten für die Videoindexierung der nächsten Generation". Multimedia -Tools und -Anwendungen. doi:10.1007/s11042-016-3705-7.
  3. ^ http://www.ee.columbia.edu/~dpwe/papers/wang03-shazam.pdf[Bare URL PDF]
  4. ^ Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Schnelles Multire -Lob -Bildabfrage. Abteilung für Informatik und Ingenieurwesen der Universität Washington. 1995. Verifiziert Dezember 2006
  5. ^ Brown, E.W. Informatikabteilung, Universität von Massachusetts Amherst, Technischer Bericht 95-81, Oktober 1995.
  6. ^ Schneiden, D., Pedersen, J.: Optimierungen für die Wartung dynamischer invertierter Index. Proceedings of Sigir, 405-411, 1990.
  7. ^ Lineare Hash -Partitionierung. MySQL 5.1 Referenzhandbuch. Verifiziert Dezember 2006
  8. ^ Trie, Wörterbuch von Algorithmen und Datenstrukturen, US Nationales Institut für Standards und Technologie.
  9. ^ Gusfield, Dan (1999) [1997]. Algorithmen für Zeichenfolgen, Bäume und Sequenzen: Informatik und Computerbiologie. USA: Cambridge University Press. ISBN 0-521-58519-8..
  10. ^ Schwarz, Paul E., Umgekehrter Index, Wörterbuch von Algorithmen und Datenstrukturen, US Nationales Institut für Standards und Technologie Okt 2006. Verifiziert Dezember 2006.
  11. ^ C. C. Foster, Informationsabruf: Informationsspeicher und Abruf unter Verwendung von AVL-Bäumen, Verfahren der 20. Nationalen Konferenz von 1965, S. 192-205, 24. bis 26. August 1965, Cleveland, Ohio, Vereinigte Staaten
  12. ^ Landauer, W. I.: Der ausgewogene Baum und seine Verwendung im Informationsabruf. IEEE trans. auf elektronischen Computern, Vol. EC-12, Nr. 6, Dezember 1963.
  13. ^ Google Ngram -Datensätze zum Verkauf bei LDC Katalog
  14. ^ Jeffrey Dean und Sanjay Ghemawat. MapReduce: Vereinfachte Datenverarbeitung bei großen Clustern. Google, Inc. OSDI. 2004.
  15. ^ Grossman, Frieder, Goharian. IR -Grundlagen des umgekehrten Index. 2002. verifiziert Aug 2011.
  16. ^ Tang, Hunqiang. Dwarkadas, Sandhya. "Hybrid Global Local Indexierung für effizientes Peer -to -Peer -Informationsabruf". Universität Rochester. S. 1. http://www.cs.rochester.edu/u/sandhya/papers/nsdi04.ps
  17. ^ Tomasic, A., et al.: Inkrementelle Aktualisierungen von invertierten Listen für das Abrufen von Textdokumenten. Kurzversion der Stanford University Informatik Technischer Note STAN-CS-TN-93-1, Dezember 1993.
  18. ^ Sergey Brin und Lawrence Page. Die Anatomie einer groß angelegten hypertextuellen Web-Suchmaschine. Universität in Stanford. 1998. Verifiziert Dezember 2006.
  19. ^ H.S. Haufen. Speicheranalyse einer Komprimierungscodierung für eine Dokumentdatenbank. 1nfor, i0 (i): 47-61, Februar 1972.
  20. ^ Der Unicode -Standard - häufig gestellte Fragen. Verifiziert Dezember 2006.
  21. ^ Speicherschätzungen. Verifiziert Dezember 2006.
  22. ^ "Suchmaschinenoptimierung". Abgerufen 2016-09-21.
  23. ^ Google Webmaster Tools, "Hypertext Markup Language 5", Konferenz für SEO Januar 2012.
  24. ^ Berners -Lee, T., "Hypertext Markup Language - 2.0", RFC 1866, Netzwerkarbeitsgruppe, November 1995.

Weitere Lektüre

  • R. Bayer und E. McCreight. Organisation und Wartung großer geordneter Indizes. Acta Informatica, 173-189, 1972.
  • Donald E. Knuth. Die Kunst der Computerprogrammierung, Band 1 (3. Aufl.): Grundlegende Algorithmen, Addison Wesley Longman Publishing Co. Redwood City, CA, 1997.
  • Donald E. Knuth. Die Kunst des Computerprogramms, Band 3: (2. Aufl.) Sortieren und Suchen, Addison Wesley Longman Publishing Co. Redwood City, CA, 1998.
  • Gerald Salton. Automatische Textverarbeitung, Addison-Wesley Longman Publishing Co., Inc., Boston, MA, 1988.
  • Gerard Salton. Michael J. McGill, Einführung in modernes Informationsabruf, McGraw-Hill, Inc., New York, NY, 1986.
  • Gerard Salton. Lesk, M.E.: Computerbewertung der Indexierung und Textverarbeitung. Journal of the ACM. Januar 1968.
  • Gerard Salton. Das Smart Retrieval System - Experimente zur automatischen Dokumentenverarbeitung. Prentice Hall Inc., Englewood Cliffs, 1971.
  • Gerard Salton. Die Transformation, Analyse und Abruf von Informationen nach Computer, Addison-Wesley, Reading, Mass., 1989.
  • Baeza-yates, R., Ribeiro-Neto, b.: Modern Information Abruf. Kapitel 8. ACM Press 1999.
  • G. K. Zipf. Menschliches Verhalten und das Prinzip der geringsten Anstrengung. Addison-Wesley, 1949.
  • Adelson-Velskii, G. M., Landis, E. M.: Ein Informationsorganisationsalgorithmus. Dansssr, 146, 263-266 (1962).
  • Edward H. Sussenguth Jr., Verwendung von Baumstrukturen zur Verarbeitung von Dateien, Kommunikation des ACM, v.6 n.5, p. 272-279, Mai 1963
  • Harman, D.K., et al.: Inverted Dateien. Im Informationsabruf: Datenstrukturen und Algorithmen, Prentice-Hall, S. 28–43, 1992.
  • Lim, L., et al.: Charakterisierung von Webdokumentänderungen, LNCS 2118, 133–146, 2001.
  • Lim, L., et al.: Dynamische Wartung von Web -Indizes mit Orientierungspunkten. Proc. der 12. W3 -Konferenz, 2003.
  • Moffat, A., Zobel, J.: Selbstindexing invertierte Dateien für das schnelle Abrufen von Text. ACM TIS, 349–379, Oktober 1996, Band 14, Nummer 4.
  • Mehlhorn, K.: Datenstrukturen und effiziente Algorithmen, Springer Verlag, Eatcs -Monographien, 1984.
  • Mehlhorn, K., Overmars, M.H.: Optimale Dynamisierung zersetzbarer Suchprobleme. IPL 12, 93–98, 1981.
  • Mehlhorn, K.: Untere Grenzen der Effizienz der Umwandlung statischer Datenstrukturen in dynamische Datenstrukturen. Mathematik. Systemtheorie 15, 1–16, 1981.
  • Koster, M.: Aliweb: Archie-ähnliche Indexierung im Web. Computernetzwerke und ISDN Systems, Vol. 27, Nr. 2 (1994) 175-182 (siehe auch Proc. First Int'l World Wide Web Conf., Elsevier Science, Amsterdam, 1994, S. 175–182)
  • Serge Abiteboul und Victor Vianu. Abfragen und Berechnungen im Web. Proceedings der Internationalen Konferenz zur Datenbanktheorie. Delphi, Griechenland 1997.
  • Ian H Witten, Alistair Moffat und Timothy C. Bell. Verwaltung von Gigabyte: Komprimierung und Indizierung von Dokumenten und Bildern. New York: Van Nostrand Reinhold, 1994.
  • A. Emtage und P. Deutsch, "Archie-Ein elektronischer Verzeichnisdienst für das Internet." Proc. Usenix Winter 1992 Tech. Conf., Usenix Assoc., Berkeley, Kalifornien, 1992, S. 93–110.
  • M. Gray, World Wide Web Wanderer.
  • D. Schneiden und J. Pedersen. "Optimierungen für die Wartung dynamischer invertierter Index." Proceedings der 13. Internationalen Konferenz über Forschung und Entwicklung in Information Abruf, S. 405–411, September 1990.
  • Stefan Büttcher, Charles L. A. Clarke und Gordon V. Cormack. Informationsabruf: Implementierung und Bewertung von Suchmaschinen. MIT Press, Cambridge, Mass., 2010.