Volltextsuche

Im Textabnahme, Volltextsuche bezieht sich auf Techniken zur Suche nach einer einzigen Computer-gelagert dokumentieren oder eine Sammlung in a Volltextdatenbank. Die Volltext-Suche unterscheidet sich von Suchanfragen basierend auf Metadaten oder in Teilen der in Datenbanken dargestellten Originaltexte (z. B. Titel, Abstracts, ausgewählte Abschnitte oder bibliografische Referenzen).

In einer Volltext-Suche a Suchmaschine Untersucht alle Wörter in jedem gespeicherten Dokument, wenn es versucht, Suchkriterien zu entsprechen (z. B. von einem Benutzer angegeben). Volltext-Suchtechniken wurden im Online-Online gemeinsam Bibliographische Datenbanken In den 1990ern.[Überprüfung erforderlich] Viele Websites und Anwendungsprogramme (z. Textverarbeitung Software) bieten Funktionen für die Suchfunktion. Einige Web -Suchmaschinen wie z. AltavistaVerwenden Sie Volltext-Such-Techniken, während andere nur einen Teil der von ihren Indizierungssystemen untersuchten Webseiten indexieren.[1]

Indizierung

Wenn Sie sich mit einer kleinen Anzahl von Dokumenten befassen Anfrage, eine Strategie namens "Serienscanning". Das ist es, was einige Werkzeuge wie Grep, bei der Suche.

Wenn jedoch die Anzahl der Suchdokumente potenziell groß ist oder die Menge der Suchanfragen, die zur Durchführung von Suchanlagen sind, erheblich ist, wird das Problem der Volltext-Suche häufig in zwei Aufgaben unterteilt: Indexierung und Suche. Die Indizierungsstufe scannt den Text aller Dokumente und erstellt eine Liste der Suchbegriffe (oft als als bezeichnet Index, aber korrekter benannt a Konkordanz). In der Suchphase wird bei der Ausführung einer bestimmten Abfrage nur auf den Index verwiesen und nicht auf den Text der ursprünglichen Dokumente.[2]

Der Indexer erstellt einen Eintrag im Index für jeden Begriff oder Wort in einem Dokument und notiert möglicherweise seine relative Position innerhalb des Dokuments. Normalerweise ignoriert der Indexer Stoppen Sie Wörter (wie "das" und "und"), die sowohl üblich als auch unzureichend sinnvoll sind, um bei der Suche nützlich zu sein. Einige Indexer verwenden auch sprachspezifische Stamm über die indizierten Wörter. Zum Beispiel werden die Wörter "Laufwerke", "gefahren" und "Driven" im Index unter dem einzelnen Konzeptwort "Drive" aufgezeichnet.

Die Präzision vs. Rückruf -Kompromisse

Diagramm einer sachartigen Suche nach niedriger Präzision

Rückruf misst die Menge der relevanten Ergebnisse, die durch eine Suche zurückgegeben werden, während Genauigkeit das Maß für die Qualität der zurückgegebenen Ergebnisse ist. Rückruf ist das Verhältnis der relevanten Ergebnisse, die zu allen relevanten Ergebnissen zurückgeführt werden. Genauigkeit ist die Anzahl der relevanten Ergebnisse, die an die Gesamtzahl der zurückgegebenen Ergebnisse zurückgegeben werden.

Das Diagramm rechts stellt eine sengprezipisionsarme Suche mit niedriger Recall-Suche dar. Im Diagramm repräsentieren die roten und grünen Punkte die Gesamtpopulation potenzieller Suchergebnisse für eine bestimmte Suche. Rote Punkte repräsentieren irrelevante Ergebnisse, und grüne Punkte repräsentieren relevante Ergebnisse. Die Relevanz wird durch die Nähe der Suchergebnisse in die Mitte des inneren Kreises angezeigt. Von allen möglichen Ergebnissen werden diejenigen, die tatsächlich durch die Suche zurückgegeben wurden, auf einem hellblauen Hintergrund angezeigt. Im Beispiel wurde nur 1 relevantes Ergebnis von 3 möglichen relevanten Ergebnissen zurückgegeben, sodass der Rückruf ein sehr niedriges Verhältnis von 1/3 oder 33%ist. Die Präzision für das Beispiel ist sehr niedrig 1/4 oder 25%, da nur 1 der zurückgegebenen 4 Ergebnisse relevant war.[3]

Wegen der Unklarheiten von Natürliche Sprache, Volltext-Suchsysteme enthält normalerweise Optionen wie Stoppen Sie Wörter Präzision erhöhen und Stamm den Rückruf zu erhöhen. Kontrollierter Vokabular Die Suche hilft auch bei der Linderung von Problemen mit niedriger Präzision durch Tagging Dokumente so, dass Unklarheiten beseitigt werden. Der Kompromiss zwischen Präzision und Rückruf ist einfach: Eine Zunahme der Genauigkeit kann den Gesamtrückruf senken, während eine Erhöhung des Rückrufs die Präzision verringert.[4]

Falsch-positives Problem

Die Volltext-Suche wird wahrscheinlich viele Dokumente abrufen, die nicht sind relevant zum beabsichtigt Suchfrage. Solche Dokumente werden genannt Fehlalarm (sehen Typ I -Fehler). Das Abruf irrelevanter Dokumente wird häufig durch die inhärente Unklarheit von verursacht Natürliche Sprache. Im Stichprobendiagramm rechts werden falsch positive Ergebnisse durch die irrelevanten Ergebnisse (rote Punkte) dargestellt, die durch die Suche zurückgegeben wurden (auf einem hellblauen Hintergrund).

Clustering -Techniken basierend auf Bayesian Algorithmen können dazu beitragen, Fehlalarme zu reduzieren. Für eine Suchbegriff von "Bank" kann Clustering verwendet werden, um das Dokument-/Datenuniversum in "Finanzinstitut", "Ort zum Sitzen", "Ort zum Speichern" usw. zu kategorisieren. Abhängig von den Vorkommen von Wörtern, die für die Kategorien relevant sind, Suchbegriffe oder ein Suchergebnis können in einer oder mehreren Kategorien platziert werden. Diese Technik wird ausgiebig in der eingesetzt E-Discovery Domain.[Klarstellung erforderlich]

Leistungsverbesserungen

Die Mängel bei der Volltextsuche wurden auf zwei Arten behandelt: indem sie Benutzern Tools zur Verfügung stellen, mit denen sie ihre Suchfragen genauer ausdrücken und neue Suchalgorithmen entwickeln können, die die Abrufpräzision verbessern.

Verbesserte Abfragetools

  • Schlüsselwörter. Dokumentenhersteller (oder geschulte Indexer) werden gebeten, eine Liste von Wörtern zu liefern, die das Thema des Textes beschreiben, einschließlich Synonyme von Wörtern, die dieses Thema beschreiben. Schlüsselwörter verbessern den Rückruf, insbesondere wenn die Schlüsselwortliste ein Suchwort enthält, das nicht im Dokumenttext liegt.
  • Feldbeschränkte Suche. Einige Suchmaschinen ermöglichen es den Benutzern, die Volltextensuche auf eine bestimmte zu beschränken aufstellen Innerhalb eines gespeicherten Datensatz, wie "Titel" oder "Autor".
  • Boolesche Abfragen. Suchanfragen, die verwendet werden Boolesche Operatoren (zum Beispiel, "Enzyklopädie" UND "online" NICHT "Encarta") kann die Genauigkeit einer Volltextsuche dramatisch erhöhen. Das UND Der Betreiber sagt, dass "ein Dokument nicht abrufen, es sei denn, es enthält diese beiden Begriffe." Das NICHT Der Bediener sagt, dass "kein Dokument abrufen, das dieses Wort enthält." Wenn die Retrieval -Liste zu wenige Dokumente abgerufen, ist die ODER Der Bediener kann zur Erhöhung verwendet werden abrufen; Betrachten Sie zum Beispiel zum Beispiel "Enzyklopädie" und "Online" ODER "Internet" nicht "Encarta". In dieser Suche werden Dokumente zu Online -Enzyklopädien abgerufen, die den Begriff "Internet" anstelle von "Online" verwenden. Diese Zunahme der Präzision ist sehr häufig kontraproduktiv, da sie normalerweise einen dramatischen Rückrufverlust enthält.[5]
  • Phrasensuche. Eine Phrasesuche stimmt nur den Dokumenten überein, die eine bestimmte Phrase enthalten, wie z. "Wikipedia, die freie Enzyklopädie."
  • Konzeptsuche. Eine Suche, die zum Beispiel auf mehreren Wörternkonzepten basiert Zusammengesetzte Term Processing. Diese Art der Suche wird in vielen E-Discovery-Lösungen populär.
  • Konkordanzsuche. Eine Konkordanzsuche erzeugt eine alphabetische Liste aller Hauptwörter, die in a auftreten Text mit ihrem unmittelbaren Kontext.
  • Proximity -Suche. Eine Phrasensuche entspricht nur den Dokumenten, die zwei oder mehr Wörter enthalten, die durch eine bestimmte Anzahl von Wörtern getrennt sind. eine Suche nach "Wikipedia" innerhalb2 "frei" würde nur die Dokumente abrufen, in denen die Wörter "Wikipedia" und "Free" treten innerhalb von zwei Worten voneinander auf.
  • Regulären Ausdruck. Ein regelmäßiger Ausdruck verwendet eine komplexe, aber leistungsstarke Abfrage Syntax Dies kann verwendet werden, um die Abrufbedingungen präzise anzugeben.
  • Ungenaue Suche Suchen Sie nach Dokumenten, die den angegebenen Begriffen und einigen Variationen um sie herum übereinstimmen (zum Beispiel unter Verwendung Entfernung bearbeiten Die Mehrfachschwelle zum Schwellenwert)
  • Wildcard -Suche. Eine Suche, die ein oder mehrere Zeichen in einer Suchabfrage nach einem Wildcard -Charakter wie einem ersetzt Sternchen. Zum Beispiel verwenden Sie das Sternchen in einer Suchabfrage "S*n" Werde "Sünde", "Sohn", "Sonne" usw. in einem Text finden.

Verbesserte Suchalgorithmen

Das Seitenrang Algorithmus entwickelt von Google gibt Dokumenten, denen andere andere Webseiten verknüpft haben.[6] Sehen Suchmaschine Weitere Beispiele.

Software

Das Folgende ist eine teilweise Liste verfügbarer Softwareprodukte, deren vorherrschender Zweck darin besteht, die Volltextindizierung und -suche durchzuführen. Einige davon werden mit detaillierten Beschreibungen ihrer Operationstheorie oder interner Algorithmen begleitet, die zusätzliche Einblicke in die Volltext-Suche bieten können.

Verweise

  1. ^ In der Praxis kann es schwierig sein zu bestimmen, wie eine bestimmte Suchmaschine funktioniert. Das Suchalgorithmen Tatsächlich werden von Websearchendiensten selten aus Angst offenbart, dass Webunternehmer verwenden werden Suchmaschinenoptimierung Techniken zur Verbesserung ihrer Bedeutung in Abruflisten.
  2. ^ "Funktionen des Volltext -Suchsystems". Archiviert von das Original am 23. Dezember 2010.
  3. ^ Coles, Michael (2008). Pro Volltext-Suche in SQL Server 2008 (Version 1 ed.). Apress Publishing Company. ISBN 978-1-4302-1594-3.
  4. ^ B., Yuwono; Lee, D. L. (1996). Such- und Ranking -Algorithmen zum Auffinden von Ressourcen im World Wide Web. 12. Internationale Konferenz für Datentechnik (ICDE'96). p. 164.
  5. ^ Studien haben wiederholt gezeigt, dass die meisten Benutzer die negativen Auswirkungen von Booleschen Abfragen nicht verstehen.[1]
  6. ^ US 6285999, Page, Lawrence, "Methode für das Knotenranking in einer verknüpften Datenbank", veröffentlicht 1998-01-09, ausgestellt 2001-09-04.  "Eine Methode weist Knoten in einer verknüpften Datenbank Wichtigkeitsränge zu, z. B. in jeder Datenbank von Dokumenten, die Zitate enthalten Der Rang eines Dokuments ist ... "
  7. ^ "SAP fügt HANA-basierte Softwarepakete zum IoT-Portfolio hinzu | martech Advisor". www.martechadvisor.com.

Siehe auch