Dokumentenabruf
Dokumentenabruf ist definiert als die Übereinstimmung einiger angegebener Benutzerabfragen gegen einen Satz von freier Text Aufzeichnungen. Diese Datensätze könnten hauptsächlich jede Art von sein unstrukturierter Text, wie zum Beispiel Zeitungsartikel, Immobilienaufzeichnungen oder Absätze in einem Handbuch. Benutzeranfragen können von den vollen Beschreibungen der Informationen über die Multi-Sentenz reichen, die Informationen benötigen.
Das Abrufen von Dokumenten wird manchmal als oder als Zweig von, bezeichnet, Textabnahme. Textabnahme ist ein Zweig von Informationsrückgewinnung wo die Informationen hauptsächlich in Form von gespeichert werden Text. Textdatenbanken wurden dank der dezentralisiert persönlicher Computer. Das Abrufen von Text ist heute ein kritischer Studienbereich, da es die grundlegende Grundlage für alle ist Internet Suchmaschinen.
Beschreibung
Dokumentabrufsysteme finden Sie Informationen zu gegebenen Kriterien, indem Sie Textdatensätze abgleichen (Unterlagen) gegen Benutzeranfragen im Gegensatz zu Expertensysteme diese beantworten Fragen von schließen über eine logische Wissensdatenbank. Ein Dokumentabrufsystem besteht aus einer Datenbank mit Dokumenten, a Klassifizierungsalgorithmus So erstellen Sie einen Volltextindex und eine Benutzeroberfläche, um auf die Datenbank zuzugreifen.
Ein Dokumentabrufsystem hat zwei Hauptaufgaben:
- Finden Sie relevante Dokumente für Benutzeranfragen
- Bewerten Sie die passenden Ergebnisse und sortieren Sie sie nach Relevanz unter Verwendung von Algorithmen wie z. B. Seitenrang.
Internet Suchmaschinen sind klassische Anwendungen des Dokumentenabrufs. Die überwiegende Mehrheit der derzeit verwendeten Abrufsysteme reichen von einfachen Booleschen Systemen bis hin zu Systemen mit statistisch oder Verarbeitung natürlicher Sprache Techniken.
Variationen
Es gibt zwei Hauptklassen von Indexierungsschemata für Dokumentenabrufsysteme: Form basiert (oder Wort basiert), und inhaltsbasiert Indizierung. Das Dokumentklassifizierungsschema (oder Indizierungsalgorithmus) In Gebrauch bestimmt die Art des Dokumentabrufsystems.
Form basiert
Formularbasierter Dokumentenabruf adressiert die genauen syntaktischen Eigenschaften eines Textes, vergleichbar mit der Substring -Übereinstimmung bei String -Suchvorgängen. Der Text ist im Allgemeinen unstrukturiert und nicht unbedingt in einer natürlichen Sprache. Das System könnte zum Beispiel verwendet werden, um große Mengen chemischer Darstellungen in der Molekularbiologie zu verarbeiten. EIN Suffixbaum Algorithmus ist ein Beispiel für die formbasierte Indexierung.
Inhaltsbasiert
Der inhaltsbasierte Ansatz nutzt semantische Verbindungen zwischen Dokumenten und Teilen davon und semantische Verbindungen zwischen Abfragen und Dokumenten. Die meisten inhaltsbasierten Dokumentenabrufsysteme verwenden eine Umgekehrter Index Algorithmus.
A Signaturdatei ist eine Technik, die a schafft schnell und dreckig Filter zum Beispiel a Blütefilter, das wird alle Dokumente behalten, die mit der Abfrage übereinstimmen und hoffnungsvoll ein paar, die es nicht tun. Die Art und Weise, wie dies geschieht, erstellt für jede Datei eine Signatur, normalerweise eine Hash -codierte Version. Eine Methode ist überlagertes Codieren. Ein Nachbearbeitungsschritt wird durchgeführt, um die Fehlalarme zu verwerfen. Da ist diese Struktur in den meisten Fällen unterlegen Inverted Dateien In Bezug auf Geschwindigkeit, Größe und Funktionalität wird es nicht weit verbreitet. Mit den richtigen Parametern kann es jedoch die invertierten Dateien in bestimmten Umgebungen übertreffen.
Beispiel: PubMed
Das PubMed[1] Formular Interface bietet die Suche "zugehörige Artikel", die durch einen Vergleich von Wörtern aus dem Titel der Dokumente, Abstract und durchgeführt wird Gittergewebe Begriffe mit einem wortgewichteten Algorithmus.[2][3]
Siehe auch
- Zusammengesetzte Term Processing
- Dokumentklassifizierung
- Enterprise -Suche
- Bewertungsmaßnahmen (Informationsabruf)
- Volltextsuche
- Informationsrückgewinnung
- Latente semantische Indexierung
- Suchmaschine
Verweise
- ^ Kim W, Aronson AR, Wilbur WJ (2001). "Automatische Mesh -Begriffszuweisung und Qualitätsbewertung". Proc Amia Symp: 319–23. PMC 2243528. PMID 11825203.
- ^ Berechnung verwandter Zitate. Nationales Zentrum für Biotechnologieinformationen (USA). 2019-02-06.
- ^ Lin J1, Wilbur WJ (30. Oktober 2007). "PubMed-verwandte Artikel: Ein probabilistisches themenbasiertes Modell für die Ähnlichkeit in der Inhalte". BMC Bioinformatics. 8: 423. doi:10.1186/1471-2105-8-423. PMC 2212667. PMID 17971238.
Weitere Lektüre
- Faloutsos, Christos; Christodoulakis, Stavros (1984). "Signaturdateien: Eine Zugriffsmethode für Dokumente und ihre analytische Leistungsbewertung". ACM -Transaktionen auf Informationssystemen. 2 (4): 267–288. doi:10.1145/2275.357411. S2CID 8120705.
- Justin Zobel; Alistair Moffat; Kotagiri Ramamohanarao (1998). "Invertierte Dateien gegen Signaturdateien für die Textindexierung" (PDF). ACM -Transaktionen auf Datenbanksystemen. 23 (4): 453–490. Citeseerx 10.1.1.54.8753. doi:10.1145/296854.277632. S2CID 7293918.
- Ben Carterette; Fazli Can (2005). "Vergleich von invertierten Dateien und Signaturdateien zum Durchsuchen eines großen Lexikons" (PDF). Informationsverarbeitung und -verwaltung. 41 (3): 613–633. doi:10.1016/j.ipm.2003.12.003.
Externe Links
- Formelle Grundlage des Informationsabrufs, Buckinghamshire Chilterns University College