Suchmaschinentechnologie
A Suchmaschine ist ein Informationsabruf -Softwareprogramm, das Informationen zum Abrufen und der Präsentation als Reaktion auf entdeckt, krabbelt, verwandelt und speichert Benutzeranfragen.[1]
Eine Suchmaschine besteht normalerweise aus vier Komponenten, die Suchschnittstelle, Crawler (auch als Spinne oder Bot bezeichnet), Indexer und Datenbank sind. Der Crawler durchquert eine Dokumentsammlung, dekonstruiert Dokumenttext und weist Ersatz für Speicher im Suchmaschinenindex zu. Online -Suchmaschinen speichern Bilder, Linkdaten und Metadaten auch für das Dokument.
Geschichte der Suchtechnologie
Der Memex
Das Konzept des Hypertextes und einer Speichererweiterung stammt aus einem Artikel, der in veröffentlicht wurde Der Atlantikmonatly im Juli 1945 geschrieben von von Vannevar Bush, mit dem Titel As We May Think. In diesem Artikel forderte Vannevar die Wissenschaftler auf, zusammenzuarbeiten, um ein Wissen für die gesamte Menschheit aufzubauen. Anschließend schlug er die Idee eines praktisch grenzenlosen, schnellen, zuverlässigen, erweiterbaren und assoziativen Speicher- und Abrufsystems vor. Er nannte dieses Gerät a Memex.[2]
Bush betrachtete den Begriff der „assoziativen Indexierung“ als seinen wichtigsten konzeptionellen Beitrag. Wie er erklärte, war dies „eine Bestimmung, bei der jeder Gegenstand nach Belieben sofort und automatisch eine andere ausgewählt werden kann. Dies ist das wesentliche Merkmal des Memex. Der Prozess des Zusammenbindens von zwei Elementen ist das Wichtigste.[3]
Alle im Memex verwendeten Dokumente würden in Form einer als solchen erfassten Mikrofilmkopie oder im Fall von persönlichen Aufzeichnungen von der Maschine selbst in Mikrofilm transformiert werden. MEMEX würde auch neue Abruftechniken anwenden, die auf einer neuen Art von assoziativem Indexierung basieren. Die Grundidee ist eine Bestimmung, bei der jeder Gegenstand nach Belieben zur Auswahl sofort und automatisch eine andere "Trails" durch verknüpfte Dokumente ausgewählt werden kann. Die neuen Verfahren, die Bush erwartete, die Aufbewahrung und Abnahme von Informationen zu ermöglichen, würden zur Entwicklung völlig neuer Formen der Enzyklopädie führen.
Der wichtigste Mechanismus, der von Bush konzipiert wird, ist der assoziative Weg. Es wäre eine Möglichkeit, eine neue lineare Sequenz von Mikrofilmrahmen für eine beliebige Abfolge von Mikrofilmrahmen zu erstellen, indem eine verkettete Abfolge von Links in der gerade beschriebenen Art und Weise erstellt wird, zusammen mit persönlichen Kommentaren und Seitenspuren.
1965 nahm Bush an dem Projekt Intrex des MIT teil, um Technologie zur Mechanisierung der Verarbeitung von Informationen für die Verwendung von Bibliothek zu entwickeln. In seinem Aufsatz von 1967 mit dem Titel "Memex Revisited" wies er darauf hin, dass die Entwicklung des digitalen Computers, des Transistors, des Videos und anderer ähnlicher Geräte die Durchführbarkeit einer solchen Mechanisierung verstärkt hätten, aber die Kosten ihre Erfolge verzögern würden.[4]
CLEVER
Gerard Salton, der am 28. August 1995 starb, war der Vater der modernen Suchtechnologie. Seine Teams in Harvard und Cornell entwickelten das intelligente Informations -Abrufsystem. Saltons Magic Automatic Retriever von Text enthielt wichtige Konzepte wie die Vektorraummodell, Umgekehrte Dokumentfrequenz (IDF), Term Frequenz (TF), Term Diskriminierungswerte und Relevanz -Rückkopplungsmechanismen.
Er verfasste ein 56-seitiges Buch namens Theory of Indexing, in dem viele seiner Tests erklärt wurden, auf denen die Suche noch weitgehend basiert.
String -Suchmaschinen
1987 wurde ein Artikel veröffentlicht, in dem die Entwicklung einer Charakter-String-Suchmaschine (SSE) zum schnellen Text-Abruf auf einem Doppelmetal-1,6-μm-N-Well-CMOS-Festkörperkreis mit 217.600 Transistoren auf einer 8,62x12.76- linsen detailliert wurde mm sterbengebiet. Die SSE hat eine neuartige String-Sucharchitektur berücksichtigt, die eine 512-stufige Finite-State-Automaton-Logik (FSA) mit einem inhaltswertigen Speicher (CAM) (CAM) kombiniert, um einen ungefähren String-Vergleich von 80 Millionen Zeichenfolgen pro Sekunde zu erreichen. Die Nockenzelle bestand aus vier herkömmlichen statischen RAM -Zellen (SRAM) und einem Lese-/Schreibkreis. Der gleichzeitige Vergleich von 64 gespeicherten Zeichenfolgen mit variabler Länge wurde in 50 ns für einen Eingangstextstrom von 10 Millionen Zeichen/s erreicht, was die Leistung trotz des Vorhandenseins einzelner Zeichenfehler in Form von Zeichencodes ermöglichte. Darüber hinaus erlaubte der Chip die Suche nach Nicht-Alchor-String-Such und die Suchen von VLDC-String von variabler Länge.[5]
Web -Suchmaschinen
Archie
Die ersten Web -Suchmaschinen waren Archie, 1990 erstellt[6] von Alan Emtage, ein Student an der McGill University in Montreal. Der Autor wollte ursprünglich das Programm "Archive" nennen, musste es jedoch verkürzen, um den UNIX -Weltstandard zu entsprechen, um Programme und Dateien mit kurzer, kryptischer Namen wie Grep, Cat, Troff, SED, AWK, Perl usw. zuzuweisen .
Die primäre Methode zum Speichern und Abrufen von Dateien war das Dateiübertragungsprotokoll (FTP). Dies war (und ist) ein System, das Computern eine gemeinsame Möglichkeit für den Austausch von Dateien über das Internet spezifizierte. Es funktioniert so: Einige Administrator beschließt, dass er Dateien von seinem Computer zur Verfügung stellen möchte. Er richtet ein Programm auf seinem Computer ein, der als FTP -Server bezeichnet wird. Wenn jemand im Internet eine Datei von diesem Computer abrufen möchte, stellt er oder sie über ein anderes Programm, das als FTP -Client bezeichnet wird, eine Verbindung zu ihr her. Jedes FTP -Client -Programm kann eine Verbindung zu jedem FTP -Serverprogramm herstellen, solange die Client- und Serverprogramme die im FTP -Protokoll festgelegten Spezifikationen vollständig folgen.
Zunächst musste jeder, der eine Datei teilen wollte, einen FTP -Server einrichten, um die Datei anderen zur Verfügung zu stellen. Später wurden "anonyme" FTP -Websites Repositories für Dateien, sodass alle Benutzer sie veröffentlichen und abrufen können.
Selbst mit Archivseiten waren viele wichtige Dateien auf kleinen FTP -Servern immer noch verstreut. Leider können diese Dateien nur vom Internet entsprechen: Jemand würde eine E-Mail in eine Nachrichtenliste oder ein Diskussionsforum veröffentlichen, in dem die Verfügbarkeit einer Datei angekündigt wird.
Archie hat das alles verändert. Es kombinierte einen Skript-basierten Datensammeler, der Site-Listen von anonymen FTP-Dateien abgerufen hat, mit einem regelmäßigen Ausdrucks-Matcher zum Abrufen von Dateinamen, die mit einer Benutzerabfrage übereinstimmen. (4) Mit anderen Worten, Archies Sammler durchsuchte FTP -Websites im Internet und indizierte alle von ihm gefundenen Dateien. Der regelmäßige Ausdrucks -Matcher versorgte den Benutzern den Zugriff auf seine Datenbank.[7]
Veronica
1993 entwickelte sich die Gruppe der University of Nevada System Computing Services Veronica.[6] Es wurde als eine Art Suchgerät erstellt, das Archie ähnelt, jedoch für Gopher -Dateien. Ein weiterer Gopher-Suchdienst namens Jughead erschien etwas später, wahrscheinlich zum alleinigen Zweck, das Comic-Strip-Triumvirat abzurunden. Jughead ist ein Akronym für Jonzys Ausgrabungen und -ausgrabungen für universelle Gopher -Hierarchie, obwohl es wie Veronica wahrscheinlich sicher davon ausgeht, dass der Schöpfer sich in das Akronym zurückgezogen hat. Jugheads Funktionalität war ziemlich identisch mit Veronicas, obwohl es an den Rändern etwas rauer zu sein scheint.[7]
Der einsame Wanderer
Das World Wide Web Wanderer, entwickelt von Matthew Gray im Jahr 1993[8] war der erste Roboter im Internet und wurde entwickelt, um das Wachstum des Webs zu verfolgen. Zunächst zählte der Wanderer nur Webserver, aber kurz nach seiner Einführung begann er, URLs im Laufe der Zeit zu erfassen. Die Datenbank mit erfassten URLs wurde zum Wandex, der ersten Webdatenbank.
Matthew Greys Wanderer hat zu dieser Zeit eine ziemliche Kontroverse geschaffen, teilweise, weil frühe Versionen der Software im Internet weit verbreitet waren und eine spürbare netzweite Leistungsverschlechterung verursachten. Dieser Verschlechterung trat auf, da der Wanderer Hunderte von Zeit am Tag auf die gleiche Seite zugreifen würde. Der Wanderer änderte bald seine Wege, aber die Kontroverse darüber, ob Roboter gut oder schlecht für das Internet waren.
Als Reaktion auf den Wanderer erstellte Martijn Koster im Oktober 1993 die Archie-ähnliche Indexierung des Webs oder Aliweb. Wie der Name schon sagt, war Aliweb das HTTP-Äquivalent von Archie, und aus diesem Grund ist es in vielerlei Hinsicht immer noch einzigartig.
Aliweb hat keinen Web-Suchroboter. Stattdessen veröffentlichen Webmaster der teilnehmenden Websites ihre eigenen Indexinformationen für jede aufgelistete Seite. Der Vorteil dieser Methode besteht darin, dass Benutzer ihre eigene Site beschreiben und ein Roboter nicht über das Essen der Netzbandbreite rennt. Leider sind die Nachteile von Aliweb heute eher ein Problem. Der primäre Nachteil ist, dass eine spezielle Indizierungsdatei eingereicht werden muss. Die meisten Benutzer verstehen nicht, wie sie eine solche Datei erstellen können, und daher senden sie ihre Seiten nicht. Dies führt zu einer relativ kleinen Datenbank, was bedeutete, dass Benutzer weniger wahrscheinlich nach Aliweb suchen als eine der großen BOT-basierten Websites. Dieser Catch-22 wurde durch die Einbeziehung anderer Datenbanken in die Aliweb-Suche etwas ausgeglichen, aber es gibt immer noch nicht die Massenbeziehung von Suchmaschinen wie Yahoo! oder Lycos.[7]
Begeistern
Begeistern, ursprünglich Architext genannt, wurde im Februar 1993 von sechs Stanford -Studenten gestartet. Ihre Idee war es, die statistische Analyse von Wortbeziehungen zu verwenden, um effizientere Suche durch die große Menge an Informationen im Internet zu liefern. Ihr Projekt wurde bis Mitte 1993 vollständig finanziert. Sobald die Finanzierung gesichert war. Sie veröffentlichten eine Version ihrer Suchsoftware, mit der Webmaster auf ihren eigenen Websites verwendet werden kann. Zu dieser Zeit hieß die Software Architext, aber jetzt nennt sie Webserver.[7]
Excite war die erste ernsthafte kommerzielle Suchmaschine, die 1995 auf den Markt kam.[9] Es wurde in Stanford entwickelt und von @Home für 6,5 Milliarden US -Dollar gekauft. Im Jahr 2001 gingen Excite und @Home gingen bankrott und Infospace kaufte ERCITE für 10 Millionen US -Dollar.
Einige der ersten Analysen der Websuche wurden in Suchprotokollen von ERCITE durchgeführt[10][11]
Yahoo!
Im April 1994 zwei Ph.D. Kandidaten, David Filo und Jerry Yang, schuf einige Seiten, die ziemlich beliebt wurden. Sie nannten die Sammlung von Seiten Yahoo! Ihre offizielle Erklärung für die Namenswahl war, dass sie sich als ein Paar Yahoos betrachteten.
Als die Anzahl der Verbindungen zunahm und ihre Seiten Tausende von Hits pro Tag erhielten, schuf das Team Wege, um die Daten besser zu organisieren. Um das Datenabruf zu unterstützen, Yahoo! (www.yahoo.com) wurde ein durchsuchbares Verzeichnis. Die Suchfunktion war eine einfache Datenbank -Suchmaschine. Weil Yahoo! Einträge wurden manuell eingegeben und kategorisiert, Yahoo! wurde nicht wirklich als Suchmaschine eingestuft. Stattdessen wurde es allgemein als durchsuchbares Verzeichnis angesehen. Yahoo! hat seitdem einige Aspekte des Sammel- und Klassifizierungsprozesses automatisiert und die Unterscheidung zwischen Motor und Verzeichnis verwischt.
Der Wanderer erfasste nur URLs, was es schwierig machte, Dinge zu finden, die nicht explizit von ihrer URL beschrieben wurden. Da URLs zunächst eher kryptisch sind, hat dies dem durchschnittlichen Benutzer nicht geholfen. Suche Yahoo! Oder die Galaxie war viel effektiver, da sie zusätzliche beschreibende Informationen über die indizierten Websites enthielten.
Lycos
An der Carnegie Mellon University entwickelte Michael Mauldin im Juli 1994 die Lycos -Suchmaschine.
Arten von Web -Suchmaschinen
Suchmaschinen im Web sind Websites, die mit der Einrichtung angereichert sind, um die auf anderen Websites gespeicherten Inhalte zu durchsuchen. Es gibt einen Unterschied in der Art und Weise, wie verschiedene Suchmaschinen funktionieren, aber alle führen drei grundlegende Aufgaben aus.[12]
- Finden und Auswahl vollständiger oder teilweise Inhalte basierend auf den bereitgestellten Schlüsselwörtern.
- Beibehaltung des Inhalts des Inhalts und der Verweise auf den Ort, den sie finden,
- Ermöglichen, dass Benutzer nach Wörtern oder Kombinationen von Wörtern suchen, die in diesem Index gefunden wurden.
Der Prozess beginnt, wenn ein Benutzer über die bereitgestellte Schnittstelle eine Abfrageanweisung in das System eingibt.
Typ | Beispiel | Beschreibung |
---|---|---|
Konventionell | LibraryCatalog | Suche nach Keyword, Titel, Autor usw. |
Textbasiert | Google, Bing, Yahoo! | Suche nach Schlüsselwörtern. Begrenzte Suche mit Abfragen in der natürlichen Sprache. |
Sprachbasiert | Google, Bing, Yahoo! | Suche nach Schlüsselwörtern. Begrenzte Suche mit Abfragen in der natürlichen Sprache. |
Multimedia -Suche | Qbic, Webseek, sicher | Suche nach visuellem Erscheinungsbild (Formen, Farben, ..) |
Q/a | Stapelaustausch, Nsir | Suche in (eingeschränkte) natürliche Sprache |
Clustering -Systeme | Vivisimo, Clusty | |
Forschungssysteme | Lemur, Nutsch |
Es gibt im Grunde drei Arten von Suchmaschinen: diejenigen, die von Robotern angetrieben werden (genannt Kriecher; Ameisen oder Spinnen) und diejenigen, die durch menschliche Einreichungen angetrieben werden; und diejenigen, die eine Mischung von beiden sind.
CRAWLER-basierte Suchmaschinen sind diejenigen, die automatisierte Softwareagenten (Crawlers genannt) verwenden, die eine Website besuchen, die Informationen auf der tatsächlichen Site lesen, die Meta-Tags der Website lesen und den Links folgen, die die Site mit der Durchführung der Indexierung für alle verknüpften Verbindungen verbindet Websites auch. Der Crawler gibt alle Informationen an ein zentrales Depot zurück, in dem die Daten indiziert werden. Der Crawler kehrt regelmäßig zu den Websites zurück, um nach Informationen zu suchen, die geändert wurden. Die Frequenz, mit der dies geschieht, wird von den Administratoren der Suchmaschine bestimmt.
Menschenbetriebene Suchmaschinen verlassen sich auf Menschen, um Informationen einzureichen, die anschließend indiziert und katalogisiert werden. Nur Informationen, die eingereicht werden, werden in den Index eingerichtet.
In beiden Fällen suchen Sie beim Abfragen einer Suchmaschine, um Informationen zu finden, tatsächlich über den Index, den die Suchmaschine erstellt hat - Sie suchen tatsächlich nicht das Web. Diese Indizes sind riesige Datenbanken von Informationen, die gesammelt und gespeichert und anschließend durchsucht werden. Dies erklärt, warum manchmal eine Suche in einer kommerziellen Suchmaschine wie Yahoo! oder Google gibt Ergebnisse zurück, die tatsächlich tote Links sind. Da die Suchergebnisse auf dem Index basieren, wird der Index nicht aktualisiert, da eine Webseite ungültig wurde. Die Suchmaschine behandelt die Seite als noch einen aktiven Link, obwohl dies nicht mehr der Fall ist. Es bleibt so, bis der Index aktualisiert wird.
Warum führt die gleiche Suche in verschiedenen Suchmaschinen unterschiedliche Ergebnisse? Ein Teil der Antwort auf diese Frage ist, dass nicht alle Indizes genau gleich sein werden. Es hängt davon ab, was die Spinnen finden oder was die Menschen eingereicht haben. Noch wichtiger ist jedoch, dass nicht jede Suchmaschine denselben Algorithmus verwendet, um die Indizes zu durchsuchen. Der Algorithmus bestimmen die Suchmaschinen, um die zu bestimmen Relevanz der Informationen im Index zu dem, wonach der Benutzer sucht.
Eines der Elemente, nach denen ein Suchmaschinenalgorithmus scannt, ist die Frequenz und der Speicherort von Schlüsselwörtern auf einer Webseite. Diejenigen mit höherer Frequenz werden typischerweise als relevanter angesehen. Die Suchmaschinentechnologie wird jedoch anspruchsvoll, um das, was als Keyword -Fecting oder Spamdexing bezeichnet wird, zu entmutigen.
Ein weiteres gemeinsames Element, das Algorithmen analysieren, ist die Art und Weise, wie Seiten zu anderen Seiten im Web verknüpft werden. Durch die Analyse der Linkseiten miteinander kann ein Engine feststellen, worum es in einer Seite geht (wenn die Schlüsselwörter der verlinkten Seiten den Schlüsselwörtern auf der Originalseite ähnlich sind) und ob diese Seite als "wichtig" betrachtet wird und eine verdient wird Steigern im Ranking. So wie die Technologie immer raffinierter wird, um Keyword -Füllen zu ignorieren, wird sie auch für Web -Meister, die künstliche Links zu ihren Websites aufbauen, um ein künstliches Ranking aufzubauen.
Moderne Web -Suchmaschinen sind sehr komplizierte Softwaresysteme, die Technologie einsetzen, die sich im Laufe der Jahre weiterentwickelt haben. Es gibt eine Reihe von Unterkategorien der Suchmaschinensoftware, die auf spezifische "Browser" -Anwahrer getrennt anwendbar sind. Dazu gehören Web -Suchmaschinen (z. Google), Datenbank oder strukturierte Datensuchmaschinen (z. Dieselpoint) und gemischte Suchmaschinen oder Enterprise -Suche. Die häufigeren Suchmaschinen wie Google und Yahoo!Verwenden Sie Hunderttausende Computer, um Billionen von Webseiten zu verarbeiten, um relativ gut angestellte Ergebnisse zurückzugeben. Aufgrund dieses hohen Volumens an Abfragen und Textverarbeitung muss die Software in einer stark verteilten Umgebung mit einem hohen Maß an Überflusse ausgeführt werden.
Eine weitere Kategorie von Suchmaschinen sind wissenschaftliche Suchmaschinen. Dies sind Suchmaschinen, die wissenschaftliche Literatur durchsuchen. Das bekannteste Beispiel ist Googlescholar. Forscher arbeiten an der Verbesserung der Suchmaschinentechnologie, indem sie die Motoren das Inhaltselement der Artikel verstehen, z. B. das Extrahieren theoretischer Konstrukte oder wichtige Forschungsergebnisse.[13]
Suchmaschinenkategorien
Web -Suchmaschinen
Suchmaschinen, die ausdrücklich für die Suche von Webseiten, Dokumenten und Bildern entwickelt wurden, wurden entwickelt, um die Suche durch einen großen, nebulösen Blob unstrukturierter Ressourcen zu erleichtern. Sie sind so konstruiert, dass sie einen mehrstufigen Prozess befolgen: den unendlichen Bestand an Seiten und Dokumenten kriechen, um den figurativen Schaum aus ihrem Inhalt zu überfliegen, die Schaum-/Schlagworte in einer Art halbstrukturierter Form (Datenbank oder etwas) und schließlich zu indizieren und endlich , Beheben von Benutzereinträgen/Abfragen, um hauptsächlich relevante Ergebnisse und Links zu diesen überholten Dokumenten oder Seiten aus dem Inventar zurückzugeben.
Kriechen
Im Falle einer vollständigen Textsuche besteht der erste Schritt bei der Klassifizierung von Webseiten darin, ein "Indexelement" zu finden, das ausdrücklich auf den "Suchbegriff" bezieht. In der Vergangenheit begannen Suchmaschinen mit einer kleinen Liste von URLs als als Die sogenannte Saatgutliste hat den Inhalt abgerufen und die Links auf diesen Seiten für relevante Informationen analysiert, die anschließend neue Links bereitstellten. Der Prozess war sehr zyklisch und setzte sich fort, bis genügend Seiten für die Verwendung des Suchers gefunden wurden. Heutzutage wird eine kontinuierliche Crawl -Methode im Gegensatz zu einer zufälligen Entdeckung angewendet, die auf einer Samenliste basiert. Die Crawl -Methode ist eine Erweiterung der oben genannten Entdeckungsmethode. Außer es gibt keine Saatgutliste, da das System niemals die Warmierung aufhört.
Die meisten Suchmaschinen verwenden ausgefeilte Planungsalgorithmen, um zu „entscheiden“, wann sie eine bestimmte Seite noch einmal besuchen und ihre Relevanz ansprechen können. Diese Algorithmen reichen von konstantem Besuchsinterval mit höherer Priorität für häufiger wechselnde Seiten zu einem adaptiven Besuchsinterval, basierend auf mehreren Kriterien wie Häufigkeit von Veränderungen, Beliebtheit und Gesamtqualität des Standorts. Die Geschwindigkeit des Webservers, das die Seite ausführt, sowie Ressourcenbeschränkungen wie die Menge an Hardware oder Bandbreite.
Linkkarte
Die Seiten, die von Webcrawls entdeckt werden, werden häufig verteilt und in einen anderen Computer eingespeist, der eine wahre Karte der freigelegten Ressourcen erstellt. Die bunte Clustermasse sieht ein wenig wie ein Diagramm aus, auf dem die verschiedenen Seiten als kleine Knoten dargestellt werden, die durch Verbindungen zwischen den Seiten verbunden sind. Der Datenüberschuss wird in mehreren Datenstrukturen gespeichert, die einen schnellen Zugriff auf diese Daten durch bestimmte Algorithmen ermöglichen, die die Beliebtheit von Seiten auf dem Web berechnen, basierend auf der Anzahl der Links, die auf eine bestimmte Webseite hinweisen, wie Menschen auf eine beliebige Zahl zugreifen können von Ressourcen, die sich mit der Diagnose von Psychose befassen. Ein weiteres Beispiel wäre die Barrierefreiheit/der Rang der Webseiten, die Informationen zu Mohamed Morsi im Vergleich zu den besten Attraktionen in Kairo enthalten, nachdem sie als Suchbegriff einfach „Ägypten“ eingetreten sind. Ein solcher Algorithmus, Seitenrang, vorgeschlagen von Google -Gründern Larry Page und Sergey Brin, ist bekannt und hat viel Aufmerksamkeit erregt, da es die wiederholte Alltanität von Web -Suchanfragen mit freundlicher Genehmigung von Studenten hervorhebt, die nicht wissen, wie man die Themen bei Google ordnungsgemäß recherchiert. Die Idee, eine Linkanalyse durchzuführen, um einen Popularitätsrang zu berechnen, ist älter als PageRank. Weitere Varianten derselben Idee sind derzeit in Gebrauch - Grundschüler führen die gleichen Berechnungen bei der Auswahl von Kickball -Teams durch. Aber in aller Ernsthaftigkeit können diese Ideen in drei Hauptkategorien eingeteilt werden: Rang einzelner Seiten und Art des Websites -Inhalts. Suchmaschinen unterscheiden häufig zwischen internen Links und externen Links, da Web-Meister und Geliebte nicht fremd sind, um schamlose Selbstwerbung zu sein. Link -Karten -Datenstrukturen speichern typischerweise auch den in den Links eingebetteten Ankertext, da der Ankertext häufig eine Zusammenfassung der "sehr guten Qualität" des Inhalts einer Webseite darstellt.
Datenbank -Suchmaschinen
Die Suche nach textbasierten Inhalten in Datenbanken stellt einige spezielle Herausforderungen dar, aus denen eine Reihe spezialisierter Suchmaschinen gedeihen. Datenbanken können bei der Lösung komplexer Abfragen langsam sein (mit mehreren logischen oder stringspassenden Argumenten). Datenbanken ermöglichen pseudo-logische Abfragen, die Volltext-Suchen nicht verwenden. Für eine Datenbank ist kein Krabbeln erforderlich, da die Daten bereits strukturiert sind. Es ist jedoch häufig erforderlich, die Daten in einer wirtschaftlicheren Form zu indizieren, um eine schnellere Suche zu ermöglichen.
Gemischte Suchmaschinen
Manchmal enthält die durchsuchten Daten sowohl Datenbankinhalt als auch Webseiten oder Dokumente. Die Suchmaschinentechnologie hat sich entwickelt, um auf beide Anforderungen zu reagieren. Die meisten gemischten Suchmaschinen sind große Web -Suchmaschinen wie Google. Sie suchen beide durch strukturierte und unstrukturierte Daten Quellen. Nehmen wir zum Beispiel das Wort „Ball“. In den einfachsten Begriffen gibt es allein mehr als 40 Variationen von Wikipedia zurück. Meinten Sie einen Ball, wie in der sozialen Versammlung/im sozialen Tanz? Ein Fußball? Der Fußball? Seiten und Dokumente werden in einem separaten Index gekrabbt und indiziert. Datenbanken sind auch aus verschiedenen Quellen indiziert. Suchergebnisse werden dann für Benutzer generiert, indem diese mehreren Indizes parallel abfragen und die Ergebnisse gemäß „Regeln“ verschärfen.
Siehe auch
- Datenbanksuchmaschine
- Enterprise -Suche
- Suchmaschine
- Suchmaschinenindizierung
- Web -Crawler
- Wortvernetzung (umgehen mit Mehrdeutigkeit)
Verweise
- ^ "Das sieben Alter der Informationen gibt es möglicherweise auf viele Möglichkeiten, wie er Abruf abgerufen hat". Abgerufen 1. Juni 2014.
- ^ Yeo, Richard (30. Januar 2007). "Vor Memex: Robert Hooke, John Locke und Vannevar Bush in der externen Erinnerung". Wissenschaft im Kontext. 20 (1): 21. doi:10.1017/s0269889706001128. HDL:10072/15207. S2CID 2378301.
- ^ Yeo, Richard (30. Januar 2007). "Vor Memex: Robert Hooke, John Locke und Vannevar Bush in der externen Erinnerung". Wissenschaft im Kontext. 20 (1): 21–47. doi:10.1017/s0269889706001128. HDL:10072/15207. S2CID 2378301Das Beispiel, das Bush gibt, ist eine Suche, um Informationen über die relativen Vorzüge des türkischen Kurzschlugs und des englischen langen Bogens in den Kreuzzügen zu finden
{{}}
: Cs1 montieren: postScript (link) - ^ "Der Memex von Vannevar Bush".
- ^ Yamada, H.; Hirata, M.; Nagai, H.; Takahashi, K. (Oktober 1987). "Eine Hochgeschwindigkeits-String-Suchmaschine". IEEE Journal of Solid-State Circuits. IEEE. 22 (5): 829–834. Bibcode:1987ijssc..22..829y. doi:10.1109/jssc.1987.1052819.
- ^ a b Priti Srinivas Sajja; Rajendra Akerkar (2012). Intelligente Technologien für Webanwendungen. Boca Raton: CRC Press. p. 87. ISBN 978-1-4398-7162-1. Abgerufen 3. Juni 2014.
- ^ a b c d "Eine Geschichte der Suchmaschinen". Wiley. Abgerufen 1. Juni 2014.
- ^ Priti Srinivas Sajja; Rajendra Akerkar (2012). Intelligente Technologien für Webanwendungen. Boca Raton: CRC Press. p. 86. ISBN 978-1-4398-7162-1. Abgerufen 3. Juni 2014.
- ^ "Die wichtigsten Suchmaschinen". 21. Januar 2014. Abgerufen 1. Juni 2014.
- ^ Jansen, B. J., Spink, A., Bateman, J. und Saracevic, T. 1998. Abrufen von Informationen im wirklichen Leben: Eine Studie über Benutzeranfragen im Web. Sigir Forum, 32 (1), 5 -17.
- ^ Jansen, B. J., Spink, A. und Saracevic, T. 2000. Reales Leben, reale Benutzer und echte Bedürfnisse: Eine Studie und Analyse von Benutzeranfragen im Web. Informationsverarbeitung und -verwaltung. 36 (2), 207-227.
- ^ Priti Srinivas Sajja; Rajendra Akerkar (2012). Intelligente Technologien für Webanwendungen. Boca Raton: CRC Press. p. 85. ISBN 978-1-4398-7162-1. Abgerufen 3. Juni 2014.
- ^ Li, Jingjing; Larsen, Kai; Abbasi, Ahmed (2020-12-01). "Theoryon: Ein Designrahmen und ein System zum Entsperren von Verhaltenswissen durch Ontologielernen". Mis vierteljährlich. 44 (4): 1733–1772. doi:10.25300/MISQ/2020/15323.