Metasarch -Engine

A Metasarch -Engine (oder Suchaggregator) ist online Informationsrückgewinnung Tool, das die Daten von a verwendet Internet Suchmaschine seine eigenen Ergebnisse erzielen.[1][2] Metasearch -Motoren nehmen Eingaben von einem Benutzer und fragen sofort Suchmaschinen ab[3] für Ergebnisse. Reicht aus Daten wird gesammelt, eingestuft und den Benutzern präsentiert.
Probleme wie Spam reduziert die Genauigkeit und Präzision von Ergebnissen.[4] Der Prozess der Fusion zielt darauf ab, das Engineering eines Metasarch -Engine zu verbessern.[5]
Beispiele für Metasarch -Motoren umfassen Skyscanner und Kayak.com, die Suchergebnisse von Online -Reisebüros und Anbieter -Websites aggregieren und Begeistern, welche aggregierten Ergebnisse aus Internet -Suchmaschinen.
Geschichte
Die erste Person, die die Idee der Meta -Suche einbaute, war Daniel Dreilinger von Colorado State University . Er entwickelte SearchSavvy, mit dem Benutzer bis zu 20 verschiedene Suchmaschinen und Verzeichnisse gleichzeitig durchsuchen konnten. Obwohl schnell, war die Suchmaschine auf einfache Suchvorgänge beschränkt und war daher nicht zuverlässig. Universität von Washington Student Eric Selberg veröffentlichte eine "aktualisierte" Version namens " Metacrawler. Diese Suchmaschine verbesserte sich bei der Genauigkeit von Searchsavvy, indem sie eine eigene Suchsyntax hinter den Kulissen hinzufügte und die Syntax an die der Suchmaschinen entsprach, die sie untersuchte. Metacrawler reduzierte die Menge an Suchmaschinen, die auf 6 gefragt wurden, obwohl sie jedoch genauere Ergebnisse lieferte, wurde es dennoch nicht als genau angesehen, wie bei der Suche nach einer Abfrage in einem einzelnen Motor.[6]
Am 20. Mai 1996, Hotbot, dann im Besitz von Verdrahtetwar eine Suchmaschine mit Suchergebnissen aus dem Inktomi und direkte Hit -Datenbanken. Es war bekannt für seine schnellen Ergebnisse und als Suchmaschine mit der Möglichkeit, innerhalb der Suchergebnisse zu suchen. Nach dem Kauf von von Lycos Im Jahr 1998 fiel die Entwicklung für die Suchmaschine und der Marktanteil drastisch. Nach einigen Änderungen wurde Hotbot in eine vereinfachte Suchschnittstelle umgestaltet, wobei seine Funktionen in die Redesign der Lycos -Website einbezogen wurden.[7]
Ein Metasarch -Engine namens ANVISH wurde von Bo Shu und entwickelt Subhash Kak im Jahr 1999; Die Suchergebnisse wurden sortiert mithilfe Sofort ausgebildete neuronale Netze.[8] Dies wurde später in eine andere Metasarch -Engine namens SoloSearch aufgenommen.[9]
Im August 2000 erhielt Indien seine erste Meta -Suchmaschine, als Humhaiindia.com gestartet wurde.[10] Es wurde von der damals 16 -jährigen Sumeet Lamba entwickelt.[11] Die Website wurde später als tazaa.com umbenannt.[12]
Ixquick ist eine Suchmaschine, die für ihre Datenschutzrichtlinie bekannt ist. Es wurde 1998 von David Bodnick entwickelt und ins Leben gerufen und gehört Surfboard Holding BV. Im Juni 2006 begann Ixquick, private Details seiner Benutzer nach dem gleichen Prozess mit zu löschen Scroogle. Die Datenschutzrichtlinie von Ixquick umfasst keine Aufzeichnung von IP -Adressen der Benutzer, keine identifizierenden Cookies, keine Sammlung personenbezogener Daten und keine Freigabe personenbezogener Daten an Dritte.[13] Es verwendet auch ein einzigartiges Ranking -System, bei dem ein Ergebnis von Sternen eingestuft wird. Je mehr Sterne in einem Ergebnis, desto mehr Suchmaschinen stimmten das Ergebnis ein.
Im April 2005, Dogpile, dann im Besitz und betrieben von Infospace, Inc., arbeitete mit Forschern aus dem zusammen Universität von Pittsburgh und Pennsylvania Staatsuniversität Messung der Überlappungs- und Rankingunterschiede führender Websuchmaschinen, um die Vorteile einer Metasarch -Engine zur Suche im Web zu messen. Die Ergebnisse ergaben, dass von 10.316 zufälligen benutzerdefinierten Abfragen von Google, Yahoo!, und Fragen Sie JeevesIn diesen Suchmaschinen waren nur 3,2% der Suchergebnisse der ersten Seite für eine bestimmte Abfrage gleich. Eine weitere Studie später in diesem Jahr unter Verwendung von 12.570 zufälligen benutzerdefinierten Abfragen von Google, Yahoo!, MSN -Suche, und Fragen Sie Jeeves stellten fest, dass nur 1,1% der Suchergebnisse der ersten Seite für eine bestimmte Abfrage über diese Suchmaschinen gleich waren.[14]
Vorteile
Durch das Senden mehrerer Abfragen an mehrere andere Suchmaschinen erweitert dies die Abdeckungsdaten des Themas und ermöglicht weitere Informationen. Sie verwenden die Indizes, die von anderen Suchmaschinen erstellt wurden, die aggregierte und häufig nachverarbeitete Ergebnisse auf einzigartige Weise. Eine Metasearch -Engine hat einen Vorteil gegenüber einer einzelnen Suchmaschine, da mehr Ergebnisse sein können abgerufen mit der gleichen Menge an Anstrengung.[2] Außerdem reduziert es die Arbeit von Benutzern davon, in Suchanfragen von verschiedenen Motoren einzeln einzeln einzeln einzutippen, um nach Ressourcen zu suchen.[2]
Metasarching ist auch ein nützlicher Ansatz, wenn der Zweck der Suche des Benutzers darin besteht, einen Überblick über das Thema zu erhalten oder schnelle Antworten zu erhalten. Anstatt mehrere Suchmaschinen wie Yahoo! oder Google und den Vergleich der Ergebnisse können Metasarch -Motoren schnell kompilieren und kombiniert. Sie können dies entweder tun, indem sie Ergebnisse von jedem Motor auflisten, das ohne zusätzliche Nachbearbeitung (Dogpile) abgefragt wurde, oder indem sie die Ergebnisse analysieren und nach ihren eigenen Regeln einrufen (Ixquick, Metacrawler und Vivismo).
Eine Metasearch -Engine kann auch die IP -Adresse des Suchers aus den Abfragen der Suchmaschinen ausblenden und so die Suche für die Suche angeben.
Nachteile
Metasarch -Motoren sind nicht fähig zu Parsing Abfragenformen oder in der Lage, die Abfrage vollständig zu übersetzen Syntax. Die Anzahl der Hyperlinks Erzeugt von Metasarch -Motoren sind begrenzt und bieten dem Benutzer daher die vollständigen Ergebnisse einer Abfrage nicht.[15]
Die Mehrheit der Metasarch -Motoren liefert nicht über zehn verknüpfte Dateien aus einer einzelnen Suchmaschine und interagiert im Allgemeinen nicht mit größeren Suchmaschinen für Ergebnisse. Zahlen Sie pro Klick Links werden priorisiert und normalerweise zuerst angezeigt.[16]
Die Metasforing gibt auch die Illusion, dass das Thema mehr Abfragen vorliegt, insbesondere wenn der Benutzer nach populären oder alltäglichen Informationen sucht. Es ist üblich, mit mehreren identischen Ergebnissen der abgefragten Motoren zu enden. Für Benutzer ist es auch schwieriger, mit Advanced Search -Syntax mit der Abfrage zu suchen, sodass die Ergebnisse möglicherweise nicht so präzise sind wie wenn ein Benutzer eine erweiterte Suchschnittstelle an einer bestimmten Engine verwendet. Dies führt zu vielen Metasarch -Motoren mit einfacher Suche.[17]
Betrieb
Eine Metasearch -Engine akzeptiert eine einzige Suchanforderung aus dem Benutzer. Diese Suchanfrage wird dann an die andere Suchmaschine weitergegeben Datenbank. Eine Metasarch -Engine erstellt keine Datenbank von Webseiten erzeugt aber a Federated Database System von Datenintegration aus mehreren Quellen.[18][19][20]
Da ist jede Suchmaschine einzigartig und hat unterschiedlich Algorithmen Zum Generieren von Ranglisten werden auch Duplikate generiert. Um Duplikate zu entfernen, verarbeitet eine Metasarch -Engine diese Daten und wendet einen eigenen Algorithmus an. Eine überarbeitete Liste wird als Ausgabe für den Benutzer erstellt. Wenn eine Metasarch -Engine andere Suchmaschinen kontaktiert, antworten diese Suchmaschinen auf drei Arten:
- Sie werden sowohl kooperieren als auch einen vollständigen Zugriff auf die Schnittstelle für die MetaSearch -Engine, einschließlich privater Zugriff auf die Indexdatenbank, und informieren die Metasarch -Engine über alle Änderungen, die in der Indexdatenbank vorgenommen wurden.
- Suchmaschinen können sich nicht kooperativ verhalten, wodurch sie keinen Zugang zu Schnittstellen leugnen oder ermöglichen.
- Die Suchmaschine kann vollständig feindlich sein und den Gesamtzugriff der Metasarch -Engine auf ihre Datenbank und unter schwerwiegenden Umständen verweigern, indem Sie suchen legal Methoden.[21]
Architektur des Rankings
Webseiten, die auf vielen Suchmaschinen hoch eingestuft werden relevant bei der Bereitstellung nützlicher Informationen.[21] Alle Suchmaschinen haben jedoch unterschiedliche Ranking -Ergebnisse für jede Website, und die meiste Zeit sind diese Ergebnisse nicht gleich. Dies liegt daran, dass Suchmaschinen unterschiedliche Kriterien und Methoden für die Wertung priorisieren. Daher erscheint eine Website möglicherweise auf einer Suchmaschine und einer niedrigen Rangliste auf einer anderen. Dies ist ein Problem, da Metasarch -Motoren stark auf die Konsistenz dieser Daten angewiesen sind, um zuverlässige Konten zu generieren.[21]
Verschmelzung

Eine Metasarch -Engine verwendet den Fusionsprozess, um Daten für effizientere Ergebnisse zu filtern. Die beiden verwendeten Hauptfusionsmethoden sind: Sammlungsfusion und Datenfusion.
- Sammelfusion: Auch als verteiltes Abruf bezeichnet, befasst sich speziell mit Suchmaschinen, die nicht verwandte Daten indexieren. Um festzustellen, wie wertvoll diese Quellen sind, untersucht die Sammlungsfusion den Inhalt und bewertet dann die Daten darüber, wie wahrscheinlich es ist, relevante Informationen in Bezug auf die Abfrage bereitzustellen. Aus dem Erzeugten kann die Sammlungsfusion die besten Ressourcen aus dem Rang herausfinden. Diese ausgewählten Ressourcen werden dann in eine Liste zusammengefasst.[21]
- Datenfusion: befasst sich mit Informationen, die aus Suchmaschinen abgerufen werden, die gemeinsame Datensätze indiziert. Der Prozess ist sehr ähnlich. Die anfänglichen Ranglisten werden in eine einzelne Liste zusammengefasst, wonach die ursprünglichen Ränge jeder dieser Dokumente analysiert werden. Daten mit hohen Punktzahlen weisen auf ein hohes Maß an Relevanz für eine bestimmte Abfrage hin und werden daher ausgewählt. Um eine Liste zu erstellen, müssen die Bewertungen mithilfe von Algorithmen wie Kombsum normalisiert werden. Dies liegt daran, dass Suchmaschinen unterschiedliche Richtlinien von Algorithmen anwenden, was dazu führt, dass die Punktzahl unvergleichlich ist.[22][23]
Spamdexing
Spamdexing ist die absichtliche Manipulation von Suchmaschinenindizes. Es verwendet eine Reihe von Methoden, um die Relevanz oder Bekanntheit von Ressourcen zu manipulieren, die auf eine Weise indiziert sind, die mit der Absicht des Indexierungssystems nicht ausgerichtet ist. Spamdexing kann für Benutzer sehr beunruhigend und für Suchmaschinen problematisch sein, da der Rückkehrinhalt von Suchanfragen eine schlechte Präzision aufweist. Dies führt schließlich dazu, dass die Suchmaschine für den Benutzer unzuverlässig und nicht zuverlässig wird. Um Spamdexing anzugehen, werden Suchroboteralgorithmen komplexer und werden fast jeden Tag geändert, um das Problem zu beseitigen.[24]
Es ist ein großes Problem für Metasarch -Motoren Web -Crawler's Indizierungskriterien, auf die stark auf die Formatranking -Listen angewiesen sind. Spamdexing manipuliert das Natürliche Rangfolge System einer Suchmaschine und stellt Websites höher auf der Rangliste als natürlich platziert.[25] Es gibt drei primäre Methoden, um dies zu erreichen:
Inhaltsspam
Inhaltsspam sind die Techniken, die die logische Ansicht verändern, die eine Suchmaschine über den Inhalt der Seite hat. Techniken umfassen:
- Keyword -Füllung - Berechnete Platzierungen von Schlüsselwörtern auf einer Seite, um die Anzahl der Schlüsselwort, die Vielfalt und die Dichte der Seite zu erhöhen
- Versteckter/unsichtbarer Text - Nicht verwandter Text, der durch die gleiche Farbe wie der Hintergrund, mit einer winzigen Schriftgröße oder im HTML -Code versteckt wird
- Meta -Tag -Füllung - Wiederholung von Schlüsselwörtern in Meta -Tags und/oder mit Schlüsselwörtern, die nicht mit dem Inhalt der Website zu tun haben
- Türseiten - Webseiten mit geringer Qualität mit geringen Inhalten, aber zuordenbaren Schlüsselwörtern oder Phrasen
- Schaber -Sites - Programme, mit denen Websites Inhalte aus anderen Websites kopieren und Inhalte für eine Website erstellen können
- Artikel Spinning - Schreiben Sie vorhandene Artikel um, im Gegensatz zum Kopieren von Inhalten von anderen Websites
- Maschinelle Übersetzung - Verwendet maschinelle Übersetzung, um Inhalte in verschiedenen Sprachen umzuschreiben, was zu unleserlichen Text führt
Link Spam
Link -Spam sind Links zwischen anderen vorhandenen Seiten, aus anderen Gründen als Verdienst. Techniken umfassen:
- Linkbuilding -Software - Automatisierung der Suchmaschinenoptimierung (SEO) Prozess
- Linkbetriebe - Seiten, die sich gegenseitig beziehen (auch als gegenseitige Bewunderungsgesellschaften bezeichnet)
- Versteckte Links - Platzieren Sie Hyperlinks, wo Besucher sie nicht sehen oder nicht sehen können
- Sybil -Angriff - Schmieden mehrerer Identitäten für böswillige Absichten
- SPAM -Blogs - Blogs, die ausschließlich für die kommerzielle Werbung und die Verabschiedung der Link -Autorität erstellt wurden, um Websites zu zielen
- Page Hijacking - Erstellen einer Kopie einer beliebten Website mit ähnlichen Inhalten, leitet jedoch Web -Surfer zu nicht verwandten oder sogar böswilligen Websites um
- Kauf von abgelaufenen Domains - Kauf von Ablaufdomains und Ersetzen von Seiten durch Links zu nicht verwandten Websites
- Cookie -Füllung - Platzieren eines Affiliate -Tracking -Cookie auf dem Computer eines Website -Besuchers ohne Kenntnis
- Forum Spam - Websites, die von Benutzern bearbeitet werden können, um Links zu Spam -Websites einzufügen
Tabieren
Dies ist eine SEO -Technik, bei der verschiedene Materialien und Informationen an den Web -Crawler und an die gesendet werden Webbrowser.[26] Es wird üblicherweise als Spamdexing -Technik verwendet, da es Suchmaschinen dazu verleitet kann, entweder eine Website zu besuchen, die sich erheblich von der Beschreibung der Suchmaschine unterscheidet oder einer bestimmten Site ein höheres Ranking gibt.
Siehe auch
- Föderierte Suche
- Liste der Metasarch -Motoren
- Stoffwechsel
- Multisearch
- Suchaggregator
- Suchmaschinenoptimierung
- Hybrid -Suchmaschine
Verweise
- ^ Berger, Sandy (2005). "Sandy Bergers großer Altersführer zum Internet". Que Publishing. ISBN0-7897-3442-7
- ^ a b c "Architektur einer Metasarch -Engine, die Benutzerinformationen unterstützt". 1999.
- ^ Fahrt, Zwiebel (2021). "Wie Suchmaschinen funktionieren". Zwiebeln.
- ^ Lawrence, Stephen R.; Lee Giles, C. (10. Oktober 1997). "Patent US6999959 - Meta -Suchmaschine" - via Google Bücher.
- ^ Voorhees, Ellen M.; Gupta, Narendra; Johnson-Laird, Ben (April 2000). "Das Problem der Sammlung Fusion".
- ^ "Die Meta-Suche-Suchmaschinenverlauf".
- ^ "Suchmaschinen -Ranglisten auf Hotbot: Ein kurzer Verlauf der Hotbot -Suchmaschine".
- ^ Shu, Bo; Kak, Subhash (1999). "Ein neuronales Netzwerkbasis intelligenter Metasearch -Engine": 1–11. Citeseerx 10.1.1.84.6837.
{{}}
: Journal zitieren erfordert|journal=
(Hilfe) - ^ Kak, Subhash (November 1999). "Bessere Websuche und Vorhersage mit sofort ausgebildeten neuronalen Netzwerken" (PDF). IEEE Intelligente Systeme.
- ^ "Neues Kind in der Stadt".
- ^ "Rediff Search: Teenager haben.com im Alter!".
- ^ "Tazaa.com - Über tazaa.com".
- ^ "Über uns - unsere Geschichte".
- ^ Spink, Amanda; Jansen, Bernard J.; Kathuria, Vinish; Koshman, Sherry (2006). "Überlappung zwischen großen Web -Suchmaschinen" (PDF). Smaragd.
- ^ "Abteilung für Informatik". Universität Friborg.
- ^ "Intelligenz Ausnutzung des Internets" (PDF). 2002.
- ^ Hennegar, Anne. "Metasearch -Motoren erweitert Ihren Horizont".
- ^ Meng, Weiyi (5. Mai 2008). "Metasarch -Motoren" (PDF).
- ^ Selberg, Erik; Etzioni, Oren (1997). "Die Metacrawler -Architektur für die Ressourcenaggregation im Web". IEEE -Experte. S. 11–14.
- ^ Manoj, M; Jacob, Elizabeth (Juli 2013). "Design und Entwicklung einer programmierbaren Meta -Suchmaschine" (PDF). Grundlage der Informatik. S. 6–11.
- ^ a b c d Manoj, M.; Jacob, Elizabeth (Oktober 2008). "Informationsabruf im Internet mithilfe von Meta-Such-Motoren: eine Bewertung" (PDF). Rat für wissenschaftliche und industrielle Forschung.
- ^ Wu, Shengli; Crestani, Fabio; Bi, Yaxin (2006). Bewertung von Score -Normalisierungsmethoden bei der Datenfusion. Informationsabruftechnologie. Vorlesungsnotizen in Informatik. Vol. 4182. S. 642–648. Citeseerx 10.1.1.103.295. doi:10.1007/11880592_57. ISBN 978-3-540-45780-0.
- ^ Manmatha, R.; Sever, H. (2014). "Ein formaler Ansatz zur Normalisierung der META-Suche" ein formeller Ansatz zur Normalisierung der Meta " (PDF). Archiviert von das Original (PDF) Am 2019-09-30. Abgerufen 2014-10-27.
- ^ Najork, Marc (2014). "Web -Spam -Erkennung". Microsoft.
- ^ Vandendriessche, Gerrit (Februar 2009). "Ein paar rechtliche Kommentare zum Spamdexing".
- ^ Wang, yi-min; Ma, Ming; Niu, Yuan; Chen, Hao (8. Mai 2007). "Verbinden von Webspammer mit Werbetreibenden" (PDF).