Föderierte Suche
Föderierte Suche Ruft Informationen aus einer Vielzahl von Quellen über eine Suchanwendung ab, die auf einer oder mehreren Suchmaschinen basiert.[1] Ein Benutzer stellt eine einzelne Abfrageanforderung an, die an die verteilt ist Suchmaschinen, Datenbanken oder andere Abfragemotoren, die am Föderation teilnehmen. Die gesetzliche Suche aggregiert dann die Ergebnisse, die von den Suchmaschinen zur Präsentation vor dem Benutzer empfangen werden. Die gesunde Suche kann verwendet werden, um unterschiedliche Informationsressourcen in eine einzige große Organisation ("Enterprise") oder für das gesamte Web zu integrieren.
Im Gegensatz zur verteilten Suche erfordert die föderierte Suche eine zentrale Koordination der durchsuchbaren Ressourcen. Dies beinhaltet sowohl die Koordination der an die einzelnen Suchmaschinen übertragenen Abfragen als auch die Fusion der von jeweils zurückgegebenen Suchergebnissen.
Zweck
Die Federated Search erfüllte die Notwendigkeit, mehrere unterschiedliche Inhaltsquellen mit einer Abfrage zu durchsuchen. Auf diese Weise kann ein Benutzer in Echtzeit mehrere Datenbanken gleichzeitig durchsuchen, die Ergebnisse aus den verschiedenen Datenbanken in ein nützliches Formular anordnen und dann die Ergebnisse dem Benutzer vorlegen.
Daher handelt es sich um eine Informationsaggregation oder einen Integrationsansatz - sie bietet einen einzelnen Punktzugriff auf viele Informationsressourcen und gibt die Daten in der Regel in einer Standard- oder teilweise homogenisierten Form zurück. Andere Ansätze umfassen das Erstellen eines Enterprise Data Warehouse, Datensee, oder Datenknotenpunkt. Föderierte Suchabfragen in vielerlei Hinsicht in vielerlei Hinsicht (jede Quelle wird separat abgefragt), wobei andere Ansätze, die Daten oft importieren und transformieren, normalerweise in Prozessen über Nachtstapel importieren und transformieren. Die Federated Search bietet eine Echtzeit-Ansicht aller Quellen (soweit sie alle online und verfügbar sind).
In industriellen Suchmaschinen, wie z. LinkedIn, Federated Search wird verwendet, um die vertikale Präferenz für mehrdeutige Abfragen zu personalisieren.[2] Wenn ein Benutzer beispielsweise eine Abfrage wie "maschinelles Lernen" auf LinkedIn herausgibt, könnte er oder sie bedeuten, nach Personen mit maschinellem Lernen, Jobs zu suchen, die maschinelle Lernfähigkeit oder Inhalte zum Thema erfordern. In solchen Fällen könnte die Federated Search ausnutzen Benutzerabsicht (z. B. Einstellung, Jobsuche oder Inhalte konsumieren), um die vertikale Reihenfolge für jeden einzelnen Benutzer zu personalisieren.
Verfahren
Wie von Peter Jacso (2004) beschrieben[3]), Föderierte Suche besteht aus (1) verwandeln a Anfrage und überträgt es an eine Gruppe unterschiedlicher Datenbanken oder andere Webressourcen, wobei die entsprechende Syntax (2) die aus den Datenbanken gesammelten Ergebnisse verschmelzen, (3) sie in einem prägnanten und einheitlichen Format mit minimaler Duplikation und (4) bereitstellen, und (4) bereitstellen Ein Mittel, das entweder automatisch oder vom Portalbenutzer durchgeführt wird, um das zusammengeführte Ergebnissatz zu sortieren.
Föderierte Suchportale, entweder kommerziell oder uneingeschränkter Zugangim Allgemeinen den öffentlichen Zugriff durchsuchen Bibliographische Datenbanken, öffentliche Zugangsbasis-Bibliothekskataloge (Opacs) Webbasierte Suchmaschinen mögen Google und/oder offenen Zugriff, staatlich betriebene oder Unternehmensdatensammlungen. Diese einzelnen Informationsquellen senden an die Schnittstelle des Portals eine Liste der Ergebnisse aus der Suchabfrage zurück. Der Benutzer kann diese Hit -Liste überprüfen. Einige Portale werden nur Bildschirmkratzer Die tatsächliche Datenbankergebnisse ermöglichen es einem Benutzer nicht direkt, die Anwendung der Informationsquelle einzugeben. Ausgefugtere werden die Ergebnisseliste durch Zusammenführen und Entfernen von Duplikaten enttäuschen. In vielen Portalen stehen zusätzliche Funktionen zur Verfügung, aber die Grundidee ist dieselbe: die Genauigkeit und Relevanz der einzelnen Suchvorgänge zu verbessern und die Zeit zu verkürzen, die für die Suche nach Ressourcen erforderlich ist.
Dieser Prozess ermöglicht die Federated-Suche einige wichtige Vorteile im Vergleich zu vorhandenen Crawler-basierten Suchmaschinen. Die Föderierte Suche muss den Eigentümern der einzelnen Informationsquellen nicht an Anforderungen oder Belastungen aufnehmen, außer dass der Verkehr erhöht wird. Föderierte Suchvorgänge sind von Natur aus so aktuell wie die einzelnen Informationsquellen, wie sie in Echtzeit durchsucht werden.
Implementierung

Eine Anwendung der Federated -Suche ist die Metasarch -Engine. Der Metasarch -Ansatz überwindet jedoch nicht die Mängel der Komponentensuchmaschinen, wie z. B. unvollständige Indizes. Dokumente, die nicht von Suchmaschinen indiziert werden Deep Web, oder unsichtbares Web. Google Scholar ist ein Beispiel für viele Projekte, die versuchen, dies zu beheben, indem sie elektronische Dokumente indizieren, die Suchmaschinen ignorieren. Und der Metasarch -Ansatz wie die zugrunde liegende Suchmaschinentechnologie funktioniert nur mit Informationsquellen, die in elektronischer Form gespeichert sind.
Eine der Hauptherausforderungen von Metasarch besteht darin, sicherzustellen, dass die Suchabfrage mit den Komponenten -Suchmaschinen kompatibel ist, die Verbände und kombiniert werden. Wenn das Suchvokabular oder Datenmodell Das Suchsystem unterscheidet sich vom Datenmodell eines oder mehrerer Fremdzielsysteme, die Abfrage muss in jedes der fremden Zielsysteme übersetzt werden. Dies kann mit einer einfachen Datenelementübersetzung erfolgen oder erforderlich sein Semantische Übersetzung. Wenn beispielsweise eine Suchmaschine das Zitieren von genauen Zeichenfolgen oder N-Gramm und eine andere nicht ermöglicht, muss die Abfrage übersetzt werden, um mit jeder Suchmaschine kompatibel zu sein. Um eine zitierte exakte String -Abfrage zu übersetzen, kann sie in eine Reihe von Überlappungen unterteilt werden N-Gramm Das liefert in jeder Suchmaschine am wahrscheinlichsten die gewünschten Suchergebnisse.
Eine weitere Herausforderung bei der Umsetzung von Federated Search Engines ist die Skalierbarkeit. Es ist schwierig, die Leistung, die Reaktionsgeschwindigkeit einer Verbund -Suchmaschine aufrechtzuerhalten, da sie immer mehr Informationsquellen miteinander kombiniert. Eine Implementierung der gesetzlichen Suche, die begonnen hat, dieses Problem zu lösen, ist Weltweit, gehostet von der US -Energieministerium's Büro für wissenschaftliche und technische Informationen. Weltweit[4] besteht aus mehr als 40 Informationsquellen zusammen, von denen einige selbst gesucht werden. Ein solches Portal ist Science.gov[5] Das selbst hat mehr als 30 Informationsquellen, die den größten Teil der F & E -Produktion der US -Bundesregierung darstellen. Science.gov gibt seine höchsten Ergebnisse in die weltweitwutesreiche Ergebnisse zurück, die diese Ergebnisse mit der Suche, die von den anderen Informationsquellen zurückgegeben wird, die weltweit zurückgegeben werden, verschmolzen und rangiert.[5] Dieser Ansatz der kaskadierten gesetzlichen Suche ermöglicht eine große Anzahl von Informationsquellen über eine einzelne Abfrage.
Eine andere Anwendung Sesam Das Laufen in Norwegen und Schweden wurde auf einer offenen Plattform aufgebaut, die auf Föderierte Suchlösungen spezialisiert ist. Sesat,[6] ein Akronym für SESAM -Suchanwendungs -Toolkit, ist eine Plattform, die einen Großteil des Frameworks und der Funktionalität bietet, die für die Handhabung paralleler und pipelierter Suchvorgänge erforderlich sind und sie elegant in einer Benutzeroberfläche angezeigt werden, sodass sich die Ingenieure auf die Index-/Datenbankkonfigurationsabstimmung konzentrieren können.
Um vertikale Bestellungen in der Föderierten Suche zu personalisieren, LinkedIn Suchmaschine[2] Das Profil und die jüngsten Aktivitäten des Suchers ausnutzt, um seine Absicht zu schließen, wie z. B. Einstellung, Jobsuche und Inhalte, die konsumiert werden, verwendet dann die Absicht zusammen mit vielen anderen Signalen, um die für den individuelle Sucher persönlich relevante vertikale Reihenfolge zu bewerten.
Herausforderungen
Wenn die gesetzliche Suche gegen sichere Datenquellen durchgeführt wird, müssen die Anmeldeinformationen der Benutzer an jede zugrunde liegende Suchmaschine weitergegeben werden, sodass die entsprechende Sicherheit gewartet wird. Wenn der Benutzer unterschiedliche Anmeldeinformationen für verschiedene Systeme hat, muss die Sicherheitsdomäne jeder Suchmaschinen die Sicherheitsdomäne der Suchmaschine abbilden.[7]
Eine weitere Herausforderung besteht darin, die Navigatoren der Ergebnisse zu einer gemeinsamen Form zuzuordnen. Angenommen, 3 Immobilienseiten werden durchsucht, jeweils enthält eine Liste hyperlinker Stadtnamen, auf die Sie klicken können, um nur in jeder Stadt übereinstimmen. Idealerweise würden diese Facetten zu einem Satz kombiniert, aber das stellt zusätzliche technische Herausforderungen dar.[8] Das System muss auch "nächste Seite" -Links verstehen, wenn es dem Benutzer ermöglicht, die kombinierten Ergebnisse durchzuführen.
Ein Teil dieser Herausforderung, auf eine gemeinsame Form zu karten verknüpfte offene Daten über RDF. Ontologies (Regeln) können hinzugefügt werden, um die Ergebnisse mit dieser Technologie an gemeinsame Formulare zuzuordnen.
Eine weitere Herausforderung besteht darin, Ergebnisse zu sortieren und zu bewerten. Jede Webressource hat einen eigenen Begriff der Relevanzbewertung und kann einige sortierte Ergebnisseaufträge unterstützen. Die Relevanz variiert bei der Suche in den "Verbänden" stark. Es ist daher schwierig oder unmöglich, die Ergebnisse zu verfolgen, um die relevantesten oder unmöglich zu zeigen.
Eine weitere Herausforderung ist eine robuste Frage. Die gesunde Suche muss sich möglicherweise auf die minimalen Reihe von Abfragefunktionen beschränken, die allen Verbänden gemeinsam sind. Z.B. Wenn Google Negation und zitierte Phrasen unterstützt, wissenschaftlich, aber nicht, ist es für die föderierte Suche unmöglich, negierte, zitierte Phrasen zu unterstützen.
Eine weitere Herausforderung ist die Verfügbarkeit und Auszeit. Wenn die Anzahl der Verbände (Verbundquellen) wächst, wird die Wahrscheinlichkeit eines oder mehrerer langsamer oder Offline -Verbände hoch. Die gesetzliche Suche muss entscheiden, wann eine Offline -Federate in Betracht gezogen oder auf eine langsame Antwort warten muss. Die Reaktionszeiten werden durch den langsamsten Verbündeten des Haufens diktiert.
Eine weitere Herausforderung ist die Entwicklung und Prüfung in einem Unternehmen (im Vergleich zu öffentlichem Internet). Entwicklungsgruppen sollten in der Regel nicht live, Produktionssysteme treffen, da sie regelmäßig Arbeiten leisten, viel weniger intensive Lasttests. Außerdem sind einige Ressourcen sicher und sollten aufgrund von Datenschutz- und Sicherheitsbedenken nicht willkürlich abgefragt und in der Entwicklung ausgesetzt werden. Daher müssen die Entwicklungs-, Test- und Leistungstestumgebungen die Installation und Konfiguration für viele Subsysteme umfassen, um sichere, sichere Tests zu ermöglichen.
Eine weitere Herausforderung innerhalb eines Unternehmens ist HA/DR (hohe Verfügbarkeit und Notfallwiederherstellung). Damit das Gesamtverbundsystem HA/DR ist, muss jedes Subsystem HA/DR sein.
Ähnlich, Leistungsmodellierung und Kapazitätsplanung Für das föderierte System erfordert Modellierung, Planung und manchmal Expansion aller Verbände.
Aus den obigen Gründen innerhalb eines Unternehmens a Datenknotenpunkt oder Datensee kann vorzuziehen sein oder ein hybrider Ansatz. Datenzentren und Seen vereinfachen die Entwicklung und den Zugriff, können jedoch einige Zeitverzögerungen entstehen, bevor Daten verfügbar sind (ohne spezielle Synchronisierungslogik). Im Web ist die Föderation typischer.
Siehe auch
Verweise
- ^ "Was ist die Federated Search?". Coveo -Blog. Coveo. Abgerufen 29. Juni, 2020.
- ^ a b Arya, Dhruv; Ha-thuc, viet; Sinha, Shakti (2015). "Personalisierte gesetzliche Suche bei LinkedIn". Proceedings des 24. ACM International für Informations- und Wissensmanagement (CIKM). S. 1699–1702. Arxiv:1602.04924. doi:10.1145/2806416.2806615. ISBN 9781450337946.
- ^ Gedanken über die Federated -Suche.Jacsó, Péter, Informationen heute, Oktober 2004, vol.21, Ausgabe 9
- ^ Weltweit
- ^ a b Science.gov
- ^ "Sesat". Archiviert von das Original Am 2015-07-20. Abgerufen 2019-08-17.
- ^ Zuordnen der Sicherheitsanforderungen zur Unternehmensuche
- ^ 20+ Unterschiede zwischen Internet und Unternehmensuche - Teil 1
Weitere Lektüre
- Federated Search 101. Linoski, Alexis, Walczyk, Tine, Library Journal, Sommer 2008 Net Connect, Vol.133.Dieser Inhalt wurde verschoben hierAber Sie benötigen ein Remote -Access -Konto über Ihre lokale Bibliothek, um den gesamten Artikel zu erhalten.
- Cox, Christopher N. Federated Search: Lösung oder Rückschlag für Online -Bibliotheksdienste.Binghamton, NY: Haworth Information Press, 2007. Inhaltsverzeichnis
- Föderierte Search -Primer.Lederman, S., AltsearchEngines, Januar 2009.Dieses Material wurde erneut veröffentlicht hier, im Blog einer kommerziellen Suchmaschinenfirma.
- Si, Luo;Shokuhi, Milad (2011)."Föderierte Suche". Grundlagen und Trends beim Abrufen von Informationen. 5: 1–102. doi:10.1561/1500000010.