Enterprise -Suche

Enterprise -Suche ist die Praxis, Inhalte aus mehreren Quellen vom Typ Enterprise zu erstellen, wie z. Datenbanken und Intranets, durchsucht zu einem definierten Publikum.[1]

"Enterprise Search" wird verwendet, um die Software von Suchinformationen in einem Unternehmen zu beschreiben (obwohl die Suchfunktion und ihre Ergebnisse möglicherweise noch öffentlich sind).[2] Die Unternehmenssuche kann im Gegensatz zu Gegenstand Web-Suche, was Suchtechnologie auf Dokumente im offenen Web anwendet, und Desktop -Suche, die Suchtechnologie auf den Inhalt eines einzelnen Computers anwendet.

Indexdaten und Dokumente von Enterprise Search Systems aus einer Vielzahl von Quellen wie: Dateisysteme, Intranets, Dokumentverwaltungssysteme, Email, und Datenbanken. Viele Unternehmenssuchsysteme integrieren strukturierte und unstrukturierte Daten in ihren Sammlungen.[3] Enterprise -Suchsysteme verwenden auch Zugriffskontrollen, um eine Sicherheitsrichtlinie für ihre Benutzer durchzusetzen.[4]

Unternehmensuche kann als eine Art von Art von gesehen werden vertikale Suche eines Unternehmens.

Komponenten eines Unternehmenssuchsystems

In einem Enterprise -Suchsystem durchläuft der Inhalt verschiedene Phasen vom Quell -Repository bis zu Suchergebnissen:

Inhaltsbewusstsein

Inhaltsbewusstsein (oder "Inhaltskollektion") ist normalerweise entweder ein Push- oder Pull -Modell. Im Push -Modell wird ein Quellsystem so in die Suchmaschine integriert, dass es eine Verbindung zu ihm herstellt und neue Inhalte direkt zu seiner Apis. Dieses Modell wird verwendet, wenn die Echtzeitindizierung wichtig ist. Im Pull -Modell sammelt die Software Inhalte aus Quellen mit einem Anschluss wie a Web -Crawler oder ein Datenbank Verbinder. Der Stecker befragt die Quelle in der Regel mit bestimmten Intervallen, um nach neuen, aktualisierten oder gelöschten Inhalten zu suchen.[5]

Inhaltsverarbeitung und -analyse

Inhalte aus verschiedenen Quellen können viele verschiedene Formate oder Dokumenttypen haben, wie XML, HTML, Bürodokumentformate oder einfacher Text. Die Inhaltsverarbeitungsphase verarbeitet die eingehenden Dokumente unter Verwendung von Dokumentfiltern in Klartext. Es ist auch oft erforderlich, den Inhalt auf verschiedene Weise zu verbessern, um sich zu verbessern abrufen oder Präzision. Dies kann einschließen Stamm, Lemmatisierung, Synonym Erweiterung, Entitätsextraktion, Teil der Rede Tagging.

Als Teil der Verarbeitung und Analyse, Tokenisierung wird angewendet, um den Inhalt aufzuteilen in Token Welches ist die grundlegende passende Einheit. Es ist auch üblich, Token in den niedrigeren Fall zu normalisieren, um eine unempfindliche Suche zu ermöglichen, sowie Akzente zu normalisieren, um einen besseren Rückruf zu gewährleisten.

Indizierung

Der resultierende Text wird in einem gespeichert Index, was für schnelle Lookups optimiert wird, ohne den vollständigen Text des Dokuments zu speichern. Der Index kann das Wörterbuch aller einzigartigen Wörter im Korpus sowie Informationen über das Ranking and enthalten Begriffsfrequenz.

Abfrageverarbeitung

Mit einer Webseite gibt der Benutzer a Anfrage zum System. Die Abfrage besteht aus allen Begriffen, die der Benutzer eingibt, sowie Navigationsaktionen wie z. Facetting und Paging -Informationen.

Matching

Die verarbeitete Abfrage wird dann mit dem gespeicherten Index verglichen, und das Suchsystem gibt Ergebnisse (oder "Treffer") auf Quelldokumente, die übereinstimmen, die Ergebnisse zurück. Einige Systeme können das Dokument so präsentieren, wie es indiziert wurde.

Unterschiede zur Websuche

Über den Unterschied in den indizierten Materialien hinaus sind Unternehmenssuchsysteme typischerweise auch Funktionen enthalten, die nicht mit dem Mainstream verbunden sind Web -Suchmaschinen. Diese beinhalten:

  1. Transformation einer Abfrage und Übertragung in eine Gruppe unterschiedlicher Datenbanken oder externer Inhaltsquellen mit der entsprechenden Syntax,
  2. Zusammenführen der aus den Datenbanken gesammelten Ergebnisse,
  3. präsentieren sie in einem prägnanten und einheitlichen Format mit minimaler Duplikation und
  4. Bereitstellung von Mittel, die entweder automatisch oder vom Portalbenutzer durchgeführt werden, um das zusammengeführte Ergebnissatz zu sortieren.
  • Enterprise -Lesezeichen, Kollaborativ Tagging Systeme zur Erfassung von Wissen über strukturierte und halbstrukturierte Unternehmensdaten.
  • Entitätsextraktion Dies soll Elemente im Text in vordefinierte Kategorien wie die Namen von Personen, Organisationen, Standorten, Ausdrucksformen, Größen, Geldwerte, Prozentsätze usw. befinden und klassifizieren.
  • Facettensuchung, eine Technik zum Zugriff auf eine Sammlung von Informationen, die mit a dargestellt werden Facettenklassifizierung, sodass Benutzer durch Filtern der verfügbaren Informationen erkunden können.
  • Zugangskontrolle, normalerweise in Form eines Zugriffskontrollliste (ACL) ist häufig erforderlich, um den Zugriff auf Dokumente auf der Grundlage einzelner Benutzeridentitäten einzuschränken. Es gibt viele Arten von Zugriffskontrollmechanismen für verschiedene Inhaltsquellen, die dies zu einer komplexen Aufgabe machen, die in einer Enterprise -Suchumgebung umfassend angeht (siehe unten).
  • Textclustering, die die Top mehrere hundert Suchergebnisse in Themen gruppiert, die im laufenden Fliegen von den Suchre-Results-Beschreibungen, typischerweise Titel, Auszügen (Snippets) und Meta-Data berechnet werden. Mit dieser Technik können Benutzer den Inhalt eher nach Themen als nach der Meta-Daten navigieren, die bei Faceting verwendet wird. Das Clustering kompensiert das Problem der inkompatiblen Meta-Daten in mehreren Unternehmensrepositories, was den Nutzen der Facettierung behindert.
  • Benutzeroberflächen, die in der Websuche absichtlich einfach gehalten werden, um den Benutzer nicht davon abzulenken, auf Anzeigen zu klicken, was die Einnahmen generiert. Obwohl das Geschäftsmodell für die Unternehmenssuche das Anzeigen von Anzeigen beinhalten könnte, ist dies in der Praxis nicht erledigt. Um die Produktivität des Endbenutzers zu verbessern, experimentieren Unternehmensanbieter kontinuierlich mit reichhaltigen UI -Funktionen, die einen erheblichen Bildschirmraum einnehmen, was für die Websuche problematisch wäre.

Relevanzfaktoren

Die Faktoren, die die bestimmen Relevanz der Suchergebnisse im Kontext einer Unternehmensüberlappung mit, unterscheiden sich von denen, die für die Websuche gelten. [1] Im Allgemeinen können Unternehmenssuchmaschinen die Reichen nicht nutzen Verbindungsstruktur Wie im Internet gefunden wird Hypertext Inhalt, jedoch eine neue Generation von Unternehmenssuchmaschinen basierend auf einem Bottom-up Web 2.0 Technologie liefert sowohl einen Beitrag als auch einen beitragenden Ansatz als auch Hyperlink Innerhalb des Unternehmens. Algorithmen mögen Seitenrang Nutzen Sie die Hyperlink-Struktur, um Dokumenten Autorität zuzuweisen, und verwenden Sie diese Autorität als abfrageunabhängige Relevanzfaktor. Im Gegensatz dazu müssen Unternehmen in der Regel andere abfrageunabhängige Faktoren wie die Aktualität oder Popularität eines Dokuments zusammen mit abhängigen Faktoren verwenden, die traditionell mit abhängigen Faktoren verbunden sind Informationsrückgewinnung Algorithmen. Außerdem verringern die umfangreiche Funktionalität der UIS -Such -Benutzeroberfläche wie Clustering und Facetting das Vertrauen in das Ranking als Mittel, um die Aufmerksamkeit des Benutzers zu lenken.

Zugangskontrolle: Frühe Bindung gegen verspätete Bindung

Sicherheits- und eingeschränkter Zugriff auf Dokumente ist eine wichtige Angelegenheit bei der Enterprise -Suche. Es gibt zwei Hauptansätze, um eingeschränkten Zugriff anzuwenden: Frühe Bindung gegen verspätete Bindung.[6]

Späte Bindung

Berechtigungen werden analysiert und Dokumenten in der Abfragephase zugewiesen. Query Engine generiert einen Dokumentsatz und vor der Rückgabe an einen Benutzer wird dieser Satz basierend auf den Zugriffsrechten der Benutzer zugefiltert. Es ist kostspieliger Prozess, aber genau (basierend auf Benutzerberechtigungen zum Zeitpunkt der Abfrage).

Frühe Bindung

Berechtigungen werden analysiert und Dokumenten in der Indexierungsphase zugeordnet. Es ist viel effektiver als verspätete Bindung, könnte aber ungenau sein (dem Benutzer kann die Berechtigungen zwischen der Indexierung und der Abfrage gewährt oder widerrufen).

Relevanz -Testoptionen suchen

Die Relevanz von Suchanwendungen kann ermittelt werden, indem Relevanz -Testoptionen wie folgt verfolgt werden[7]

  • Schwerpunktgruppen
  • Referenzbewertungsprotokoll (basierend auf Relevanzurteilen von Ergebnissen aus vereinbarten Abfragen, die gegen gemeinsame Dokumentkorpusse durchgeführt wurden)
  • Empirische Tests
  • A/B -Test
  • Protokollanalyse auf einer Beta -Produktionsstelle
  • Online -Bewertungen

Siehe auch

Verweise

  1. ^ a b Kruschwitz, udo; Hull, Charlie (2017). "Durchsuchen des Unternehmens". Grundlagen und Trends beim Abrufen von Informationen. 11: 1–142. doi:10.1561/1500000053.
  2. ^ "Was ist Enterprise -Suche?".
  3. ^ "Das neue Gesicht der Enterprise -Suche: Strukturierte und unstrukturierte Informationen überbrücken" (PDF). Archiviert von das Original (PDF) Am 2015-10-28. Abgerufen 2013-05-27.
  4. ^ "Sicherheitsanforderungen für die Unternehmenssuche: Teil 1 - Neue Idea Engineering".
  5. ^ "Inhaltserfassung und -indexierung verstehen".
  6. ^ "Enterprise -Suche: Dokumentzugriffskontrolle". Archiviert von das Original Am 2014-12-08. Abgerufen 2014-12-01.
  7. ^ "Debugging Search Application Relevanz Themen". Archiviert von das Original Am 2013-06-05. Abgerufen 2013-05-27.