Klassifizierung von Webanfragen
A Webabfrage Thema Klassifizierung/Kategorisierung ist ein Problem in Informationswissenschaft. Die Aufgabe besteht darin, a zuzuweisen Web -Search -Abfrage zu einem oder mehreren vordefiniert Kategorienbasierend auf seinen Themen. Die Bedeutung der Abfrageklassifizierung wird durch viele Dienste unterstrichen, die durch Websuche bereitgestellt werden. Eine direkte Anwendung soll bessere Suchergebnisse für Benutzer mit Interessen verschiedener Kategorien bereitstellen. Zum Beispiel die Benutzer, die eine Webabfrage ausgeben "Apfel"Vielleicht erwarten Sie, dass Webseiten im Zusammenhang mit dem Obstapfel angezeigt werden, oder sie bevorzugen möglicherweise Produkte oder Nachrichten, die sich auf das Computerunternehmen beziehen. Online -Werbedienste können sich auf die Ergebnisse der Abfrageklassifizierung stützen, um verschiedene Produkte genauer zu bewerben. Suchergebnisse können die Seiten sein. Gruppiert nach den Kategorien, die durch einen Abfrageklassifizierungsalgorithmus vorhergesagt wurden. Die Berechnung der Abfrageklassifizierung ist jedoch nicht trivial. Anders von der Dokumentklassifizierung Aufgaben, Abfragen, die von Websuche eingereicht wurden, sind normalerweise kurz und mehrdeutig. Auch die Bedeutungen der Abfragen entwickeln sich im Laufe der Zeit weiter. Daher ist die Klassifizierung von Abfragen die Themen der Themen viel schwieriger als herkömmliche Aufgaben der Dokumentenklassifizierung.
Kddcup 2005
KDDCUP 2005 Wettbewerb[1] hob die Interessen an der Abfrageklassifizierung hervor. Ziel dieses Wettbewerbs ist es, 800.000 reale Benutzeranfragen in 67 Zielkategorien zu klassifizieren. Jede Abfrage kann zu mehr als einer Zielkategorie gehören. Als Beispiel für eine QC -Aufgabe, angesichts der Abfrage "Apple", sollte sie in Ranglistenkategorien eingeteilt werden: "Computer \ Hardware; Living \ Food & Cooking".
Anfrage | Kategorien |
---|---|
Apfel | Computer \ Hardware Living \ Food & Cooking |
FIFA 2006 | Sport \ Soccer Sport \ Zeitpläne und Tickets Unterhaltung \ Games & Spielzeug |
Käsekuchenrezepte | Living \ Food & Cooking Information \ Arts & Humanities |
Freundschaften Gedicht | Information \ Arts & Humanities Living \ Dating & Beziehungen |
Schwierigkeiten
Die Klassifizierung von Webanfragen soll einige vordefinierte Kategorien automatisch eine Abfrage zuweisen. Anders als bei den traditionellen Aufgaben der Dokumente klassifizieren Abfrageverständnis:
Wie leichte ich eine geeignete Feature -Darstellung für Webanfragen ab?
Viele Abfragen sind kurz und Abfragebegriffe sind laut. Beispielsweise sind im KDDCup 2005 -Datensatz Abfragen mit 3 Wörtern am häufigsten (22%). Darüber hinaus haben 79% Abfragen nicht mehr als 4 Wörter. Eine Benutzerabfrage hat häufig mehrere Bedeutungen. Zum Beispiel, "Apfel"Kann eine Art Obst oder eine Computerfirma bedeuten."Java"Kann eine Programmiersprache oder eine Insel in Indonesien bedeuten. Im Datensatz von KDDCup 2005 enthalten die meisten Abfragen mehr als eine Bedeutung. Daher verwenden nur die Schlüsselwörter der Abfrage, um a einzurichten Vektorraummodell Für die Klassifizierung ist nicht angemessen.
- Abfragebasierte Methoden[2][3] Beginnen Sie mit der Anreicherung von Benutzeranfragen zu einer Sammlung von Textdokumenten durch Suchmaschinen. Somit wird jede Abfrage durch ein Pseudo-Dokument dargestellt, das aus den Ausschnitten der von Suchmaschinen abgerufenen Top-Rang-Ergebnisseiten besteht. Anschließend werden die Textdokumente unter Verwendung von Synonym -basierten Klassifikator oder statistischen Klassifikatoren wie z. B. in die Zielkategorien eingeteilt Naive Bayes (NB) und Support-Vektor-Maschinen (SVMS).
Wie kann ich die Änderungen der Abfragen und Kategorien im Laufe der Zeit anpassen?
Die Bedeutungen von Abfragen können sich auch im Laufe der Zeit entwickeln. Daher können die alten beschrifteten Trainingsfragen bald außerhalb der Daten sein und bald nutzlos sein. Wie man den Klassifikator im Laufe der Zeit anpassungsfähig macht, wird zu einem großen Problem. Zum Beispiel das Wort "Barcelona"Hat eine neue Bedeutung des neuen Mikroprozessors von AMD, während es sich vor 2007 auf einen Stadt- oder Fußballverein bezieht. Die Verteilung der Bedeutungen dieses Begriffs ist daher eine Funktion der Zeit im Web.
- Mittelsteueronomie -basierte Methode[4] baut zuerst einen Überbrückungsklassifizier für eine Zwischentaxonomie auf, wie z. Offenes Verzeichnisprojekt (ODP) in einem Offline -Modus. Dieser Klassifikator wird dann in einem Online -Modus verwendet, um Benutzeranfragen über die Zwischentaxonomie in die Zielkategorien zuzuordnen. Der Vorteil dieses Ansatzes besteht darin, dass der Brückenklassifizierer nur einmal trainiert werden muss und für jede neue Reihe von Zielkategorien und eingehenden Abfragen adaptiv ist.
Wie benutze ich die nicht markierten Abfrageprotokolle, um bei der Abfrageklassifizierung zu helfen?
Da die manuell gekennzeichneten Trainingsdaten für die Abfrageklassifizierung teuer sind, wird die Verwendung eines sehr großen Suchmaschinen -Abfrageprotokolls als Quelle für nicht markierte Daten zur automatischen Abfrageklassifizierung zu einem heißen Problem. Diese Protokolle zeichnen das Verhalten der Webbenutzer bei, wenn sie über eine Suchmaschine nach Informationen suchen. Im Laufe der Jahre sind Abfrageprotokolle zu einer reichhaltigen Ressource geworden, die das Wissen der Webbenutzer über das World Wide Web enthält.
- Abfragemethode[5] Versucht, verwandte Abfragen durch Clustering "Sitzungsdaten" zu assoziieren, die mehrere Abfragen und Klickinformationen aus einer einzelnen Benutzerinteraktion enthalten. Sie berücksichtigen Bedingungen aus Ergebnisdokumenten, die eine Reihe von Abfragen gemeinsam haben. Die Verwendung von Abfrageschlüsselwörtern zusammen mit Sitzungsdaten ist die effektivste Methode zur Ausführung von Abfragenclustering.
- Ausgewählte Präferenzbasis -Methode[6] versucht einige auszunutzen Assoziationsregeln zwischen den Abfragebedingungen, um die Abfrageklassifizierung zu unterstützen. Angesichts der Trainingsdaten nutzen sie mehrere Klassifizierungsansätze, einschließlich der genauen Match-Match mit gekennzeichneten Daten, N-Gram-Übereinstimmung mit markierten Daten und Klassifikatoren, die auf der Wahrnehmung basieren. Sie betonen einen Ansatz, der aus der rechnerischen Linguistik mit dem Namen Selektionspräferenzen angepasst ist. Wenn x und y ein Paar (x; y) und y zur Kategorie C gehört, gehören alle anderen Paare (x; z), die von x geleitet werden, zu c. Sie verwenden unbezeichnete Abfrageprotokolldaten, um diese Regeln zu ermitteln und die Wirksamkeit ihrer Ansätze auf einigen gekennzeichneten Abfragen zu validieren.
Anwendungen
- Metasarch -Motoren Senden Sie die Abfrage eines Benutzers an mehrere Suchmaschinen und mischen Sie die Top -Ergebnisse von jedem in eine Gesamtliste. Die Suchmaschine kann die große Anzahl von Webseiten in den Suchergebnissen gemäß den potenziellen Kategorien der ausgegebenen Abfrage organisieren, um die Navigation der Webbenutzer zu bequem.
- Vertikale Suchekonzentriert sich im Vergleich zur allgemeinen Suche auf bestimmte Domänen und befasst sich mit den besonderen Informationsbedürfnissen von Nischenpublikum und Berufen. Sobald die Suchmaschine die Kategorie von Informationen vorhersagen kann, nach denen ein Webbenutzer sucht, kann sie automatisch eine bestimmte vertikale Suchmaschine auswählen, ohne den Benutzer zu zwingen, explizit auf die vertikale Suchmaschine zuzugreifen.
- Onlinewerbung[7][8] Ziel ist es, Webnutzern während ihrer Suchaktivitäten interessante Anzeigen zu bieten. Die Suchmaschine kann Webbenutzern entsprechend ihren Interessen relevante Werbung zur Verfügung stellen, damit die Webbenutzer Zeit und Mühe in der Forschung sparen können, während die Werbetreibenden ihre Werbekosten senken können.
Alle diese Dienste stützen sich über die Suchabsichten der Webbenutzer über ihre Webanfragen.
Siehe auch
- Dokumentklassifizierung
- Web -Search -Abfrage
- Informationsrückgewinnung
- Abfragebehandlung
- Naiver Bayes -Klassifikator
- Support-Vektor-Maschinen
- Meta -Suche
- Vertikale Suche
- Onlinewerbung
Verweise
- ^ KDDCUP 2005 -Datensatz
- ^ Shen et al. "Q2c@ust: Unsere Gewinnerlösung für die Abfrageklassifizierung". ACM Sigkdd Exploration, Dezember 2005, Band 7, Ausgabe 2.
- ^ Shen et al. "Abfrageanreicherung für die Web-Quer-Klassifizierung". ACM Tois, Vol. 24, Nr. 3, Juli 2006.
- ^ Shen et al. "Erstellen von Brücken für die Klassifizierung von Webanfragen". ACM Sigir, 2006.
- ^ Wen et al. "Abfragen von Clustering mit Benutzerprotokollen", ACM TOIS, Band 20, Ausgabe 1, Januar 2002.
- ^ Beitzel et al. "Automatische Klassifizierung von Webanfragen mit sehr großen, nicht beliebigen Abfrageprotokollen", ACM TOIS, Band 25, Ausgabe 2, April 2007.
- ^ Data Mining und Publikumsintelligenz für Werbung (ADKDD'07), KDD Workshop 2007
- ^ Targeting und Ranking für Online -Werbung (TROA'08), WWW Workshop 2008
Weitere Lektüre
- Shen. "Lernbasiertes Webanfragenverständnis". Doktorarbeit, Hkust, Juni 2007.