Fokussierter Crawler
A focused crawler ist ein Web -Crawler Das sammelt Webseiten, die eine bestimmte Eigenschaft erfüllen, indem sie sorgfältig die Priorisierung des Kriechgrenze und Verwaltung des Hyperlink -Explorationsprozesses.[1] Einige Prädikate basieren auf einfachen, deterministischen und Oberflächeneigenschaften. Zum Beispiel kann die Mission eines Crawlers darin bestehen, Seiten nur aus der .jp -Domäne zu kriechen. Andere Prädikate können weicher oder vergleichend sein, z. Seitenrang"Eine wichtige Seiteneigenschaft betrifft Themen, was zu 'topischen Crawlers' führt. Zum Beispiel kann ein topischer Crawler eingesetzt werden, um Seiten über Solarenergie, Schweinegrippe oder sogar abstraktere Konzepte wie Kontroversen zu sammeln[2] Beim Minimieren von Ressourcen, die auf dem Abrufen von Seiten zu anderen Themen aufgewendet wurden. Das Crawl Frontier Management ist möglicherweise nicht das einzige Gerät, das von fokussierten Crawler verwendet wird. Sie können a verwenden Webverzeichnis, a Webtextindex, Backlinksoder ein anderes Web -Artefakt.
Ein fokussierter Crawler muss die Wahrscheinlichkeit vorhersagen, dass eine nicht besuchte Seite relevant ist, bevor die Seite tatsächlich heruntergeladen wird.[3] Ein möglicher Prädiktor ist der Ankertext von Links; Dies war der Ansatz von Pinkerton[4] In einem Crawler entwickelte sich in den frühen Tagen des Webs. Das topische Krabbeln wurde zuerst von vorgestellt von Filippo Menczer.[5][6] Chakrabarti et al. geprägt den Begriff "fokussierter Crawler" und verwendete einen Textklassifizierer[7] Priorisieren Sie die Kriechgrenze. Andrew McCallum und Co-Autoren benutzten auch Verstärkungslernen[8][9] CRAWGER FOCHEN. Diligenti et al. verfolgte den Kontextdiagramm[10] Vorher auf relevante Seiten und deren Textinhalt, um Klassifikatoren auszubilden. Eine Form des Online -Verstärkungslernens wurde zusammen mit Merkmalen verwendet, die aus dem extrahiert wurden Dombaum und Text der Verknüpfungsseiten, um kontinuierlich zu trainieren[11] Klassifikatoren, die das Kriechen führen. In einer Übersicht über topische Kriechalgorithmen haben Menczer et al.[12] zeigen, dass solche einfachen Strategien für kurze Crawls sehr effektiv sind, während ausgefeiltere Techniken wie Verstärkungslernen und evolutionäre Anpassung kann die beste Leistung über längere Krabben bieten. Es wurde gezeigt, dass räumliche Informationen wichtig sind, um Webdokumente zu klassifizieren.[13]
Eine andere Art von fokussierten Crawlern ist der semantische Crawler, der Domain -Ontologien nutzt, um topische Karten darzustellen und Webseiten mit relevanten ontologischen Konzepten für die Auswahl- und Kategorisierungszwecke zu verknüpfen.[14] Darüber hinaus können Ontologien im Crawling -Prozess automatisch aktualisiert werden. Dong et al.[15] führte einen solchen Ontologie-Learning-basierten Crawler ein, der Support Vector Machine verwendet, um den Inhalt von ontologischen Konzepten beim Crawling-Webseiten zu aktualisieren.
Crawler konzentrieren sich auch auf andere Seiteneigenschaften als Themen. Cho et al.[16] Untersuchen Sie eine Vielzahl von Crawl -Priorisierungsrichtlinien und ihre Auswirkungen auf die Verbindung zwischen abgerufenen Seiten. Najork und Weiner[17] zeige, dass Breite zuerst Kriechend von beliebten Saatgutseiten führt zu Beginn des Kriechens zum Sammeln von Großpager-Seiten. Eiron et al.[18] Eine Art semantische Crawler, die die Idee von nutzen Verstärkungslernen wurde von Meusel et al.[19] Verwenden von Online-basierten Klassifizierungsalgorithmen in Kombination mit einer banditischen Auswahlstrategie, um Seiten mit Markup-Sprachen wie effizient zu kriechen RDFA, Mikroformate, und Mikrodaten.
Die Leistung eines fokussierten Crawlers hängt von dem Reichtum der Links im Suchfußpunkt ab und fokussierte Krabbeln hängt normalerweise von einem allgemeinen Web ab Suchmaschine für die Bereitstellung von Startpunkten. Davison[20] Präsentierte Studien zu Web -Links und Text, die erklären, warum sich fokussierter Krabbeln über breite Themen gelingt. Ähnliche Studien wurden von Chakrabarti et al.[21] Die Saatgutauswahl kann für fokussierte Crawler wichtig sein und die Krabbeleffizienz erheblich beeinflussen.[22] A Whitelist Strategie besteht darin, den Fokuscrawl aus einer Liste hochwertiger Saatgut zu beginnen URLs und begrenzen den Krabbeln auf die Domänen dieser URLs. Diese hochwertigen Samen sollten basierend auf einer Liste von ausgewählt werden URL Kandidaten, die über einen ausreichenden langen Zeitraum allgemeiner Webkriechen gesammelt werden. Das Whitelist sollte regelmäßig nach dem Erstellen aktualisiert werden.
Verweise
- ^ Soulemen Chakrabarti, Fokussierte Web -Krabbeln, in dem Enzyklopädie von Datenbanksystemen.
- ^ Kontroverse Themen
- ^ Verbesserung der Leistung fokussierter Webcrawlers[1], Sotiris Batsakis, Euripides G. M. Petrakis, Evangelos Milios, 2012-04-09
- ^ Pinkerton, B. (1994). Finden, was Menschen wollen: Erfahrungen mit dem Webcrawler. In Proceedings of the First World Wide Web Conference, Genf, Schweiz.
- ^ Menczer, F. (1997). Arachnid: Adaptive Retrieval -Agenten, die heuristische Nachbarschaften für Informationsentdeckungen wählen Archiviert 2012-12-21 bei der Wayback -Maschine. In D. Fisher, Hrsg., Proceedings der 14. Internationalen Konferenz über maschinelles Lernen (ICML97). Morgan Kaufmann.
- ^ Menczer, F. und Belew, R.K. (1998). Adaptive Information Agents in verteilten Textumgebungen Archiviert 2012-12-21 bei der Wayback -Maschine. In K. Sycara und M. Wooldridge (Hrsg.) Proceedings der 2. Internationalen Konferenz über autonome Agenten (Agenten '98). ACM -Presse.
- ^ Fokussierter Kriechling: Ein neuer Ansatz zur themenspezifischen Webressourcenentdeckung, Soumen Chakrabarti, Martin van den Berg und Byron Dom, www 1999.
- ^ Ein Ansatz für maschinelles Lernen zum Aufbau von domänenspezifischen SuchmaschinenAndrew McCallum, Kamal Nigam, Jason Rennie und Kristie Seymore, IJCAI 1999.
- ^ Verwenden des Verstärkungslernens, um das Web effizient zu spinnen, Jason Rennie und Andrew McCallum, ICML 1999.
- ^ M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles und M. Gori (2000). Fokussierter Krabbeln mit Kontextgraphen Archiviert 2008-03-07 im Wayback -Maschine. In Proceedings der 26. Internationalen Konferenz über sehr große Datenbanken (VLDB), Seiten 527-534, Kairo, Ägypten.
- ^ Beschleunigter fokussierter Krabbeln durch Online -Relevanz -Feedback, Soumen Chakrabarti, Kunal Punera und Mallela Subramanyam, www 2002.
- ^ Menczer, F., Pant, G. und Srinivasan, P. (2004). Topische Webcrawler: Bewertung von adaptiven Algorithmen. ACM trans. in der Internet -Technologie 4 (4): 378–419.
- ^ Erkennung von gemeinsamen Bereichen in einer Webseite mit visuellen Informationen: Eine mögliche Anwendung in einer Seitenklassifizierung, Milos Kovacevic, Michelangelo Diligenti, Marco Gori, Veljko Milutinovic, Data Mining, 2002. ICDM 2003.
- ^ Dong, H., Hussain, F. K., Chang, e .: Kunsthaus in semantischen Crawlers. Computerwissenschaft und ihre Anwendungen-ICCSA 2009. Springer-Verlag, Seoul, Korea (Juli 2009) S. 910-924
- ^ Dong, H., Hussain, F.K.: SOF: Ein semi-sachlicher Ontologie-Learning-basiertes fokussierter Crawler. Parallelität und Berechnung: Übung und Erfahrung. 25 (12) (August 2013) S. 1623-1812
- ^ Junghoo Cho, Hector Garcia-Molina, Lawrence Page: Effizientes Krabbeln durch URL -Bestellung. Computernetzwerke 30 (1-7): 161-172 (1998)
- ^ Marc Najork, Janet L. Wiener: Die Krabbeln aus dem Breite ergeben hochwertige Seiten. Www 2001: 114-118
- ^ Nadav Eiron, Kevin S. McCurley, John A. Tomlin: Ranking der Webgrenze. Www 2004: 309-318.
- ^ Meusel R., Mika P., Blanco R. (2014). Fokussierter Krabbeln nach strukturierten Daten. ACM Internationale Konferenz für Informations- und Wissensmanagement, Seiten 1039-1048.
- ^ Brian D. Davison: Topische Lokalität im Web. Sigir 2000: 272-279.
- ^ Soulemen Chakrabarti, Mukul Joshi, Kunal Punera, David M. Pennock: Die Struktur breiter Themen im Web. Www 2002: 251-262.
- ^ Jian Wu, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Prasenjit Mitra, Shuyi Zheng, C. Lee Giles, Die Entwicklung einer kriechenden Strategie für eine akademische Dokument -Suchmaschine: Whitelists und Blacklists, In Proceedings der 3. jährlichen Seiten der ACM Web Science Conference 340-343, Evanston, IL, USA, Juni 2012.