Web -Crawler

Architektur eines Web -Crawlers

A Web -Crawler, manchmal genannt Spinne oder Spiderbot und oft verkürzt auf Crawler, ist ein Internet -Bot das systematisch durch durchsucht Weltweites Netz und das wird normalerweise von Suchmaschinen für den Zweck von betrieben Webindizierung (Webspinnen).[1]

Web -Suchmaschinen und andere andere Websites Verwenden Sie Web -Crawling oder Spidering Software um ihre zu aktualisieren Internetinhalt oder Indizes der Webinhalte anderer Websites. Webcrawler kopieren Seiten für die Verarbeitung durch eine Suchmaschine, die Indizes Die heruntergeladenen Seiten, damit Benutzer effizienter suchen können.

Crawler konsumieren Ressourcen für besuchte Systeme und besuchen häufig Websites unaufgefordert. Probleme mit Zeitplan, Last und "Höflichkeit" kommen ins Spiel, wenn auf große Seiten von Seiten zugegriffen wird. Es gibt Mechanismen für öffentliche Websites, die nicht gekrabbt werden möchten, um dies dem Krabbeln bekannt zu machen. Zum Beispiel einschließlich a Robots.txt Datei kann anfordern Bots Nur Teile einer Website oder gar nichts zu indizieren.

Die Anzahl der Internetseiten ist extrem groß. Sogar die größten Crawlers sind kurz vor einem vollständigen Index. Aus diesem Grund bemühten sich Suchmaschinen, in den ersten Jahren des World Wide Web vor 2000 relevante Suchergebnisse zu erzielen. Heute werden relevante Ergebnisse fast sofort erzielt.

Crawler können validieren Hyperlinks und Html Code. Sie können auch für verwendet werden Web -Scraping und datengesteuerte Programmierung.

Nomenklatur

Ein Web -Crawler ist auch als ein bekannt Spinne,[2] ein Ameise, ein Automatischer Indexer,[3] oder (in der Foaf Softwarekontext) a Web Scutter.[4]

Überblick

Ein Web -Crawler beginnt mit einer Liste von URLs besuchen. Diese ersten URLs werden die genannt Saatgut. Wie der Crawler diese URLs besucht, durch Kommunikation mit Webserver das reagiert auf diese URLs, es identifiziert alle Hyperlinks Auf den abgerufenen Webseiten und fügt sie der Liste der URLs hinzu, die man besuchen soll, genannt die Kriechgrenze. URLs von der Grenze sind rekursiv nach einer Reihe von Richtlinien besucht. Wenn der Crawler die Archivierung von durchführt Websites (oder Webarchivierung), es kopiert und speichert die Informationen wie es geht. Die Archive werden normalerweise so gespeichert, dass sie gesehen, gelesen und navigiert werden können, als ob sie im Live -Web wären, aber als "Schnappschüsse" erhalten bleiben.[5]

Das Archiv ist als das bekannt Repository und wurde entwickelt, um die Sammlung von zu speichern und zu verwalten Webseiten. Das Repository Nur Geschäfte Html Seiten und diese Seiten werden als verschiedene Dateien gespeichert. Ein Repository ähnelt jedem anderen System, das Daten wie eine moderne Datenbank speichert. Der einzige Unterschied besteht darin, dass ein Repository nicht die gesamte von einem Datenbanksystem angebotene Funktionen benötigt. Das Repository speichert die neueste Version der vom Crawler abgerufenen Webseite.[6]

Das große Volumen impliziert, dass der Crawler nur eine begrenzte Anzahl der Webseiten innerhalb einer bestimmten Zeit herunterladen kann. Daher muss er die Downloads priorisieren. Die hohe Änderungsrate kann bedeuten, dass die Seiten möglicherweise bereits aktualisiert oder sogar gelöscht wurden.

Die Anzahl der möglichen URLs, die von der serverseitigen Software generiert werden, hat es auch für Webcrawlern erschwert, das Abrufen zu vermeiden doppelter Inhalt. Endlose Kombinationen von Http bekommen (URL-basierte) Parameter existieren, von denen nur eine kleine Auswahl eindeutiger Inhalt zurückgibt. Beispielsweise kann eine einfache Online -Fotogalerie den Benutzern drei Optionen bieten, wie angegeben durch Http Holen Sie sich Parameter in der URL. Wenn es vier Möglichkeiten gibt, Bilder zu sortieren, drei Möglichkeiten von Miniaturansicht Größe, zwei Dateiformate und eine Option zum Deaktivieren von benutzerdefinierten Inhalten, dann kann auf denselben Inhaltssatz mit 48 verschiedenen URLs zugegriffen werden, auf die alle auf der Website verknüpft werden können. Dies Mathematische Kombination Schafft ein Problem für Crawler, da sie endlose Kombinationen relativ kleiner gerichteter Veränderungen sortieren müssen, um einzigartige Inhalte abzurufen.

Als Edwards et al. notiert, "angesichts der Bandbreite Für die Durchführung von Krabbeln ist es weder unendlich noch frei. Es ist wichtig, das Web nicht nur skalierbar, sondern auch effizient zu kriechen, wenn ein vernünftiges Maß für Qualität oder Frische aufrechterhalten wird. "[7] Ein Crawler muss bei jedem Schritt sorgfältig auswählen, welche Seiten als nächstes besuchen sollen.

Kriechpolitik

Das Verhalten eines Web -Crawlers ist das Ergebnis einer Kombination von Richtlinien:[8]

  • a Auswahlrichtlinie die die Seiten zum Herunterladen besagen,
  • a Richtlinie erneut besuchen Welche besagt, wann Sie nach Änderungen der Seiten suchen müssen,
  • a Höflichkeitspolitik Das heißt, wie man Überlastung vermeidet Websites.
  • a Parallelisierungsrichtlinie Damit heißt es, verteilte Webcrawler zu koordinieren.

Auswahlrichtlinie

Angesichts der aktuellen Größe des Netzes decken auch große Suchmaschinen nur einen Teil des öffentlich verfügbaren Teils ab. Eine Studie aus dem Jahr 2009 zeigte sogar groß an Suchmaschinen Index nicht mehr als 40-70% des indexbaren Web;[9] eine frühere Studie von Steve Lawrence und Lee Giles zeigte das nein Suchmaschine indiziert Mehr als 16% des Webs im Jahr 1999.[10] Als Crawler lädt immer nur einen Bruchteil der Webseiten, it is highly desirable for the downloaded fraction to contain the most relevant pages and not just a random sample of the Web.

This requires a metric of importance for prioritizing Web pages. The importance of a page is a function of its intrinsisch quality, its popularity in terms of links or visits, and even of its URL (the latter is the case of vertikale Suchmaschinen auf eine einzelne beschränkt Top-Level-Domain, or search engines restricted to a fixed Web site). Designing a good selection policy has an added difficulty: it must work with partial information, as the complete set of Web pages is not known during crawling.

Junghoo Cho et al. made the first study on policies for crawling scheduling. Their data set was a 180,000-pages crawl from the stanford.edu domain, in which a crawling simulation was done with different strategies.[11] The ordering metrics tested were Breite zuerst, Backlink count and partial Seitenrang calculations. One of the conclusions was that if the crawler wants to download pages with high Pagerank early during the crawling process, then the partial Pagerank strategy is the better, followed by breadth-first and backlink-count. However, these results are for just a single domain. Cho also wrote his PhD dissertation at Stanford on web crawling.[12]

Najork and Wiener performed an actual crawl on 328 million pages, using breadth-first ordering.[13] They found that a breadth-first crawl captures pages with high Pagerank early in the crawl (but they did not compare this strategy against other strategies). The explanation given by the authors for this result is that "the most important pages have many links to them from numerous hosts, and those links will be found early, regardless of on which host or page the crawl originates."

Abiteboul designed a crawling strategy based on an Algorithmus called OPIC (On-line Page Importance Computation).[14] In OPIC, each page is given an initial sum of "cash" that is distributed equally among the pages it points to. It is similar to a PageRank computation, but it is faster and is only done in one step. An OPIC-driven crawler downloads first the pages in the crawling frontier with higher amounts of "cash". Experiments were carried in a 100,000-pages synthetic graph with a power-law distribution of in-links. However, there was no comparison with other strategies nor experiments in the real Web.

Boldi et al. used simulation on subsets of the Web of 40 million pages from the .es domain and 100 million pages from the WebBase crawl, testing breadth-first against depth-first, random ordering and an omniscient strategy. The comparison was based on how well PageRank computed on a partial crawl approximates the true PageRank value. Surprisingly, some visits that accumulate PageRank very quickly (most notably, breadth-first and the omniscient visit) provide very poor progressive approximations.[15][16]

Baeza-yates et al. used simulation on two subsets of the Web of 3 million pages from the .GR und .cl domain, testing several crawling strategies.[17] They showed that both the OPIC strategy and a strategy that uses the length of the per-site queues are better than Breite zuerst crawling, and that it is also very effective to use a previous crawl, when it is available, to guide the current one.

Daneshpajouh et al. designed a community based algorithm for discovering good seeds.[18] Their method crawls web pages with high PageRank from different communities in less iteration in comparison with crawl starting from random seeds. One can extract good seed from a previously-crawled-Web graph using this new method. Using these seeds, a new crawl can be very effective.

Beschränkende Links einschränken

A crawler may only want to seek out HTML pages and avoid all other MIME types. In order to request only HTML resources, a crawler may make an HTTP HEAD request to determine a Web resource's MIME type before requesting the entire resource with a GET request. To avoid making numerous HEAD requests, a crawler may examine the URL and only request a resource if the URL ends with certain characters such as .html, .htm, .asp, .aspx, .php, .jsp, .jspx or a slash. This strategy may cause numerous HTML Web resources to be unintentionally skipped.

Some crawlers may also avoid requesting any resources that have a "?" in them (are dynamically produced) in order to avoid spider traps that may cause the crawler to download an infinite number of URLs from a Web site. This strategy is unreliable if the site uses URL -Umschreiben to simplify its URLs.

URL -Normalisierung

Crawlers usually perform some type of URL -Normalisierung in order to avoid crawling the same resource more than once. Der Begriff URL -Normalisierung, auch genannt URL canonicalization, refers to the process of modifying and standardizing a URL in a consistent manner. There are several types of normalization that may be performed including conversion of URLs to lowercase, removal of "." and ".." segments, and adding trailing slashes to the non-empty path component.[19]

Pfadkrabbend

Some crawlers intend to download/upload as many resources as possible from a particular web site. So path-ascending crawler was introduced that would ascend to every path in each URL that it intends to crawl.[20] Wenn Sie beispielsweise eine Samen -URL von http://llama.org/hamster/monkey/page.html erhalten, wird versucht,/Hamster/Monkey/,/Hamster/und/. Cothey stellte fest, dass ein Crawler mit Pfad sehr effektiv bei der Suche nach isolierten Ressourcen oder Ressourcen, für die keine eingehende Verbindung im regelmäßigen Krabbeln gefunden worden wäre.

Konzentriertes Krabbeln

Die Bedeutung einer Seite für einen Crawler kann auch als Funktion der Ähnlichkeit einer Seite mit einer bestimmten Abfrage ausgedrückt werden. Webcrawler, die versuchen, Seiten herunterzuladen, die einander ähneln, werden aufgerufen focused crawler oder topical crawlers. The concepts of topical and focused crawling were first introduced by Filippo Menczer[21][22] und von Soulemen Chakrabarti et al.[23]

Das Hauptproblem beim fokussierten Krabbeln ist, dass wir im Kontext eines Web -Crawlers die Ähnlichkeit des Textes einer bestimmten Seite mit der Abfrage vor dem Herunterladen der Seite vorhersagen können. Ein möglicher Prädiktor ist der Ankertext von Links; Dies war der Ansatz von Pinkerton[24] Im ersten Web -Crawler der frühen Tage des Webs. Sorgenti et al.[25] Schlagen Sie die Verwendung des vollständigen Inhalts der bereits besuchten Seiten vor, um die Ähnlichkeit zwischen der Fahrabfrage und den noch nicht besuchten Seiten zu schließen. Die Leistung eines fokussierten Krabbelns hängt hauptsächlich von dem Reichtum der Links im Suchfest des spezifischen Themas ab, und ein fokussiertes Krabbeln hängt normalerweise auf einer allgemeinen Web -Suchmaschine für die Bereitstellung von Ausgangspunkten ab.

Akademisch ausgerichteter Crawler

An example of the Fokussierte Crawler sind akademische Crawler, die mit freien akademischen Dokumenten kriechen, wie die Citeseerxbot, was der Kriechler von ist CiteseerX Suchmaschine. Andere akademische Suchmaschinen sind Google Scholar und Microsoft Academic Search usw. weil die meisten akademischen Papiere in veröffentlicht werden in PDF Formate, eine solche Art von Crawler ist besonders am Kriechen interessiert PDF, PostScript Dateien, Microsoft Word einschließlich ihrer Reißverschluss Formate. Aus diesem Grund Crawlers allgemeine Open Source -Crawler, wie z. Heritrix, muss angepasst werden, um andere herauszufiltern MIME types, oder ein Middleware wird verwendet, um diese Dokumente zu extrahieren und in die fokussierte Crawl -Datenbank und in das Repository zu importieren.[26] Ermitteln Sie, ob diese Dokumente akademisch sind oder nicht, ist eine Herausforderung und kann dem Kriechprozess einen erheblichen Aufwand verleihen. Dies wird daher als Post -Crawling -Prozess verwendet maschinelles Lernen oder regulären Ausdruck Algorithmen. Diese akademischen Dokumente werden normalerweise von Heimseiten mit Fakultäten und Studenten oder von der Veröffentlichungsseite der Forschungsinstitute erhalten. Da akademische Dokumente auf den gesamten Webseiten nur einen kleinen Bruchteil nutzen, ist eine gute Saatgutauswahl wichtig, um die Effizienz dieser Webcrawler zu steigern.[27] Andere akademische Crawler können einfachen Text herunterladen und Html Dateien, die enthalten Metadaten von akademischen Papieren wie Titeln, Papieren und Abstracts. Dies erhöht die Gesamtzahl der Papiere, aber ein erheblicher Bruch PDF Downloads.

Semantisch fokussierter Crawler

Eine andere Art von fokussierten Crawler ist der semantische Crawler, der verwendet wird Domain -Ontologien Um aktuelle Karten darzustellen und Webseiten mit relevanten ontologischen Konzepten für die Auswahl- und Kategorisierungszwecke zu verknüpfen.[28] Darüber hinaus können Ontologien im Crawling -Prozess automatisch aktualisiert werden. Dong et al.[29] führte einen solchen Ontologie-Learning-basierten Crawler ein, der Support Vector Machine verwendet, um den Inhalt von ontologischen Konzepten beim Krabbeln auf Webseiten zu aktualisieren.

Richtlinie erneut besuchen

Das Web hat eine sehr dynamische Natur, und das Krabbeln eines Bruchteils des Web kann Wochen oder Monate dauern. Bis ein Web -Crawler seinen Crawl beendet hat, hätten viele Veranstaltungen stattfinden können, einschließlich Kreationen, Updates und Löschungen.

Aus Sicht der Suchmaschine sind Kosten für die Nicht -Erkennung eines Ereignisses und damit eine veraltete Kopie einer Ressource verbunden. Die am häufigsten verwendeten Kostenfunktionen sind Frische und Alter.[30]

Frische: Dies ist eine binäre Maßnahme, die angibt, ob die lokale Kopie korrekt ist oder nicht. Die Frische einer Seite p zum Zeitpunkt im Repository t ist definiert als:

Das Alter: Dies ist eine Maßnahme, die angibt, wie veraltet die lokale Kopie ist. Das Alter einer Seite p im Repository zum Zeitpunkt t ist definiert als:

Coffman et al. Arbeitete mit einer Definition des Ziels eines Web -Crawlers, das der Frische entspricht, aber einen anderen Wortlaut verwenden: Sie schlagen vor, dass ein Crawler den Teil der Zeitseiten minimieren muss. Sie stellten auch fest, dass das Problem des Web-Crawling als Multiple-Server-Wahlsystem modelliert werden kann, auf dem der Webcrawler der Server ist, und die Websites sind die Warteschlangen. Seitenänderungen sind die Ankunft der Kunden, und die Überwachungszeiten sind das Intervall zwischen den Seitenzugriff auf eine einzelne Website. Nach diesem Modell entspricht die mittlere Wartezeit für einen Kunden im Wahllokal dem Durchschnittsalter für den Web -Crawler.[31]

Ziel des Crawlers ist es, die durchschnittliche Frische der Seiten in seiner Sammlung so hoch wie möglich zu halten oder das Durchschnittsalter der Seiten so niedrig wie möglich zu halten. Diese Ziele sind nicht gleichwertig: Im ersten Fall befasst sich der Crawler nur darum, wie viele Seiten veraltet sind, während sich der Crawler im zweiten Fall darum befasst, wie alt die lokalen Kopien von Seiten sind.

Entwicklung von Frische und Alter in einem Web -Crawler

Zwei einfache Wiederaufnahme-Richtlinien wurden von Cho und Garcia-Molina untersucht:[32]

  • Einheitliche Richtlinie: Dies beinhaltet die Wiederaufnahme aller Seiten in der Sammlung mit gleicher Häufigkeit, unabhängig von ihren Änderungsraten.
  • Proportionalpolitik: Dies beinhaltet die Wiederaufnahme der Seiten, die sich häufiger ändern. Die Besuchsfrequenz ist direkt proportional zur (geschätzten) Änderungsfrequenz.

In beiden Fällen kann die wiederholte Kriechreihenfolge von Seiten entweder in zufälliger oder fester Reihenfolge erfolgen.

Cho und Garcia-Molina haben das überraschende Ergebnis bewiesen, dass die einheitliche Richtlinie in Bezug auf die durchschnittliche Frische die proportionale Richtlinie sowohl in einem simulierten Web als auch in einem echten Webcrawl übertrifft. Intuitiv ist die Argumentation, dass Webcrawler, wie viele Seiten sie in einem bestimmten Zeitrahmen kriechen können, (1) zu viele neue Crawls für die schnell ändernden Seiten auf Kosten weniger häufig aktualisiert werden, um die Seiten schnell zu wechseln und Seiten zu aktualisieren und Seiten zu aktualisieren und Seiten zu aktualisieren, und die Seiten schnell wechseln und Seiten schnell zu ändern, und die Seiten schnell zu ändern und Seiten zu aktualisieren und Seiten zu aktualisieren und Seiten zu wechseln, und die Seiten schnell wechseln. (2) Die Frische von sich schnell verändernden Seiten dauert kürzer als die von weniger häufig wechselnden Seiten. Mit anderen Worten, eine proportionale Richtlinie verteilt mehr Ressourcen für das Krabbeln, das die Seiten häufig aktualisiert, aber es gibt weniger allgemeine Frischezeit von ihnen.

Um die Frische zu verbessern, sollte der Crawler die Elemente bestrafen, die sich zu oft ändern.[33] Die optimale Wiederaufnahme-Richtlinie ist weder die einheitliche Richtlinie noch die proportionale Richtlinie. Die optimale Methode, um die durchschnittliche Frische hoch zu halten, umfasst das Ignorieren der Seiten, die sich zu häufig ändern, und das Optimal, um das Durchschnittsalter niedrig zu halten, besteht darin, Zugriffsfrequenzen zu verwenden, die monotonisch (und sublinear) mit der Änderungsrate jeder Seite erhöhen. In beiden Fällen liegt das Optimal näher an der einheitlichen Politik als an der proportionalen Richtlinie: als Coffman et al. Beachten Sie: "Um die erwartete Veralterung Zeit zu minimieren, sollte der Zugriff auf eine bestimmte Seite so gleichmäßig wie möglich gehalten werden".[31] Explizite Formeln für die Wiederaufnahme-Richtlinie sind im Allgemeinen nicht erreichbar, werden jedoch numerisch erhalten, da sie von der Verteilung der Seitenänderungen abhängen. Cho und Garcia-Molina zeigen, dass die exponentielle Verteilung gut geeignet ist, Seitenänderungen zu beschreiben.[33] während Ipeirotis et al. Zeigen Sie, wie Sie statistische Werkzeuge verwenden, um Parameter zu entdecken, die sich auf diese Verteilung auswirken.[34] Beachten Sie, dass die hier berücksichtigten Wiederaufnahmerichtlinien alle Seiten in Bezug auf Qualität als homogen betrachten ("Alle Seiten im Web sind das gleiche wert"), etwas, das kein realistisches Szenario ist. Daher sollten weitere Informationen über die Webseitenqualität sein Einbezogen, um eine bessere Krabbelpolitik zu erreichen.

Höflichkeitspolitik

Crawler können Daten viel schneller und ausführlicher abrufen als menschliche Suchende, sodass sie sich auf die Leistung einer Website auswirken können. Wenn ein einzelner Crawler mehrere Anfragen pro Sekunde und/oder große Dateien herunterlädt, kann es einem Server schwer haben, mit Anforderungen mehrerer Crawler Schritt zu halten.

Wie von Koster festgestellt, ist die Verwendung von Webcrawlern für eine Reihe von Aufgaben nützlich, verfügt jedoch über einen Preis für die allgemeine Community.[35] Die Kosten für die Verwendung von Webcrawlern umfassen:

  • Netzwerkressourcen, da Crawler eine beträchtliche Bandbreite benötigen und während eines langen Zeitraums mit einem hohen Maß an Parallelität arbeiten.
  • Serverüberladung, insbesondere wenn die Häufigkeit von Zugriff auf einen bestimmten Server zu hoch ist.
  • Schlecht geschriebene Crawler, die Server oder Router oder die Seiten herunterladen können, die sie nicht umgehen können; und
  • Persönliche Crawler, die, wenn sie von zu vielen Benutzern bereitgestellt werden, Netzwerke und Webserver stören können.

Eine teilweise Lösung für diese Probleme ist die Roboter -Ausschlussprotokollauch als Robots.txt -Protokoll bezeichnet, das für Administratoren Standard ist, um anzugeben, auf welche Teile ihrer Webserver nicht von Crawlern zugegriffen werden sollten.[36] Dieser Standard enthält keinen Vorschlag für das Intervall der Besuche auf demselben Server, obwohl dieses Intervall der effektivste Weg ist, um die Serverüberladung zu vermeiden. Kürzlich kommerzielle Suchmaschinen mögen Google, Fragen Sie Jeeves, Msn und Yahoo! Suche sind in der Lage, ein zusätzliches "Crawl-Delay" zu verwenden: "Parameter in der Robots.txt Datei, um die Anzahl der Sekunden anzugeben, um zwischen Anforderungen zu verzögern.

Das erste vorgeschlagene Intervall zwischen aufeinanderfolgenden Pageloads betrug 60 Sekunden.[37] Wenn jedoch Seiten mit dieser Geschwindigkeit mit mehr als 100.000 Seiten über eine perfekte Verbindung mit Null Latenz und unendlicher Bandbreite heruntergeladen würden, würde es mehr als 2 Monate dauern, bis nur die gesamte Website heruntergeladen wurde. Außerdem würde nur ein Bruchteil der Ressourcen aus diesem Webserver verwendet. Dies scheint nicht akzeptabel zu sein.

CHO verwendet 10 Sekunden als Intervall für Zugriffe.[32] und der Drahtcrawler verwendet 15 Sekunden als Standard.[38] Der MercatorWeb Crawler folgt einer adaptiven Politik der Höflichkeit: Wenn es dauerte t Sekunden, um ein Dokument von einem bestimmten Server herunterzuladen, wartet der Crawler auf 10t Sekunden vor dem Herunterladen der nächsten Seite.[39] Dill et al. Verwenden Sie 1 Sekunde.[40]

Für diejenigen, die Webcrawler für Forschungszwecke verwenden, ist eine detailliertere Kosten-Nutzen-Analyse erforderlich, und ethische Überlegungen sollten bei der Entscheidung berücksichtigt werden, wo sie kriechen sollen und wie schnell man kriechen muss.[41]

Anekdotische Beweise aus Zugangsprotokollen zeigen, dass Zugriffsintervalle aus bekannten Crawler zwischen 20 Sekunden und 3 bis 4 Minuten variieren. Es ist erwähnenswert, dass einige Beschwerden von Webserver -Administratoren empfangen werden, selbst wenn sie sehr höflich sind und alle Schutzmaßnahmen zur Vermeidung von Webservern einsetzen, um Überlastungsserver zu vermeiden. Brin und Buchseite Beachten Sie: "... einen Crawler ausführen, der eine Verbindung zu mehr als einer halben Million Servern (...) herstellt Diejenigen, die nicht wissen, was ein Crawler ist, weil dies der erste ist, den sie gesehen haben. "[42]

Parallelisierungsrichtlinie

A parallel Crawler ist ein Crawler, der mehrere Prozesse parallel durchführt. Ziel ist es, die Download -Rate zu maximieren und gleichzeitig den Overhead von Parallelisierung zu minimieren und wiederholte Downloads derselben Seite zu vermeiden. Um das Herunterladen derselben Seite mehrmals zu vermeiden, erfordert das Crawling -System eine Richtlinie für die Zuweisung der neuen URLs, die während des Kriechprozesses entdeckt wurden, da dieselbe URL durch zwei verschiedene Krabbelprozesse gefunden werden kann.

Architekturen

Hochrangige Architektur eines Standard-Web-Crawlers

Ein Crawler muss nicht nur eine gute Crawling -Strategie haben, wie in den vorherigen Abschnitten erwähnt, sondern sollte auch eine hoch optimierte Architektur haben.

Shkapenyuk und Suel bemerkten:[43]

Während es ziemlich einfach ist, einen langsamen Crawler zu bauen, der für einen kurzen Zeitraum einige Seiten pro Sekunde herunterlädt, bauen ein Hochleistungssystem, das über mehrere Wochen Hunderte Millionen von Seiten herunterladen kann, eine Reihe von Herausforderungen in der Systemdesign vor. E/O- und Netzwerk -Effizienz sowie Robustheit und Verwaltbarkeit.

Webcrawler sind ein zentraler Bestandteil von Suchmaschinen, und Details zu ihren Algorithmen und Architektur werden als Geschäftsgeheimnisse aufbewahrt. Wenn Crawler -Entwürfe veröffentlicht werden, gibt es oft einen wichtigen Mangel an Details, der andere verhindert, dass die Arbeit reproduziert. Es gibt auch auftretende Bedenken hinsichtlich "Suchmaschinenspamm", die verhindern, dass große Suchmaschinen ihre Ranking -Algorithmen veröffentlichen.

Sicherheit

Die meisten Website -Eigentümer möchten ihre Seiten so weit wie möglich indexieren lassen, um starke Präsenz zu haben SuchmaschinenDas Web -Crawling kann auch haben ungewollte Konsequenzen und führen zu a Kompromiss oder Datenleck Wenn eine Suchmaschine Ressourcen indiziert, die nicht öffentlich verfügbar sein sollten, oder Seiten, die potenziell gefährdete Softwareversionen enthüllen.

Abgesehen von Standard Webanwendungssicherheit Empfehlungen Website -Eigentümer können ihre Bekämpfung opportunistischer Hacking verringern, indem sie nur Suchmaschinen ermöglichen, die öffentlichen Teile ihrer Websites zu indizieren (mit Robots.txt) und sie explizit von der Indexierung von Transaktionsteilen (Anmeldeseiten, private Seiten usw.) blockieren.

Crawler -Identifizierung

Webcrawler identifizieren sich in der Regel mit dem Webserver mit dem User-Agent Feld von an Http Anfrage. Website -Administratoren untersuchen in der Regel ihre Webserver'Protokollieren und verwenden Sie das Feld "Benutzeragenten", um zu bestimmen, welche Crawler den Webserver besucht haben und wie oft. Das Feld des Benutzeragenten kann a enthalten URL Wo der Website -Administrator möglicherweise weitere Informationen über den Crawler erfahren. Das Untersuchen von Webserverprotokoll ist eine mühsame Aufgabe, und daher verwenden einige Administratoren Tools, um Webcrawler zu identifizieren, zu verfolgen und zu überprüfen. Spambots Es ist unwahrscheinlich, dass andere bösartige Webcrawler Informationen im Bereich des Benutzeragenten identifizieren, oder sie können ihre Identität als Browser oder einen anderen bekannten Crawler maskieren.

Website -Administratoren bevorzugen Webcrawler, um sich zu identifizieren, damit sie den Eigentümer bei Bedarf kontaktieren können. In einigen Fällen können Crawler versehentlich in einem gefangen sein Crawler -Falle oder sie können einen Webserver mit Anfragen überladen, und der Eigentümer muss den Crawler stoppen. Die Identifizierung ist auch für Administratoren nützlich, die daran interessiert sind, zu wissen, wann sie erwarten können, dass ihre Webseiten von einem bestimmten indiziert werden Suchmaschine.

Das tiefe Netz kriechen

Eine große Anzahl von Webseiten liegt in der Tiefes oder unsichtbares Web.[44] Diese Seiten sind in der Regel nur zugänglich, indem Abfragen an eine Datenbank gesendet werden, und regelmäßige Crawler können diese Seiten nicht finden, wenn keine Links darauf hinweisen. Google Sitemaps Protokoll und Mod Oai[45] sollen diese Deep-Web-Ressourcen entdecken.

Deep Web Crawling multipliziert auch die Anzahl der zu krocheten Web -Links. Einige Crawler nehmen nur einige der URLs ein bilden. In einigen Fällen wie die GoogleBotDas Web -Crawling erfolgt auf allen Text, die in den Hypertextinhalten, Tags oder Text enthalten sind.

Es können strategische Ansätze verfolgt werden, um Deep -Web -Inhalte zu zielen. Mit einer Technik genannt Bildschirmkratzen, Spezielle Software kann so angepasst werden, dass sie automatisch ein bestimmtes Webformular befragt und wiederholt abfragen, um die resultierenden Daten zu aggregieren. Diese Software kann verwendet werden, um mehrere Webformulare über mehrere Websites hinweg zu speichern. Daten, die aus den Ergebnissen einer Einreichung eines Webformulars extrahiert wurden, können als Eingabe in ein anderes Webform verwendet werden und so die Kontinuität im gesamten Tiefnetz auf eine Weise festlegen, die bei herkömmlichen Webcrawlern nicht möglich ist.[46]

Seiten eingebaut Ajax sind unter denjenigen, die Webcrawlern Probleme verursachen. Google hat ein Format von AJAX -Aufrufen vorgeschlagen, das ihr Bot erkennen und indexieren kann.[47]

Web -Crawler -Voreingenommenheit

Eine kürzlich auf einer großen Analyse von Robots.txt -Dateien basierenden Studie zeigte, dass bestimmte Webcrawler gegenüber anderen bevorzugt wurden, wobei GoogleBot der am meisten bevorzugte Webcrawler war.[48]

Visuelle gegen programmatische Crawler

Im Internet gibt es eine Reihe von Produkten "Visual Web Scraper/Crawler", die Seiten und Strukturdaten in Spalten und Zeilen basierend auf den Anforderungen der Benutzer kriechen und strukturieren. Einer der Hauptunterschiede zwischen einem Klassiker und einem visuellen Crawler ist die Ebene der Programmierfähigkeit, die für die Einrichtung eines Crawlers erforderlich ist. Die neueste Generation von "Visual Scrapers" entfernen die Mehrheit der Programmierkenntnisse, die erforderlich sind, um programmieren zu können und ein Crawl zum Kratzen von Webdaten zu starten.

Die Visual Scrawing/Crawling-Methode beruht auf dem Benutzer, der eine Crawler-Technologie "lehrt", die dann den Mustern in halbstrukturierten Datenquellen folgt. Die dominierende Methode zum Unterrichten eines visuellen Crawlers besteht darin, Daten in einen Browser- und Trainingsspalten und -zeilen hervorzuheben. Obwohl die Technologie nicht neu ist, war sie beispielsweise die Grundlage von Needlebase, die von Google gekauft wurde (im Rahmen einer größeren Erfassung von ITA Labs[49]) Es gibt ein weiteres Wachstum und Investitionen in diesem Bereich von Investoren und Endbenutzern.

Liste der Webcrawlers

Im Folgenden finden Sie eine Liste der veröffentlichten Crawler-Architekturen für allgemeine Krabler (ohne fokussierte Webcrawler) mit einer kurzen Beschreibung, die die Namen der verschiedenen Komponenten und herausragenden Funktionen enthält:

Historische Webcrawler

  • World Wide Web Wurm war ein Crawler, der verwendet wurde, um einen einfachen Index von Dokumenttiteln und URLs zu erstellen. Der Index könnte mit der Verwendung der durchsucht werden Grep Unix Befehl.
  • Yahoo! Slurp war der Name der Yahoo! Suchen Sie Crawler bis Yahoo! Vertrag mit Microsoft benutzen Bingbot stattdessen.

Interne Webcrawler

  • Applebot ist ApfelWeb -Crawler. Es unterstützt Siri und andere Produkte.[50]
  • Bingbot ist der Name von Microsoft's Bing Webcrawler. Es ersetzt Msnbot.
  • Baiduspider ist BaiduWeb -Crawler.
  • GoogleBot wird ausführlich beschrieben, aber die Referenz geht nur um eine frühe Version ihrer Architektur, die in C ++ und geschrieben wurde Python. Der Crawler wurde in den Indexierungsprozess integriert, da die Analyse des Textes für die Volltextindexierung und auch für die URL-Extraktion durchgeführt wurde. Es gibt einen URL -Server, der von URLs sendet, die von mehreren Krabbeln abgerufen werden sollen. Während der Parsen wurden die gefundenen URLs an einen URL -Server übergeben, der überprüft wurde, ob die URL zuvor gesehen wurde. Wenn nicht, wurde die URL zur Warteschlange des URL -Servers hinzugefügt.
  • Webcrawler wurde verwendet, um den ersten öffentlich verfügbaren Volltextindex einer Teilmenge des Webs zu erstellen. Es basierte auf libwww Seiten herunterladen und ein weiteres Programm zur Analyse und Bestellung von URLs für die Breite des ersten Erforschung des Webdiagramms. Es enthielt auch einen Echtzeit-Crawler, der Links befolgte, die auf der Ähnlichkeit des Ankertextes mit der bereitgestellten Abfrage basieren.
  • WebFountain ist ein verteilter, modularer Crawler ähnlich wie Mercator, aber in C ++ geschrieben.
  • Xenon ist ein Web -Crawler, der von staatlichen Steuerbehörden zur Erkennung von Betrug verwendet wird.[51][52]

Kommerzielle Webcrawler

Die folgenden Webcrawler sind zu einem Preis erhältlich ::

Open-Source-Crawler

  • Gnu wget ist ein Befehlszeile-betriebener Crawler geschrieben in C und unter dem freigelassen Gpl. Es wird normalerweise verwendet, um Web- und FTP -Websites zu spiegeln.
  • RODEN war ein Open -Source -Verteilte -Suchcrawler, das Wikia -Suche Wird verwendet, um das Web zu kriechen.
  • Heritrix ist der InternetarchivCrawler in Archivqualität, das für die Archivierung regelmäßiger Schnappschüsse eines großen Teils des Netzes entwickelt wurde. Es wurde geschrieben in Java.
  • ht: // dig Enthält einen Web -Crawler in seine Indizing -Engine.
  • Httrack Verwendet einen Webcrawler, um einen Spiegel einer Website für die Offline-Anzeige zu erstellen. Es ist geschrieben in C und unter dem freigelassen Gpl.
  • mnogoSearch ist ein Crawler, Indexer und eine Suchmaschine, die in C geschrieben und unter dem lizenziert wurde Gpl (*Nur nixe Maschinen)
  • Apache Nutsch ist ein hoch erweiterbarer und skalierbarer Web -Crawler, der in Java geschrieben und unter einem veröffentlicht wurde Apache -Lizenz. Es basiert auf Apache Hadoop und kann mit verwendet werden Apache Solr oder Elasticsarch.
  • Suchserver öffnen ist eine Suchmaschinen- und Web -Crawler -Software -Version unter dem Gpl.
  • Php-Crawler ist einfach Php und Mysql Basierter Crawler unter dem freigelassenen BSD -Lizenz.
  • Scrapy, ein Open -Source -Webcrawler -Framework, geschrieben in Python (lizenziert unter BSD).
  • Sucht, eine kostenlose verteilte Suchmaschine (lizenziert unter Agpl).
  • Stormcrawler, eine Sammlung von Ressourcen für den Aufbau von skalierbaren Webcrawlern mit geringer Latenz, auf Apache Sturm (Apache -Lizenz).
  • Tkwww Roboter, ein Crawler basierend auf dem tkwww Webbrowser (lizenziert unter Gpl).
  • Xapian, eine Suchcrawler -Engine, geschrieben in C ++.
  • Yacy, eine kostenlose verteilte Suchmaschine, die auf Prinzipien von Peer-to-Peer-Netzwerken basiert (lizenziert unter Gpl).

Siehe auch

Verweise

  1. ^ "Webcrawler: Durchsuchen des Webs".
  2. ^ Spetka, Scott. "Der TKWWW -Roboter: Jenseits des Surfens". NCSA. Archiviert von das Original am 3. September 2004. Abgerufen 21. November 2010.
  3. ^ Kobayashi, M. & Takeda, K. (2000). "Informationsabruf im Web". ACM Computing -Umfragen. 32 (2): 144–173. Citeseerx 10.1.1.126.6094. doi:10.1145/358923.358934. S2CID 3710903.
  4. ^ Sehen Definition von Scutter auf dem Wiki von FOAF Project Archiviert 13. Dezember 2009 bei der Wayback -Maschine
  5. ^ Masanès, Julien (15. Februar 2007). Webarchivierung. Springer. p. 1. ISBN 978-3-54046332-0. Abgerufen 24. April 2014.
  6. ^ Patil, Yugandhara; Patil, Sonal (2016). "Überprüfung von Webcrawlern mit Spezifikation und Arbeit" (PDF). Internationales Journal of Advanced Research in Computer and Communication Engineering. 5 (1): 4.
  7. ^ Edwards, J., McCurley, K. S. und Tomlin, J. A. (2001). "Ein adaptives Modell zur Optimierung der Leistung eines inkrementellen Webcrawlers". Proceedings der zehnten Internationalen Konferenz über World Wide Web - www '01. In Proceedings of the Tenth Conference on World Wide Web. S. 106–113. Citeseerx 10.1.1.1018.1506. doi:10.1145/371920.371960. ISBN 978-1581133486. S2CID 10316730.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  8. ^ Castillo, Carlos (2004). Effektives Webkriechen (Doktorarbeit). Universität Chile. Abgerufen 3. August 2010.
  9. ^ A. Möwen; A. Signori (2005). "Das indexbare Web beträgt mehr als 11,5 Milliarden Seiten". Spezialinteresse Tracks und Poster der 14. Internationalen Konferenz über World Wide Web. ACM -Presse. S. 902–903. doi:10.1145/1062745.1062789.
  10. ^ Steve Lawrence; C. Lee Giles (8. Juli 1999). "Zugänglichkeit von Informationen im Web". Natur. 400 (6740): 107–9. Bibcode:1999natur.400..107l. doi:10.1038/21987. PMID 10428673. S2CID 4347646.
  11. ^ Cho, J.; Garcia-Molina, H.; Page, L. (April 1998). "Effizientes Krabbeln durch URL -Bestellung". Siebte internationale weltweite Webkonferenz. Brisbane, Australien. doi:10.1142/3725. ISBN 978-981-02-3400-3. Abgerufen 23. März 2009.
  12. ^ Cho, Junghoo, "Crawling the Web: Entdeckung und Wartung eines groß angelegten Webdaten", PhD -Dissertation, Abteilung für Informatik, Stanford University, November 2001
  13. ^ Marc Najork und Janet L. Wiener. Die Krabbeln aus dem Breite ergeben hochwertige Seiten. In Proceedings of the Tenth Conference on World Wide Web, Seiten 114–118, Hongkong, Mai 2001. Elsevier Science.
  14. ^ Serge Abiteboul; Mihai Preda; Gregory Cobena (2003). "Adaptive Online-Seitenwichtige Berechnung". Verfahren der 12. Internationalen Konferenz über World Wide Web. Budapest, Ungarn: ACM. S. 280–290. doi:10.1145/775152.775192. ISBN 1-58113-680-3. Abgerufen 22. März 2009.
  15. ^ Paolo Boldi; Bruno Codenotti; Massimo Santini; Sebastiano Vigna (2004). "Ubicrawler: Ein skalierbarer, vollständig verteilter Webcrawler" (PDF). Software: Übung und Erfahrung. 34 (8): 711–726. Citeseerx 10.1.1.2.5538. doi:10.1002/spe.587. S2CID 325714. Archiviert von das Original (PDF) am 20. März 2009. Abgerufen 23. März 2009.
  16. ^ Paolo Boldi; Massimo Santini; Sebastiano Vigna (2004). "Tun Sie das Schlimmste, um das Beste zu machen: paradoxe Effekte bei pageRank -inkrementellen Berechnungen" (PDF). Algorithmen und Modelle für den Web-Graph. Vorlesungsnotizen in Informatik. Vol. 3243. S. 168–180. doi:10.1007/978-3-540-30216-2_14. ISBN 978-3-540-23427-2. Abgerufen 23. März 2009.
  17. ^ R. Baeza-Yates, C. Castillo, M. Marin und A. Rodriguez (2005). Krabbeln in einem Land: Bessere Strategien als Breite für die Webseitenbestellung als Breite. In Proceedings of the Industrial and Practical Experience Track der 14. Konferenz über World Wide Web, Seiten 864–872, Chiba, Japan. ACM -Presse.
  18. ^ Shervin Daneshpajouh, Mojtaba Mohammadi Nasii, Mohammad Ghodsi, Ein schneller Community -basierter Algorithmus zur Erzeugung von Crawler -Samen Set, Im Verfahren der 4. Internationalen Konferenz über Webinformationssysteme und -technologien (Webist-2008), Funchal, Portugal, Mai 2008.
  19. ^ Pant, Gautam; Srinivasan, Padmini; Menczer, Filippo (2004). "Das Web kriechen" (PDF). In Levene, Mark; Poulovassilis, Alexandra (Hrsg.). Webdynamik: Anpassung an Veränderungen in Inhalt, Größe, Topologie und Verwendung. Springer. S. 153–178. ISBN 978-3-540-40676-1. Archiviert von das Original (PDF) am 20. März 2009. Abgerufen 9. Mai 2006.
  20. ^ Cothey, Viv (2004). "Web-Crawling-Zuverlässigkeit" (PDF). Zeitschrift der American Society for Information Science und Technologie. 55 (14): 1228–1238. Citeseerx 10.1.1.117.185. doi:10.1002/ASI.20078.
  21. ^ Menczer, F. (1997). Arachnid: Adaptive Retrieval -Agenten, die heuristische Nachbarschaften für Informationsentdeckungen wählen Archiviert 21. Dezember 2012 bei der Wayback -Maschine. In D. Fisher, Hrsg., Maschinelles Lernen: Proceedings der 14. Internationalen Konferenz (ICML97). Morgan Kaufmann
  22. ^ Menczer, F. und Belew, R.K. (1998). Adaptive Information Agents in verteilten Textumgebungen Archiviert 21. Dezember 2012 bei der Wayback -Maschine. In K. Sycara und M. Wooldridge (Hrsg.) Proc. 2. Intl. Conf. über autonome Agenten (Agenten '98). ACM -Presse
  23. ^ Chakrabarti, Soule; Van den Berg, Martin; Dom, Byron (1999). "Fokussierter Kriechling: Ein neuer Ansatz zur themenspezifischen Webressourcenentdeckung" (PDF). Computernetzwerke. 31 (11–16): 1623–1640. doi:10.1016/s1389-1286 (99) 00052-3. Archiviert von das Original (PDF) am 17. März 2004.
  24. ^ Pinkerton, B. (1994). Finden, was Menschen wollen: Erfahrungen mit dem Webcrawler. In Proceedings of the First World Wide Web Conference, Genf, Schweiz.
  25. ^ M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles und M. Gori (2000). Fokussierter Krabbeln mit Kontextgraphen. In Proceedings der 26. Internationalen Konferenz über sehr große Datenbanken (VLDB), Seiten 527-534, Kairo, Ägypten.
  26. ^ Wu, Jian; Teregowda, Pradeep; Khabsa, Madian; Carman, Stephen; Jordan, Douglas; San Pedro Wandelmer, Jose; Lu, Xin; Mitra, Prasenjit; Giles, C. Lee (2012). "Web Crawler Middleware für digitale Suchmaschinenbibliotheken". Verfahren des zwölften Internationalen Workshops über Webinformationen und Datenverwaltung - WIDM '12. p. 57. doi:10.1145/2389936.2389949. ISBN 9781450317207. S2CID 18513666.
  27. ^ Wu, Jian; Teregowda, Pradeep; Ramírez, Juan Pablo Fernández; Mitra, Prasenjit; Zheng, Shuyi; Giles, C. Lee (2012). "Die Entwicklung einer Kriechstrategie für eine akademische Dokumentssuchmaschine". Verfahren der 3. jährlichen ACM Web Science Conference on - Web - Web Sci '12. S. 340–343. doi:10.1145/2380718.2380762. ISBN 9781450312288. S2CID 16718130.
  28. ^ Dong, Hai; Hussain, Farookh Khadeer; Chang, Elizabeth (2009). "Stand der Technik in semantischen Crawler". Computerwissenschaft und ihre Anwendungen - ICCSA 2009. Vorlesungsnotizen in Informatik. Vol. 5593. S. 910–924. doi:10.1007/978-3-642-02457-3_74. HDL:20.500.11937/48288. ISBN 978-3-642-02456-6.
  29. ^ Dong, Hai; Hussain, Farookh Khadeer (2013). "SOF: Ein halb überbewerteter Ontologie-Learning-basierter fokussierter Crawler". Parallelität und Berechnung: Übung und Erfahrung. 25 (12): 1755–1770. doi:10.1002/cpe.2980. S2CID 205690364.
  30. ^ Junghoo Cho; Hector Garcia-Molina (2000). "Synchronisierung einer Datenbank, um die Frische zu verbessern" (PDF). Proceedings der 2000 ACM Sigmod International Conference zum Management von Daten. Dallas, Texas, USA: ACM. S. 117–128. doi:10.1145/342009.335391. ISBN 1-58113-217-4. Abgerufen 23. März 2009.
  31. ^ a b E. G. Coffman JR; Zhen Liu; Richard R. Weber (1998). "Optimale Roboterplanung für Web -Suchmaschinen". Zeitschrift für Planung. 1 (1): 15–29. Citeseerx 10.1.1.36.6087. doi:10.1002/(SICI) 1099-1425 (199806) 1: 1 <15 :: Aid-Jos3> 3.0.co; 2-K.
  32. ^ a b Cho, Junghoo; Garcia-Molina, Hector (2003). "Effektive Seiten -Aktualisierungsrichtlinien für Webcrawler". ACM -Transaktionen auf Datenbanksystemen. 28 (4): 390–426. doi:10.1145/958942.958945. S2CID 147958.
  33. ^ a b Junghoo Cho; Hector Garcia-Molina (2003). "Schätzung der Veränderung der Veränderung". ACM -Transaktionen in der Internet -Technologie. 3 (3): 256–290. Citeseerx 10.1.1.59.5877. doi:10.1145/857166.857170. S2CID 9362566.
  34. ^ Ipeirotis, P., Ntoulas, A., Cho, J., Gravano, L. (2005) Modellierung und Verwaltung von Inhaltsänderungen in Textdatenbanken. In Proceedings der 21. IEEE International Conference on Data Engineering, Seiten 606-617, April 2005, Tokio.
  35. ^ Koster, M. (1995). Roboter im Web: Bedrohung oder Behandlung? Connexions, 9 (4).
  36. ^ Koster, M. (1996). Ein Standard für den Roboterausschluss Archiviert 7. November 2007 bei der Wayback -Maschine.
  37. ^ Koster, M. (1993). Richtlinien für Roboterautoren Archiviert 22. April 2005 bei der Wayback -Maschine.
  38. ^ Baeza-Yates, R. und Castillo, C. (2002). Ausgleiche von Volumen, Qualität und Frische im Webkriechen ausbalancieren. In Soft Computing Systems - Design, Management und Anwendungen, Seiten 565–572, Santiago, Chile. IOS Press Amsterdam.
  39. ^ Heydon, Allan; Najork, Marc (26. Juni 1999). "Mercator: Ein skalierbarer, erweiterbarer Web -Crawler" (PDF). Archiviert von das Original (PDF) am 19. Februar 2006. Abgerufen 22. März 2009. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  40. ^ Dill, S.; Kumar, R.; McCurley, K. S.; Rajagopalan, S.; Sivakumar, D.; Tomkins, A. (2002). "Selbstähnlichkeit im Web" (PDF). ACM -Transaktionen in der Internet -Technologie. 2 (3): 205–223. doi:10.1145/572326.572328. S2CID 6416041.
  41. ^ M. Thelwall; D. Stuart (2006). "Web -Crawling -Ethik überarbeitet: Kosten, Privatsphäre und Denial -of -Service". Zeitschrift der American Society for Information Science und Technologie. 57 (13): 1771–1779. doi:10.1002/ASI.20388.
  42. ^ Brin, Sergey; Page, Lawrence (1998). "Die Anatomie einer groß angelegten hypertextuellen Web-Suchmaschine". Computernetzwerke und ISDN -Systeme. 30 (1–7): 107–117. doi:10.1016/s0169-7552 (98) 00110-x.
  43. ^ Shkapenyuk, V. und Suel, T. (2002). Design und Implementierung eines hochleistungsverteilten Webcrawlers. In Proceedings of the 18. International Conference on Data Engineering (ICDE), Seiten 357-368, San Jose, Kalifornien. IEEE CS Press.
  44. ^ Shestakov, Denis (2008). Suchen Sie Schnittstellen im Web: Abfrage und Charakterisierung Archiviert 6. Juli 2014 bei der Wayback -Maschine. TUCS Doktorale Dissertationen 104, Universität Turku
  45. ^ Michael L Nelson; Herbert van de Sompel; Xiaoming Liu; Terry L Harrison; Nathan McFarland (24. März 2005). "Mod_oai: Ein Apache -Modul für die Metadatenernte": CS/0503069. Arxiv:CS/0503069. Bibcode:2005cs ........ 3069n. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  46. ^ Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "Deque: Abfragen des tiefen Netzes" (PDF). Data & Knowledge Engineering. 52 (3): 273–311. doi:10.1016/s0169-023x (04) 00107-7.
  47. ^ "Ajax Crawling: Leitfaden für Webmaster und Entwickler". Abgerufen 17. März 2013.
  48. ^ Sun, Yang (25. August 2008). "Eine umfassende Studie über die Regulierung und das Verhalten von Webcrawlern. Von Suchmaschinennutzern ist ein Faktor, der nach zweiter variiert: Laut Moz, nur 30% der Suchanfragen, die in Suchmaschinen wie Google, Bing oder Yahoo! entsprechend generischen Wörtern und Phrasen durchgeführt werden. Die verbleibenden 70% sind normalerweise zufällig. ". Abgerufen 11. August 2014. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  49. ^ Ita Labs "ITA LABS -Akquisition" 20. April 2011 1:28 Uhr
  50. ^ "Über Applebot". Apple Inc. Abgerufen 18. Oktober 2021.
  51. ^ Norton, Quinn (25. Januar 2007). "Steuernehmer schicken die Spinnen ein". Geschäft. Verdrahtet. Archiviert Aus dem Original am 22. Dezember 2016. Abgerufen 13. Oktober 2017.
  52. ^ "Xenon Web Crawling Initiative: Zusammenfassung der Datenschutzbewertung (PIA)". Ottawa: Regierung von Kanada. 11. April 2017. Archiviert Aus dem Original am 25. September 2017. Abgerufen 13. Oktober 2017.

Weitere Lektüre