Spinnenfalle
A Spinnenfalle (oder Crawler -Falle) ist eine Reihe von Webseiten, die absichtlich oder unbeabsichtigt verwendet werden können, um a zu verursachen Web -Crawler oder Suchen Sie Bot eine unendliche Anzahl von Anfragen zu machen oder einen schlecht konstruierten Crawler zum Absturz zu verursachen. Webcrawler werden ebenfalls genannt Webspinnen, von denen der Name abgeleitet ist. Spinnenfallen können erstellt werden, um "fangen" Spambots oder andere Crawler, die die Bandbreite einer Website verschwenden. Sie können auch unbeabsichtigt von Kalendern erstellt werden, die verwenden Dynamische Seiten mit Links, die ständig auf den nächsten Tag oder Jahr hinweisen.
Häufige Techniken verwendeten:
- Schaffung von unbegrenzt tief Verzeichnis Strukturen wie
http: //example.com/bar/foo/bar/foo/bar/foo/bar/...
- Dynamische Seiten, die eine unbegrenzte Anzahl von Dokumenten erstellen, denen ein Web -Crawler folgt. Beispiele sind Kalender[1] und algorithmisch erzeugt Sprachdichter.[2]
- Dokumente, die mit vielen Zeichen gefüllt sind, stürmen die ab Lexikalanalysator Parsing das Dokument.
- Dokumente mit Sitzungs-IDs basierend auf den erforderlichen Cookies.
Es gibt keinen Algorithmus, um alle Spinnenfallen zu erkennen. Einige Klassen von Fallen können automatisch erkannt werden, aber es entstehen schnell neue, nicht anerkannte Fallen.
Höflichkeit
Eine Spinnenfalle führt dazu, dass ein Web -Crawler so etwas wie eine betritt Endlosschleife,[3] das verschwendet die Ressourcen der Spinne,[4] Senkt seine Produktivität und kann im Falle eines schlecht geschriebenen Crawler das Programm zum Absturz bringen. Höfliche Spinnen alternative Anfragen zwischen verschiedenen Hosts und fordern Sie nicht mehr als einmal alle Sekunden Dokumente vom selben Server an.[5] Dies bedeutet, dass ein "höflicher" Webcrawler in viel geringerem Maße betroffen ist als ein "unhöflicher" Crawler.
Darüber hinaus haben Websites mit Spinnenfallen normalerweise a Robots.txt Bots sagen, sie sollten nicht in die Falle gehen, so dass ein legitimer "höflicher" Bot nicht in die Falle fallen würde, während ein "unhöflicher" Bot, der die Einstellungen von Robots.txt ignoriert, von der Falle beeinträchtigt werden.[6]
Siehe auch
Verweise
- ^ ""Was ist eine Spinnenfalle?"". Techopädie. Abgerufen 2018-05-29.
- ^ Neil M Hennessy. "Das süßeste Gift oder die Entdeckung von l = a = n = g = u = a = g = e Poesie im Web". Zugriff 2013-09-26.
- ^ "Zeichen". Zeichen. 2016-02-03. Abgerufen 2019-10-16.
- ^ "So richten Sie einen Robots.txt ein, um Suchmaschinenspinnen zu steuern (thesitwizard.com)". www.thesitwizard.com. Abgerufen 2019-10-16.
- ^ "Aufbau eines höflichen Web -Crawlers". Die Dev -Community. Abgerufen 2019-10-16.
- ^ Gruppe, J. Media (2017-10-12). "Schließen einer Spinnenfalle: Crawl -Ineffizienzen reparieren". J Mediengruppe. Abgerufen 2019-10-16.