Deep web

Das Deep Web,[1] Unsichtbares Web,[2] oder Verstecktes Web[3] sind Teile der Weltweites Netz deren Inhalt nicht sind indiziert Standard Web-Suche. Dies steht im Gegensatz zum ""Oberflächennetz", was für jeden zugänglich ist, der das Internet nutzt.[4] Informatiker Michael K. Bergman wird 2001 als Suchindexierungsbegriff zugeschrieben.[5]

Der Inhalt des tiefen Netzes ist hinter Loginformularen versteckt.[6][7] und beinhaltet Verwendungen wie z. Webpost, Online-Banking, eingeschränkter Zugang sozialen Medien Seiten und Profile, einige Webforen und Codesprache, die eine Registrierung für das Anzeigen von Inhalten erfordern und Paywalled Dienstleistungen wie Video auf Nachfrage und einige Online -Magazine und Zeitungen.

Der Inhalt des tiefen Netzes kann von einem direkten gefunden werden und zugegriffen werden URL oder IP Adressebenötigen jedoch möglicherweise ein Passwort oder einen anderen Sicherheitszugriff, um über öffentliche Seiten vorbei zu bekommen.

Terminologie

Die erste Verschmelzung der Begriffe "Deep Web" mit "dunkles Netz"kam im Jahr 2009, als die Deep Web Search Terminologie zusammen mit illegalen Aktivitäten erörtert wurde Freenet und Darknet.[8] Diese kriminellen Aktivitäten umfassen den Handel mit persönlichen Passwörtern. falsche Identitätsdokumente, Drogen, Feuerarme, und Kinderpornografie.[9]

Seitdem nach ihrer Verwendung in der Berichterstattung der Medien über die SeidenstraßeMediengeschäfte haben "Deep Web" verwendet synonym mit dem dunkles Netz oder Darknet, ein Vergleich, den einige als ungenau ablehnen[10] und ist folglich zu einer anhaltenden Quelle der Verwirrung geworden.[11] Verdrahtet Reporter Kim Zetter[12] und Andy Greenberg[13] Empfehlen Sie die Begriffe, die in unterschiedlichen Moden verwendet werden. Während das Deep Web ein Hinweis auf eine Website ist, auf die nicht über eine herkömmliche Suchmaschine zugegriffen werden kann, ist das dunkle Netz ein Teil des tiefen Netzes, das absichtlich verborgen wurde und durch Standardbrowser und -methoden nicht zugänglich ist.[14][15][16][17][18]

Nicht indiziertes Inhalt

Bergman, in einem Papier über das Deep Web veröffentlicht in Das Journal of Electronic Publishing, erwähnte, dass Jill Ellsworth den Begriff verwendete Unsichtbares Web 1994, um auf Websites zu verweisen, die nicht bei einer Suchmaschine registriert wurden.[19] Bergman zitierte einen Artikel von Frank Garcia im Januar 1996:[20]

Es wäre eine Website, die möglicherweise vernünftig gestaltet ist, aber sie haben sich nicht die Mühe gemacht, sie bei einer der Suchmaschinen zu registrieren. Also kann niemand sie finden! Du bist versteckt. Ich nenne das das unsichtbare Web.

Eine weitere frühe Verwendung des Begriffs Unsichtbares Web war von Bruce Mount und Matthew B. Koll von Persönliche BibliothekssoftwareIn einer Beschreibung des Deep -Web -Tools Nr. 1 in einer Pressemitteilung im Dezember 1996.[21]

Die erste Verwendung des spezifischen Begriffs Deep Web, jetzt allgemein akzeptiert, trat in der oben genannten Bergman -Studie von 2001 auf.[19]

Indizierungsmethoden

Methoden, die verhindern, dass Webseiten von herkömmlichen Suchmaschinen indiziert werden, können als eine oder mehrere der folgenden Kategorien eingestuft werden:

  1. Kontextnetz: Seiten mit Inhalten, die für verschiedene Zugriffskontexte variieren (z. B. Bereiche von Client -IP -Adressen oder vorherige Navigationssequenz).
  2. Dynamischer Inhalt: Dynamische Seiten, die als Antwort auf eine eingereichte Abfrage zurückgegeben oder nur über ein Formular zugegriffen werden, insbesondere wenn Open-Domain-Eingangselemente (wie Textfelder) verwendet werden; Solche Felder sind schwer ohne zu navigieren Fachwissen.
  3. Eingeschränkter Zugriffsinhalt: Websites, die den Zugriff auf ihre Seiten auf technische Weise begrenzen (z. B. mit der Roboter -Ausschlussstandard oder Captchas, oder No-Store-Richtlinie, die Suchmaschinen daran hindert, sie zu durchsuchen und zu erstellen zwischengespeichert Kopien).[22] Websites können eine interne Suchmaschine zur Erkundung solcher Seiten enthalten.[23][24]
  4. Nicht-HTML/Textinhalt: Textinhalte, die in Multimedia- (Bild- oder Video-) Dateien oder spezifisch codiert sind Dateiformate nicht von Suchmaschinen behandelt.
  5. Privatnetz: Websites, die Registrierung und Anmeldung erfordern (kennwortgeschützte Ressourcen).
  6. Skriptinhalt: Seiten, auf die nur durch Links zugänglich sind, die von erstellt wurden JavaScript sowie Inhalte, die dynamisch von Webservern übernommen wurden Blinken oder Ajax Lösungen.
  7. Software: Bestimmte Inhalte sind absichtlich aus dem regulären Internet versteckt, nur mit speziellen Software zugänglich, wie z. Tor, I2p, oder andere DarkNet -Software. Zum Beispiel ermöglicht TOR Benutzern, über die auf Websites zugreifen zu können .Zwiebel Serveradresse anonym, um ihre IP -Adresse zu verbergen.
  8. Verknüpfter Inhalt: Seiten, die nicht durch andere Seiten verbunden sind, die verhindern können Webkriechen Programme vom Zugriff auf den Inhalt. Dieser Inhalt wird als Seiten ohne bezeichnet Backlinks (auch als Inlinks bekannt). Suchmaschinen erkennen nicht immer alle Backlinks von durchsuchten Webseiten.
  9. Webarchive: Web -Archivdienste wie die Wayback -Maschine Ermöglichen Sie den Benutzern, archivierte Versionen von Webseiten über die Zeit zu sehen, einschließlich Websites, die nicht zugänglich geworden sind und nicht von Suchmaschinen wie Google indiziert werden. Die Wayback -Maschine kann als Programm für die Anzeige des tiefen Webs bezeichnet werden, da Webarchive, die nicht aus der Gegenwart stammen, nicht indiziert werden können, da frühere Versionen von Websites durch eine Suche unmöglich sind. Alle Websites werden irgendwann aktualisiert, weshalb Webarchive als tiefe Webinhalte angesehen werden.[25]

Inhaltstypen

Es ist zwar nicht immer möglich, den Inhalt eines bestimmten Webservers direkt zu entdecken, damit er möglicherweise indiziert wird, aber auf eine Site kann möglicherweise indirekt zugegriffen werden (aufgrund Computerlücken).

Um Inhalte im Web zu entdecken, verwenden Suchmaschinen Webcrawler das folgt Hyperlinks durch bekannte Protokollvirtuelle Portnummern. Diese Technik ist ideal, um Inhalte im Oberflächennetz zu entdecken, aber oft unwirksam, um Deep -Web -Inhalte zu finden. Beispielsweise versuchen diese Crawler nicht, dynamische Seiten zu finden, die aufgrund der unbestimmten Anzahl von Abfragen, die möglich sind, das Ergebnis von Datenbankabfragen sind.[26] Es wurde festgestellt, dass dies (teilweise) durch Links zu Abfragenergebnissen überwunden werden kann. Dies könnte jedoch unbeabsichtigt die Popularität eines Mitglieds des Deep Web erhöhen.

Deeppeep, Intute, Deep Web Technologies, Scirus, und Ahmia.fi sind einige Suchmaschinen, die auf das tiefe Netz zugegriffen haben. Intute hat keine Finanzierung mehr und jetzt ist ab Juli 2011 ein vorübergehendes statisches Archiv.[27] Scirus ging gegen Ende Januar 2013 in den Ruhestand.[28]

Die Forscher haben untersucht, wie das Deep Web automatisch gekrabbt werden kann, einschließlich Inhalten, auf die nur von speziellen Software wie z. B. zugegriffen werden kann Tor. Im Jahr 2001, Sriram Raghavan und Hector Garcia-Molina (Stanford Informatik Department, Stanford University)[29][30] präsentierte ein Architekturmodell für einen Hidden-Web-Crawler, bei dem die von Benutzern bereitgestellten Schlüsselbegriffe verwendet oder von den Abfragebestellungen gesammelt wurden, um ein Webformular abzufragen und den Deep-Web-Inhalt zu kriechen. Alexandros Ntoulas, Petros Zerfos und Junghoo Cho von UCLA Erstellte einen Hidden-Web-Crawler, der automatisch aussagekräftige Abfragen generierte, um Suchformulare auszustellen.[31] Verschiedene Form von Abfragsprachen (z. B. Dequel[32]) wurden vorgeschlagen, dass neben der Ausgabe einer Abfrage auch die Extraktion strukturierter Daten von Ergebnisseiten ermöglicht werden. Eine weitere Anstrengung ist Deeppeep, ein Projekt der Universität von Utah gesponsert von der Nationale Wissenschaftsstiftung, die Hidden-Web-Quellen (Webformen) in verschiedenen Bereichen sammelte, die auf neuartigen fokussierten Crawler-Techniken basieren.[33][34]

Kommerzielle Suchmaschinen haben damit begonnen, alternative Methoden zu untersuchen, um das tiefe Netz zu kriechen. Das Sitemap -Protokoll (zuerst entwickelt und von Google im Jahr 2005 eingeführt) und Oai-pmh sind Mechanismen, die es Suchmaschinen und anderen interessierten Parteien ermöglichen, tiefe Webressourcen auf bestimmten Webservern zu entdecken. Beide Mechanismen ermöglichen es Webservern, die auf sie zugänglichen URLs zu bewerben, wodurch die automatische Entdeckung von Ressourcen ermöglicht wird, die nicht direkt mit dem Oberflächennetz verknüpft sind. Das Deep -Web -Subacing -System von Google berechnet die Einreichungen für jedes HTML -Formular und fügt die resultierenden HTML -Seiten in den Google -Suchmaschinenindex hinzu. Die aufgetauten Ergebnisse machen tausend Abfragen pro Sekunde nach Deep -Web -Inhalten aus.[35] In diesem System erfolgt die Vorverwaltung von Einreichungen mit drei Algorithmen:

  1. Auswählen von Eingabetwerten für Textsuche Eingaben, die Schlüsselwörter akzeptieren,
  2. Identifizierung von Eingaben, die nur Werte eines bestimmten Typs (z. B. Datum) und Datum) und akzeptieren
  3. Auswählen einer kleinen Anzahl von Eingabekombinationen, die URLs generieren, die für die Aufnahme in den Web -Search -Index geeignet sind.

Im Jahr 2008, um Benutzer von zu erleichtern Tor hidden services bei ihrem Zugriff und der Suche nach einem versteckten .Zwiebel Suffix, Aaron Swartz entworfen Tor2Web- Eine Proxy -Anwendung, die in der Lage ist, durch gemeinsame Webbrowser Zugriff zu gewähren.[36] Mit dieser Anwendung erscheinen Deep -Web -Links als zufällige Buchstabenzeichenfolge, gefolgt von der .onion Top-Level-Domain.

Siehe auch

Verweise

  1. ^ Hamilton, Nigel (2019–2020). "Die Mechanik einer tiefen Net -Metasarch -Engine". In Isaías, Pedro; Palma dos Reis, António (Hrsg.). Proceedings der IADIS Internationalen Konferenz über E-Sozial. S. 1034–6. Citeseerx 10.1.1.90.5847. ISBN 972-98947-0-1.
  2. ^ Devine, Jane; Egger-Sider, Francine (August 2021). "Jenseits von Google: Das unsichtbare Web in der akademischen Bibliothek". The Journal of Academic Librarianship. 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010.
  3. ^ Raghavan, Sriram; Garcia-Molina, Hector (11. bis 14. September 2001). "Das versteckte Web krabbelt". 27. Internationale Konferenz über sehr große Datenbasen.
  4. ^ "Oberflächennetz". Computer Hoffnung. Abgerufen 20. Juni, 2018.
  5. ^ Wright, Alex (22. Februar 2009). "Erforschen Sie ein 'tiefes Web', das Google nicht verstehen kann". Die New York Times. Abgerufen 2. September, 2019. [...] Mike Bergman, ein Informatiker und Berater, dem der Begriff Deep Web zugeschrieben wird.
  6. ^ Madhavan, J., Ko, D., Kot, ł., Ganapathy, V., Rasmussen, A. & Halevy, A. (2008). Googles Deep Web Crawl. Verfahren der VLDB -Stiftung, 1 (2), 1241–52.
  7. ^ Shedden, Sam (8. Juni 2014). "Wie soll ich es tun? Muss es wie ein Unfall aussehen?. Sonntags Mail. Archiviert von das Original am 1. März 2020.
  8. ^ Beckett, Andy (26. November 2009). "Die dunkle Seite des Internets". Abgerufen 9. August, 2015.
  9. ^ D. Tag. Am einfachsten Fang: Sei kein weiterer Fisch im dunklen Netz. Wake Forest University: TEDX spricht. Archiviert vom Original am 13. November 2021.
  10. ^ "Verwirrung klären - Deep Web vs. Dark Web". Brightplanet. 27. März 2014.
  11. ^ Solomon, Jane (6. Mai 2015). "The Deep Web vs. The Dark Web". Abgerufen 26. Mai, 2015.
  12. ^ NPR -Mitarbeiter (25. Mai 2014). "Dunkel werden: Das Internet hinter dem Internet". Abgerufen 29. Mai, 2015.
  13. ^ Greenberg, Andy (19. November 2014). "Hacker Lexicon: Was ist das dunkle Netz?". Abgerufen 6. Juni, 2015.
  14. ^ "Die Auswirkungen des dunklen Webs auf Internet -Governance und Cybersicherheit" (PDF). 20. Januar 2014. Abgerufen 15. Januar, 2017.
  15. ^ Lam, Kwok-yan; Chi, Chi-Hung; Qing, Sihan (23. November 2016). Sicherheit und Kommunikationssicherheit: 18. Internationale Konferenz, ICICS 2016, Singapur, Singapur, 29. November - 2. Dezember 2016, Proceedings. Springer. ISBN 9783319500119. Abgerufen 15. Januar, 2017.
  16. ^ "The Deep Web vs. The Dark Web | Dictionary.com Blog". Wörterbuchblog. 6. Mai 2015. Abgerufen 15. Januar, 2017.
  17. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1. Januar 2017). Open Source Intelligence -Untersuchung: Von der Strategie zur Implementierung. Springer. ISBN 9783319476711. Abgerufen 15. Januar, 2017.
  18. ^ "Was ist das dunkle Netz und wer benutzt es?". The Globe and Mail. Abgerufen 15. Januar, 2017.
  19. ^ a b Bergman, Michael K (August 2001). "The Deep Web: Aufblenden versteckter Wert". Das Journal of Electronic Publishing. 7 (1). doi:10.3998/3336451.0007.104.
  20. ^ Garcia, Frank (Januar 1996). "Geschäft und Marketing im Internet". Impressum. 15 (1). Archiviert von das Original Am 5. Dezember 1996. Abgerufen 24. Februar, 2009.
  21. ^ @1 begann mit 5,7 Terabyte Inhalt, die auf die 30 -fache Größe des entstehenden World Wide Web geschätzt wurden. PLS wurde 1998 von AOL erworben und @1 wurde aufgegeben. "PLS stellt AT1 vor, den ersten Internet -Suchdienst der zweiten Generation" (Pressemitteilung). Persönliche Bibliothekssoftware. Dezember 1996. archiviert von das Original am 21. Oktober 1997. Abgerufen 24. Februar, 2009.
  22. ^ "Hypertext -Transferprotokoll (HTTP/1.1): Caching". Internettechnik-Arbeitsgruppe. 2014. Abgerufen 30. Juli, 2014.
  23. ^ Spezial: Suche
  24. ^ "Internet -Archivsuche".
  25. ^ Wiener-Bronner, Danielle (10. Juni 2015). "Die NASA indiziert das 'Deep Web', um die Menschheit zu zeigen, was Google nicht wird.". Verschmelzung. Archiviert von das Original am 30. Juni 2015. Abgerufen 27. Juni, 2015. Es gibt noch andere einfachere Versionen von MEMEX. "Wenn Sie jemals den Wayback -Maschine des Internet -Archivs verwendet haben", wodurch Sie frühere Versionen einer Website erhalten, die über Google nicht zugänglich ist, haben Sie technisch im Deep Web gesucht, sagte, sagte, sagte, sagte, sagte, sagte, sagte, sagte, sagte, sagte, sagte, sagte, sagte technisch durchsucht, so Chris Mattmann.
  26. ^ Wright, Alex (22. Februar 2009). "Erforschen Sie ein 'tiefes Web', das Google nicht verstehen kann". Die New York Times. Abgerufen 23. Februar, 2009.
  27. ^ "Intute FAQ, Dead Link". Abgerufen 13. Oktober, 2012.
  28. ^ "Elsevier, um populärwissenschaftliche Suchmaschine in den Ruhestand zu nehmen". Bibliothek.BLDRDOC.GOV. Dezember 2013. archiviert von das Original am 23. Juni 2015. Abgerufen 22. Juni, 2015. Ende Januar 2014 wird Elsevier Scirus, seine kostenlose Wissenschaftssuchmaschine, einstellen. Scirus war ein weitreichendes Forschungsinstrument mit über 575 Millionen Elementen für die Suche, einschließlich Webseiten, Artikel, Patenten und Repositorys vor Druck.
  29. ^ Sriram Raghavan; Garcia-Molina, Hector (2000). "Das versteckte Web krabbelt" (PDF). Technischer Bericht Digitaler Bibliotheken in Stanford. Abgerufen 27. Dezember, 2008. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  30. ^ Raghavan, Sriram; Garcia-Molina, Hector (2001). "Das versteckte Web krabbelt" (PDF). Proceedings der 27. Internationalen Konferenz über sehr große Datenbasen (VLDB). S. 129–38.
  31. ^ Alexandros, Ntoulas; Zerfos, Petros; Cho, Junghoo (2005). "Herunterladen versteckter Webinhalte" (PDF). UCLA Informatik. Abgerufen 24. Februar, 2009. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  32. ^ Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "Deque: Abfragen des tiefen Netzes" (PDF). Data & Knowledge Engineering. 52 (3): 273–311. doi:10.1016/s0169-023x (04) 00107-7.
  33. ^ Barbosa, Luciano; Freire, Juliana (2007). "Ein adaptiver Crawler zur Lokalisierung versteckter Einstiegspunkte" (PDF). WWW -Konferenz 2007. archiviert von das Original (PDF) am 5. Juni 2011. Abgerufen 20. März, 2009. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  34. ^ Barbosa, Luciano; Freire, Juliana (2005). "Suche nach Hidden-Web-Datenbanken" (PDF). Webdb 2005. archiviert von das Original (PDF) am 5. Juni 2011. Abgerufen 20. März, 2009. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  35. ^ Madhavan, Jayant; Ko, David; Kot, łucja; Ganapathy, Vignesh; Rasmussen, Alex; Halevy, Alon (2008). "Google's Deep-Web Crawl" (PDF). VLDB -Stiftung, ACM. Abgerufen 17. April, 2009. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  36. ^ Aaron, Swartz. "Zur Verteidigung der Anonymität". Abgerufen 4. Februar, 2014.

Weitere Lektüre

Externe Links

Medien im Zusammenhang mit Deep Web bei Wikimedia Commons