Webarchivierung

Webarchivierung ist der Prozess des Sammelns von Teilen der Weltweites Netz Um sicherzustellen, dass die Informationen sind konserviert in einem (n Archiv Für zukünftige Forscher, Historiker und die Öffentlichkeit. Web -Archivare beschäftigen sich in der Regel Webcrawler Für die automatisierte Erfassung aufgrund der massiven Größe und Menge an Informationen im Web. Die größte Webarchivierorganisation basiert auf einem Bulk -Crawling -Ansatz Wayback -Maschine, was versucht, ein Archiv des gesamten Webs zu pflegen.

Der wachsende Teil der im Internet geschaffenen und aufgezeichneten menschlichen Kultur macht es unvermeidlich, dass immer mehr Bibliotheken und Archive den Herausforderungen der Webarchivierung stehen müssen.[1] Nationale Bibliotheken, Nationalarchive und verschiedene Konsortien von Organisationen sind auch an der archivierenden kulturell wichtigen Webinhalte beteiligt.

Kommerzielle Webarchivierungssoftware und -dienste stehen auch Organisationen zur Verfügung, die ihre eigenen Webinhalte für Unternehmensbewohner, Regulierungs- oder Rechtszwecke archivieren müssen.

Geschichte und Entwicklung

Während die Kuration und Organisation des Web seit Mitte bis Ende der 190er Jahre weit verbreitet ist, war eines der ersten groß angelegten Webarchivierungsprojekte das Internetarchiv, eine gemeinnützige Organisation, die von erstellt wurde von Brewster Kahle in 1996.[2] Das Internet -Archiv veröffentlichte eine eigene Suchmaschine, um archivierte Webinhalte anzuzeigen. Wayback -Maschine, in 2001.[2] Ab 2018 befand sich im Internetarchiv 40 Petabyte Daten.[3] Das Internetarchiv entwickelte auch viele seiner eigenen Tools zum Sammeln und Speichern seiner Daten, einschließlich Petabox zum Speichern der großen Datenmengen effizient und sicher und HeritrixEin Web -Crawler, der in Verbindung mit den nordischen Nationalbibliotheken entwickelt wurde.[2] Andere Projekte, die ungefähr zur gleichen Zeit eingeführt wurden Pandora und tasmanische Webarchive und Schwedens Kulturarw3.[4]

Ab 2001 bis 2010, Der International Web Archiving Workshop (IWAW) bot eine Plattform, um Erfahrungen auszutauschen und Ideen auszutauschen.[5][6] Das Internationales Internet Preservation Consortium (IIPC)Das 2003 gegründete 2003 hat die internationale Zusammenarbeit bei der Entwicklung von Standards und Open -Source -Tools für die Erstellung von Webarchiven erleichtert.[7]

Der jetzt aufgelöste Internet Memory Foundation wurde 2004 gegründet und von der gegründet Europäische Kommission Um das Web in Europa zu archivieren.[2] Dieses Projekt entwickelte und veröffentlichte viele Open -Source -Tools, wie "Rich Media Capturing, Temporal Cohärenzanalyse, Spam Assessment und Terminology Evolution Detection".[2] Die Daten der Stiftung sind jetzt vom Internet -Archiv untergebracht, aber derzeit nicht öffentlich zugänglich.[8]

Trotz der Tatsache, dass es keine zentralisierte Verantwortung für seine Erhaltung gibt, wird Webinhalte schnell zum offiziellen Rekord. Zum Beispiel bestätigte das Justizministerium der Vereinigten Staaten 2017, dass die Regierung die Tweets des Präsidenten als offizielle Erklärungen behandelt.[9]

Sammeln des Webs

Web -Archivare archivieren im Allgemeinen verschiedene Arten von Webinhalten, einschließlich Html Webseiten, Stilblätter, JavaScript, Bilder, und Video. Sie archivieren auch Metadaten über die gesammelten Ressourcen wie Zugangszeit, Mime Typund Inhaltslänge. Diese Metadaten sind nützlich bei der Etablierung Authentizität und Herkunft der archivierten Sammlung.

Sammelmethoden

Fernernten

Die häufigste Webarchivierungstechnik verwendet Webcrawler Um den Sammelprozess zu automatisieren Webseiten. Webcrawler greifen in der Regel auf Webseiten zu, auf die Benutzer mit einem Browser das Web sehen und daher eine vergleichsweise einfache Methode für die Remote -Ernte -Webinhalte bereitstellen. Beispiele für Webcrawler, die für Webarchiving verwendet werden, sind:

Es gibt verschiedene kostenlose Dienste, mit denen die Webressourcen "On-Demand" mithilfe von Web-Crawling-Techniken archiviert werden können. Diese Dienste umfassen die Wayback -Maschine und Webcite.

Datenbankarchivierung

Die Datenbankarchivierung bezieht sich auf Methoden zum Archivieren des zugrunde liegenden Inhalts von datenbankgesteuerten Websites. Es erfordert typischerweise die Extraktion der Datenbank Inhalt in einen Standard Schemaoft verwenden Xml. Sobald in diesem Standardformat gespeichert ist, können der archivierte Inhalt mehrerer Datenbanken mithilfe eines einzelnen Zugriffssystems zur Verfügung gestellt werden. Dieser Ansatz wird durch die veranschaulicht Deeparc und Xinq Tools, die von der entwickelt wurden Bibliothèque Nationale de France und die Nationalbibliothek von Australien beziehungsweise. Deeparc ermöglicht die Struktur von a relationale Datenbank auf einen abgebildet werden XML -Schemaund der Inhalt wurde in ein XML -Dokument exportiert. Xinq ermöglicht dann, dass dieser Inhalt online geliefert wird. Obwohl das ursprüngliche Layout und das Verhalten der Website nicht genau erhalten werden können, ermöglicht Xinq die Replizierung der grundlegenden Abfragen und der Abruffunktionalität.

Transaktionsarchivierung

Transaktionsarchivierung ist ein ereignisgesteuerter Ansatz, der die tatsächlichen Transaktionen sammelt, die zwischen a stattfinden Webserver und ein Webbrowser. Es wird in erster Linie als Mittel verwendet, um Beweise für den Inhalt zu bewahren, der tatsächlich auf einem bestimmten angesehen wurde Webseitean einem bestimmten Datum. Dies kann besonders wichtig für Organisationen sein, die rechtliche oder regulatorische Anforderungen an die Offenlegung und Aufbewahrung von Informationen erfüllen müssen.[10]

Ein transaktionales Archivierungssystem arbeitet typischerweise, indem sie alle abfangen Http Anfrage an und Antwort vom Webserver, filtert jede Antwort, um doppelte Inhalte zu beseitigen und die Antworten dauerhaft als Bitstreams zu speichern.

Schwierigkeiten und Einschränkungen

Kriecher

Webarchive, die auf Web -Crawling als Hauptmittel zum Sammeln des Webs angewiesen sind, werden von den Schwierigkeiten des Web -Crawling beeinflusst:

  • Das Roboter -Ausschlussprotokoll Kann Crawler anfordern, nicht auf Teile einer Website zugreifen zu können. Einige Web -Archivare können die Anfrage ignorieren und diese Portionen trotzdem kriechen.
  • Große Teile einer Website können in der versteckt sein Deep Web. Beispielsweise kann die Ergebnisseite hinter einem Webform im tiefen Web liegen, wenn Crawler einen Link zur Ergebnisseite nicht folgen können.
  • Crawler -Fallen (z. B. Kalender) kann dazu führen, dass ein Crawler eine unendliche Anzahl von Seiten herunterlädt, sodass Crawler normalerweise so konfiguriert sind, dass sie die Anzahl der dynamischen Seiten einschränken, die sie kriechen.
  • Die meisten Archivierungswerkzeuge erfassen die Seite nicht so, wie sie ist. Es wird beobachtet, dass AD -Banner und Bilder beim Archivieren oft übersehen werden.

Es ist jedoch wichtig zu beachten, dass ein natives Webarchiv des nativen Formats, d. H. Ein vollständig durchstöckiges Webarchiv, mit funktionierenden Links, Medien usw., mit Crawler -Technologie nur möglich ist.

Das Netz ist so groß, dass ein erheblicher Teil davon eine große Anzahl technischer Ressourcen erfordert. Das Web ändert sich so schnell, dass sich die Teile einer Website ändern können, bevor ein Crawler das Krabbeln beendet hat.

Allgemeine Einschränkungen

Einige Webserver sind so konfiguriert, dass sie verschiedene Seiten an Web -Archiver -Anfragen zurückgeben, als sie auf regelmäßige Browseranfragen reagieren würden. Dies wird normalerweise durchgeführt, um Suchmaschinen zu täuschen, um mehr Benutzerverkehr auf eine Website zu leiten, und wird häufig durchgeführt, um Rechenschaftspflicht zu vermeiden, oder um den Browsern, die sie anzeigen können, nur verbesserte Inhalte bereitzustellen.

Die Web -Archivisten müssen nicht nur die technischen Herausforderungen der Webarchivierung bewältigen, sondern müssen auch mit Gesetzen für geistiges Eigentum kämpfen. Peter Lyman[11] gibt an, dass "obwohl das Web im Volksmund als als angesehen wird öffentlich zugänglich Ressource ist es urheberrechtlich geschützt; So haben Archivare kein gesetzliches Recht, das Web zu kopieren ". Nationale Bibliotheken in einigen Ländern[12] haben ein rechtliches Recht, Teile des Web unter einer Erweiterung von a zu kopieren rechtliche Einzahlung.

Einige private gemeinnützige Webarchive, die wie Webcite, das Internetarchiv oder der Internet Memory Foundation Erlauben Sie den Inhaltsbesitzern, archivierte Inhalte auszublenden oder zu entfernen, auf die die Öffentlichkeit nicht zugreifen soll. Andere Webarchive sind nur von bestimmten Orten aus zugänglich oder haben die Verwendung reguliert. Webcite zitiert eine kürzlich durchgeführte Klage gegen Googles Caching, die Google gewonnen.[13]

Rechtsvorschriften

2017 die Finanzbranche Regulierungsbehörde, Inc. (FINRA), eine Finanzregulierungsorganisation der Vereinigten Staaten, veröffentlichte eine Mitteilung, in der das gesamte Unternehmen, das digitale Kommunikation betreibt, eine Aufzeichnung verpflichtet ist. Dies umfasst Website -Daten, Social -Media -Beiträge und Nachrichten.[14] Etwas Urheberrechtsgesetze kann die Webarchivierung hemmen. Zum Beispiel akademische Archivierung von Sci-Hub fällt außerhalb der Grenzen des zeitgenössischen Urheberrechts. Die Website bietet einen dauerhaften Zugang zu akademischen Arbeiten, einschließlich solcher, die keine haben uneingeschränkter Zugang Lizenz und dadurch trägt zum Archiv der wissenschaftlichen Forschung bei, die ansonsten verloren gehen können.[15][16]

Siehe auch

Verweise

Zitate

  1. ^ Truman, Gail (2016). "Webarchiving Environmental Scan". Harvard Library.
  2. ^ a b c d e Toyoda, M.; Kitsuregawa, M. (Mai 2012). "Die Geschichte der Webarchivierung". Proceedings of the IEEE. 100 (Sonderhundertjahresausgabe): 1441–1443. doi:10.1109/jproc.2012.2189920. ISSN 0018-9219.
  3. ^ "In Inside Wayback -Maschine, die Zeitkapsel des Internets". Die Betriebsamkeit. 28. September 2018. Sec. Wayyyy zurück. Abgerufen 21. Juli, 2020.
  4. ^ Costa, Miguel; Gomes, Daniel; Silva, Mário J. (September 2017). "Die Entwicklung der Webarchivierung". Internationales Journal über digitale Bibliotheken. 18 (3): 191–205. doi:10.1007/s00799-016-0171-9.
  5. ^ "IWAW 2010: Der 10. Intl Web Archiving Workshop". www.wikicfp.com. Abgerufen 19. August, 2019.
  6. ^ "IWAW - Internationale Webarchivierungs -Workshops". bibnum.bnf.fr. Archiviert von das Original am 20. November 2012. Abgerufen 19. August, 2019.
  7. ^ "Über die IIPC". Iipc. Abgerufen 17. April, 2022.
  8. ^ "Internet Memory Foundation: Kostenloses Web: Kostenloser Download, Ausleihen und Streaming". archive.org. Internetarchiv. Abgerufen 21. Juli, 2020.
  9. ^ Regis, Camille (4. Juni 2019). "Webarchiving: Denken Sie, dass das Web dauerhaft ist?. History Associates. Abgerufen 14. Juli, 2019.
  10. ^ Brown, Adrian (10. Januar 2016). Archivierwebsites: Ein praktischer Leitfaden für Informationsmanagementfachleute. ISBN 978-1-78330-053-2. OCLC 1064574312.
  11. ^ Lyman (2002)
  12. ^ "Rechtliche Einzahlung | iipc". netpreserve.org. Archiviert Aus dem Original am 16. März 2017. Abgerufen 31. Januar, 2017.
  13. ^ "Webcite FAQ". Webcitation.org. Abgerufen 20. September, 2018.
  14. ^ "Social Media und digitale Kommunikation" (PDF). finra.org. FINRA.
  15. ^ Claburn, Thomas (10. September 2020). "Open Access Journals verschwinden aus dem Web, das Internet -Archiv ist bereit, die Lücken zu füllen.". Das Register.
  16. ^ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (2021). "Open ist nicht für immer: Ein Studium von verschwundenen Open -Access -Zeitschriften". Journal of the Association for Information Science und Technologie. 72 (9): 1099–1112. Arxiv:2008.11933. doi:10.1002/asi.24460. S2CID 221340749.

Allgemeine Bibliographie

Externe Links