Verbindungsfäule

Verbindungsfäule (auch genannt Verknüpfen Sie den Tod, Link Breaking, oder Referenzfäule) ist das Phänomen von Hyperlinks Tendenz im Laufe der Zeit, um auf ihre ursprünglich gezielte Ziehung zu verweisen Datei, Website, oder Server Aufgrund dieser Ressource, die in eine neue Adresse verlegt wird oder dauerhaft nicht verfügbar ist. Ein Link, der nicht mehr auf sein Ziel zeigt, oft als a genannt gebrochen oder tot Link (oder manchmal verwaist Link) ist eine bestimmte Form von baumelnder Zeiger.

Die Rate von Link ROT ist untersucht und Forschung aufgrund ihrer Bedeutung für die Fähigkeit des Internets, Informationen zu erhalten. Die Schätzungen dieser Rate variieren dramatisch zwischen den Studien.

Häufigkeit

Eine Reihe von Studien hat die Prävalenz von Verbindungsfäule innerhalb der untersucht Weltweites Netzin akademischer Literatur, die verwendet URLs Webinhalte zitieren und innerhalb Digitale Bibliotheken.

Eine Studie aus dem Jahr 2003 ergab, dass im Internet jede Woche etwa ein Link aus allen 200 brach.[1] Vorschlagen a Halbwertszeit von 138 Wochen. Diese Rate wurde größtenteils durch eine Studie 2016–2017 über Links in bestätigt Yahoo! Verzeichnis (Dies hatte 2014 nach 21-jähriger Entwicklung aufgehört, die Halbwertszeit der Links des Verzeichnisses zwei Jahre zu betragen.[2]

Eine Studie aus dem Jahr 2004 zeigte, dass Untergruppen von Web-Links (z.[3] Die für die Veröffentlichung ausgewählten URLs scheinen eine größere Langlebigkeit zu haben als die durchschnittliche URL. Eine Studie von Weblock aus dem Jahr 2015 analysierte mehr als 180.000 Links aus Referenzen in der Volltext-Korpora von drei großen Open-Access-Publishern und fand eine Halbwertszeit von etwa 14 Jahren.[4] im Allgemeinen eine Studie aus dem Jahr 2005, in der festgestellt wurde, dass die Hälfte der URLs zitiert in D-Lib Magazine Die Artikel wurden 10 Jahre nach der Veröffentlichung aktiv.[5] Andere Studien haben in der akademischen Literatur höhere Raten der Verbindungsfäulchen festgestellt, deuten jedoch auf eine Halbwertszeit von vier Jahren oder höher hin.[6][7] Eine Studie von 2013 in BMC Bioinformatics analysierte fast 15.000 Verbindungen in Abstracts von Thomson Reuters's Wissenschaftsnetz Zitierindex und stellte fest, dass die mittlere Lebensdauer von Webseiten 9,3 Jahre betrug und nur 62% archiviert wurden.[8] Eine 2021 Studie über externe Links in den Jahren 1996-2019 New York Times Artikel ergaben, dass 25% der Verbindungen nicht zugänglich waren. Darüber hinaus führten 13% aus einer Stichprobe von 4.500 Links, die noch zugänglich waren Inhaltsdrift.[9]

Eine Studie aus dem Jahr 2002 legte vor, dass die Link -Rot innerhalb der digitalen Bibliotheken deutlich langsamer ist als im Web, und stellte fest, dass etwa 3% der Objekte nach einem Jahr nicht mehr zugänglich waren[10] (gleichwertig mit einer Halbwertszeit von fast 23 Jahren).

Ursachen

Link -Rot kann sich aus mehreren Vorkommen ergeben. Eine Zielwebseite kann entfernt werden. Der Server, der die Zielseite hostet Domainname. Die Registrierung eines Domainnamens kann verfallen oder an eine andere Partei übertragen werden. Einige Ursachen führen dazu, dass der Link kein Ziel findet und einen Fehler wie z. HTTP 404. Andere Ursachen führen zu einem Link zu zielgerichteten Inhalten als das, was vom Autor des Links beabsichtigt war.

Weitere Gründe für kaputte Links sind:

  • Die Umstrukturierung von Websites, die Änderungen der URLs verursachen (z. domain.net/pine_tree könnte bewegt werden zu domain.net/tree/pine)
  • Umzug von ehemals freien Inhalten in hinter a Paywall
  • Eine Änderung der Serverarchitektur, die zu Code führt, z. B. Php anders funktionieren
  • Dynamische Seiteninhalte wie Suchergebnisse, die sich nach Design ändert
  • Das Vorhandensein benutzerspezifischer Informationen (z. B. ein Anmeldenname) innerhalb des Links
  • absichtliche Blockierung vorbei Inhaltsfilter oder Firewalls
  • der Ablauf von a Registrierung von Domainnamen

Prävention und Erkennung

Strategien zur Verhinderung von Link -FORT können sich darauf konzentrieren, Inhalte zu platzieren, bei denen die Wahrscheinlichkeit einer Beherrschung höher ist, die Autorierungsverbindungen mit geringerer Wahrscheinlichkeit unterbrochen werden, Maßnahmen zur Erhaltung vorhandener Verbindungen unternommen oder Links reparieren, deren Ziele verlegt oder entfernt wurden.

Die Schaffung von URLs, die sich nicht mit der Zeit ändern, ist die grundlegende Methode zur Verhinderung der Verbindungsfäule. Die vorbeugende Planung wurde durch eingesetzt von Tim Berners-Lee und andere Webpioniere.[11]

Zu den Strategien zur Urheberschaft von Links gehören:

Zu den Strategien zum Schutz bestehender Links gehören:

  • Verwendung Umleitung Mechanismen wie HTTP 301 Um die Browser und Crawler automatisch auf versiegelte Inhalte zu verweisen.
  • Verwendung Content -Management -Systeme Dies kann automatisch Links aktualisieren, wenn der Inhalt innerhalb derselben Site verlegt wird, oder ersetzen Sie Links automatisch durch kanonische URLs[17]
  • Integration von Suchressourcen in HTTP 404 Seiten[18]

Die Erkennung von kaputten Links kann manuell oder automatisch erfolgen. Zu den automatisierten Methoden gehören Plugins zum Content -Management -Systeme sowie eigenständige Bruchkäfer wie wie wie wie Xenus Link -Sleuth. Die automatische Überprüfung erfasst möglicherweise keine Links, die a zurückgeben Weich 404 oder Links, die a zurückgeben 200 OK Antwort, aber verweisen Sie auf Inhalte, die sich geändert haben.[19]

Siehe auch

Weitere Lektüre

  • Markwell, John; Brooks, David W. (2002). "Gebrochene Links: Die kurzlebige Natur des Bildungshyperlinks". Journal of Science Education und Technologie. 11 (2): 105–108. doi:10.1023/a: 1014627511641. S2CID 60802264.
  • Gomes, Daniel; Silva, Mário J. (2006). "Modellierungsinformationen Persistenz im Web" (PDF). Proceedings der 6. Internationalen Konferenz über Web -Engineering. ICWE'06. Archiviert von das Original (PDF) Am 2011-07-16. Abgerufen 14. September 2010.
  • Dellavalle, Robert P.; Hester, Eric J.; Heilig, Lauren F.; Drake, Amanda L.; Kuntzman, Jeff W.; Graber, Marla; Schilling, Lisa M. (2003). "Gehen, gehen, weg: verlorene Internetreferenzen". Wissenschaft. 302 (5646): 787–788. doi:10.1126/Science.1088234. PMID 14593153. S2CID 154604929.
  • Koehler, Wallace (1999). "Eine Analyse der Webseite und der Website -Konstanz und Beständigkeit". Zeitschrift der American Society for Information Science. 50 (2): 162–180. doi:10.1002/(SICI) 1097-4571 (1999) 50: 2 <162 :: Aid-Asi7> 3.0.co; 2-B.
  • Sellitto, Carmine (2005). "Die Auswirkungen von unbeständigen webgestützten Zitaten: Eine Studie über 123 wissenschaftliche Konferenzpublikationen" (PDF). Zeitschrift der American Society for Information Science und Technologie. 56 (7): 695–703. Citeseerx 10.1.1.473.2732. doi:10.1002/asi.20159.

Verweise

  1. ^ Fessel, Dennis; Manasse, Mark; Najork, Marc; Wiener, Janet (2003). "Eine großflächige Studie über die Entwicklung von Webseiten". Verfahren der 12. Internationalen Konferenz über World Wide Web. Archiviert Aus dem Original am 9. Juli 2011. Abgerufen 14. September 2010.
  2. ^ Van der Graaf, Hans. "Die Halbwertszeit eines Links beträgt zwei Jahre". Zomdirs Blog. Archiviert vom Original am 2017-10-17. Abgerufen 2019-01-31.
  3. ^ Koehler, Wallace (2004). "Eine Längsschnittstudie über Webseiten wurde fortgesetzt: Eine Berücksichtigung der Dokumenthilfe". Informationsforschung. 9 (2). Archiviert vom Original am 2017-09-11. Abgerufen 2019-01-31.
  4. ^ "Allzeit-Weblockbericht". August 2015. archiviert von das Original am 4. März 2016. Abgerufen 12. Januar 2016.
  5. ^ a b McCown, Frank; Chan, Sheffan; Nelson, Michael L.; Bollen, Johan (2005). "Die Verfügbarkeit und Persistenz von Webreferenzen im D-Lib-Magazin" (PDF). Proceedings des 5. Internationalen Webarchivierungs -Workshops und der digitalen Erhaltung (IWAW'05). Archiviert von das Original (PDF) am 07.07.2012. Abgerufen 2005-10-12.
  6. ^ Spinellis, Diomidis (2003). "Der Verfall und die Fehler von Webreferenzen". Kommunikation der ACM. 46 (1): 71–77. Citeseerx 10.1.1.12.9599. doi:10.1145/602421.602422. S2CID 17750450. Archiviert vom Original am 2020-07-23. Abgerufen 2007-09-29.
  7. ^ Steve Lawrence; David M. Pennock; Gary William Flake; et al. (März 2001). "Persistenz von Webreferenzen in der wissenschaftlichen Forschung". Computer. 34 (3): 26–31. Citeseerx 10.1.1.97.9695. doi:10.1109/2.901164. ISSN 0018-9162. WikidataQ21012586.
  8. ^ Hennessey, Jason; Xijin GE, Steven (2013). "Eine Kreuzdisziplinarstudie zum Verfall der Verbindung und die Wirksamkeit von Minderungstechniken". BMC Bioinformatics. 14: S5. doi:10.1186/1471-2105-14-S14-S5. PMC 3851533. PMID 24266891.
  9. ^ "Was die Ephemeralität des Webs für Ihre Hyperlinks bedeutet". Columbia Journalism Review. Abgerufen 2021-08-02.
  10. ^ Nelson, Michael L.; Allen, B. Danette (2002). "Objekt Persistenz und Verfügbarkeit in digitalen Bibliotheken". D-Lib Magazine. 8 (1). doi:10.1045/Januar2002-Nelson. Archiviert vom Original am 2020-07-19. Abgerufen 2019-09-24.
  11. ^ Berners-Lee, Tim (1998). "Coole URIs verändern sich nicht". Archiviert vom Original am 2000-03-02. Abgerufen 2019-01-31.
  12. ^ a b Kille, Leighton Walter (8. November 2014). "Das wachsende Problem von Internet" Link -Rot "und Best Practices für Medien- und Online -Verleger". Ressource des Journalisten, Harvard Kennedy School. Archiviert Aus dem Original am 12. Januar 2015. Abgerufen 16. Januar 2015.
  13. ^ "Internetarchiv: Digitale Bibliothek mit kostenlosen Büchern, Filmen, Musik und Wayback -Maschine". 2001-03-10. Archiviert Aus dem Original am 26. Januar 1997. Abgerufen 7. Oktober 2013.
  14. ^ Eysenbach, Gunther; Trudel, Mathieu (2005). "Gehen, noch da gehen: Verwenden Sie den Webcite -Dienst, um die Webseiten dauerhaft zu archivieren.". Journal of Medical Internet Research. 7 (5): e60. doi:10.2196/jmir.7.5.e60. PMC 1550686. PMID 16403724.
  15. ^ Zittrain, Jonathan; Albert, Kendra; Lesssig, Lawrence (12. Juni 2014). "Perma: Scoping und Behandeln des Problems von Link und Referenzfäule in rechtlichen Zitaten" (PDF). Rechtsinformationsmanagement. 14 (2): 88–99. doi:10.1017/s1472669614000255. S2CID 232390360. Archiviert (PDF) vom Original am 1. November 2020. Abgerufen 10. Juni 2020.
  16. ^ "Berkman Center der Harvard University veröffentlicht Amber, ein" gegenseitiges Hilfe "-Tool für Blogger und Website -Eigentümer, um das Web verfügbar zu halten | Berkman Center". cyber.law.harvard.edu. Archiviert vom Original am 2016-02-02. Abgerufen 2016-01-28.
  17. ^ Rønn-Jensen, Jesper (2007-10-05). "Software eliminiert Benutzerfehler und LinkROT". Justaddwater.dk. Archiviert Aus dem Original am 11. Oktober 2007. Abgerufen 5. Oktober 2007.
  18. ^ Mueller, John (2007-12-14). "FYI in den neuesten Funktionen von Google Toolbar" ". Google Webmaster Central Blog. Archiviert Aus dem Original am 13. September 2008. Abgerufen 9. Juli 2008.
  19. ^ Bar-Yossef, ZIV; Broder, Andrei Z.; Kumar, Ravi; Tomkins, Andrew (2004). "SIC Transit Gloria Telae: Auf dem Weg zum Verfall des Webs". Proceedings der 13. Internationalen Konferenz über World Wide Web - www '04. S. 328–337. Citeseerx 10.1.1.1.9406. doi:10.1145/988672.988716. ISBN 978-1581138443.

Externe Links