DBpedia

Dbpedia
DBpedia-Logo .png
Entwickler (en)
Erstveröffentlichung 10. Januar 2007 (vor 15 Jahren)
Stabile Version
Dbpedia 2016-10 / 4. Juli 2017
Repository
Geschrieben in
Betriebssystem Virtuoso Universal Server
Typ
Lizenz GNU Allgemeine öffentliche Lizenz
Webseite dbpedia.org

Dbpedia (von "db" für "Datenbank") ist ein Projekt, das extrahieren soll strukturierter Inhalt Aus den Informationen in der Wikipedia Projekt. Diese strukturierten Informationen werden auf dem verfügbar Weltweites Netz.[1] Dbpedia ermöglicht es Benutzern semantisch abfragen Beziehungen und Eigenschaften von Wikipedia -Ressourcen, einschließlich Links zu anderen verwandten Datensätze.[2]

In 2008, Tim Berners-Lee beschrieb dbpedia als einen der berühmtesten Teile der dezentralen Teile Verknüpfte Daten Anstrengung.[3]

Hintergrund

Das Projekt wurde von Menschen an der gestartet Freie Universität Berlin und Leipzig Universität[4] in Zusammenarbeit mit OpenLink Software und wird nun von Menschen im Wartung des Menschen gepflegt Universität Mannheim und Leipzig Universität.[5][6] Der erste öffentlich verfügbare Datensatz wurde 2007 veröffentlicht.[4] Die Daten werden unter verfügbar Kostenlose Lizenzen (Cc-by-sa), damit andere den Datensatz wiederverwenden können; es verwendet jedoch nicht eine Daten öffnen Lizenz zur Aufgabe auf die Sui Generis Database -Rechte.

Wikipedia -Artikel bestehen hauptsächlich aus freiem Text, enthalten aber auch strukturierte Informationen, die in die Artikel eingebettet sind, wie z. "Infobox"Tische (die Auszugsabletten, die oben rechts in der Standardansicht vieler Wikipedia-Artikel oder zu Beginn des Mobile Versionen), Kategorisierungsinformationen, Bilder, Geo-Koordinaten und Links zu extern Webseiten. Diese strukturierten Informationen werden extrahiert und in einen einheitlichen Datensatz eingerichtet, der abgefragt werden kann.

Datensatz

Die Veröffentlichung des DBpedia-Datensatzes 2016-04 beschreibt 6,0 Millionen Einheiten, von denen 5,2 Millionen in einem konsistenten klassifiziert sind Ontologie, darunter 1,5 Millionen Personen, 810.000 Plätze, 135.000 Musikalben, 106.000 Filme, 20.000 Videospiele, 275.000 Organisationen, 301.000 Arten und 5.000 Krankheiten.[7] Dbpedia verwendet die Ressourcenbeschreibung Framework (RDF) um extrahierte Informationen darzustellen und besteht aus 9,5 Milliarden RDF -Dreifach, von denen 1,3 Milliarden aus der englischen Ausgabe von Wikipedia und 5,0 Milliarden aus anderen Sprachausgaben gewonnen wurden.[7]

Aus diesem Datensatz können Informationen auf mehrere Seiten extrahiert werden. Zum Beispiel kann die Buchautorschaft auf Seiten über die Arbeit oder den Autor zusammengestellt werden.[Weitere Erklärung erforderlich]

Eine der Herausforderungen beim Extrahieren von Informationen aus Wikipedia ist das gleiche Konzepte kann unter Verwendung verschiedener Parameter in Infobox und anderen Vorlagen ausgedrückt werden, wie z. |birthplace= und |placeofbirth=. Aus diesem Grund müssten Fragen darüber, wo Menschen geboren wurden, nach diesen beiden Eigenschaften suchen müssten, um umfassendere Ergebnisse zu erzielen. Infolgedessen wurde die DBpedia -Mapping -Sprache entwickelt, um diese Eigenschaften auf eine Ontologie zuzuordnen und gleichzeitig die Anzahl der Synonyme zu verringern. Aufgrund der großen Vielfalt von Infoboxen und Eigenschaften, die bei Wikipedia verwendet werden, wurde der Prozess der Entwicklung und Verbesserung dieser Zuordnungen für öffentliche Beiträge geöffnet.[8]

Die Version 2014 wurde im September 2014 veröffentlicht.[9] Eine Hauptänderung seit früheren Versionen war die Art und Weise, wie abstrakte Texte extrahiert wurden. Insbesondere führte ein lokaler Spiegel von Wikipedia und abzurufen gerendertes Abstracts von IT -extrahierten Texten erheblich sauberer. Auch ein neuer Datensatz, der extrahiert wurde Wikimedia Commons wurde vorgestellt.

Ab Juni 2021 enthält Dbpedia über 850 Millionen Dreier.[10]

Beispiele

Dbpedia extrahiert sachliche Informationen von Wikipedia -Seiten, sodass Benutzer Antworten auf Fragen finden können, bei denen die Informationen auf mehrere Wikipedia -Artikel verteilt sind. Daten werden mit einem zugegriffen Sql-wie Abfragesprache zum RDF genannt Sparql.

Zum Beispiel, wenn man an der interessiert war japanisch Shōjo Manga Serie Tokyo Mew Mewund wollte die Genres anderer Werke finden, die von seinem Illustrator Mia Ikumi geschrieben wurden.

Dbpedia kombiniert Informationen aus Wikipedias Einträgen auf Tokyo Mew Mew, Mia Ikumi und auf Werken wie z. Super Doll licca-chan und Koi -Amor. Da dbpedia Informationen in eine einzelne Datenbank normalisiert Anfrage Kann gefragt werden, ohne genau zu wissen, welcher Eintrag jedes Informationsfragment trägt, und wird verwandte Genres auflistet:

PRÄFIX dbprop:  PRÄFIX db:  AUSWÄHLEN ?wer, ?ARBEIT, ?Genre WO {  db:Tokyo Mew Mew dbprop:Autor ?wer .  ?ARBEIT  dbprop:Autor ?wer .  OPTIONAL { ?ARBEIT dbprop:Genre ?Genre } . } 

Anwendungsfälle

Dbpedia hat einen breiten Umfang von Einheiten, die verschiedene Bereiche von abdecken menschliches Wissen. Dies macht es zu einem natürlichen Hub für die Verbindung von Datensätzen, in dem externe Datensätze mit seinen Konzepten verknüpft werden können.[11] Der dbpedia -Datensatz ist auf der RDF -Ebene mit verschiedenen anderen miteinander verbunden Daten öffnen Datensätze im Web. Auf diese Weise können Anwendungen dbpedia -Daten mit Daten aus diesen Datensätzen angereichert. Ab September 2013Es gibt mehr als 45 Millionen Verknüpfungen zwischen dbpedia und externen Datensätzen, einschließlich: Werfebasis, Opencyc, DOLDE, Geonamen, MusicBrainz, CIA World Fact Book, DBLP, Projekt Gutenberg, Dbtune Jamendo, Eurostat, UniProt, Bio2rdf, und US -Volkszählung Daten.[12][13] Das Thomson Reuters Initiative Opencalais, das verknüpfte offene Datenprojekt von Die New York Times, die Zemanta -API[14] und Dbpedia Spotlight Fügen Sie auch Links zu dbpedia hinzu.[15][16][17] Das BBC verwendet dbpedia, um seine Inhalte zu organisieren.[18][19] Faviki verwendet dbpedia zum semantischen Tagging.[20] Samsung schließt auch dbpedia in seine ein "Wissensaustauschplattform".

Eine so reichhaltige Quelle für strukturiertes Cross-Domänen-Wissen ist fruchtbarer Grund für Künstliche Intelligenz Systeme. Dbpedia wurde als eine der Wissensquellen in verwendet IBM Watson's Gefahr! Gewinnsystem[21]

Amazonas Bietet eine dbpedia Öffentlicher Datensatz das kann in integriert werden Amazon Web Services Anwendungen.[22]

Daten über Ersteller aus dbpedia können zur Anreicherung von Kunstwerken von Vertriebsbeobachtungen verwendet werden.[23]

Das Crowdsourcing Softwareunternehmen, Ushahidi, baute einen Prototyp seiner Software, die DBpedia nutzte, um semantische Anmerkungen zu Berichten von Bürger generiert zu werden. Der Prototyp hat den "Yodie" -Dienst (ein weiteres offenes Dateninformationsextraktionssystem) integriert[24] entwickelt von der Universität von Sheffield, was dbpedia verwendet, um die Anmerkungen durchzuführen. Das Ziel für Ushahidi war es, die Geschwindigkeit und die Einrichtung zu verbessern, mit der eingehende Berichte validiert werden konnten.[25]

Dbpedia Spotlight

DBPedia Spotlight ist ein Instrument zur Annotierung von DBpedia -Ressourcen im Text. Dies ermöglicht die Verknüpfung unstrukturierter Informationsquellen mit dem Verknüpfte offene Daten Wolke durch dbpedia. Dbpedia Spotlight spielt benannt Entitätsextraktion, einschließlich Entitätserkennung und Namensauflösung (Mit anderen Worten, Disambiguierung). Es kann auch für verwendet werden genannte Entitätserkennung, und andere Informationsextraktion Aufgaben. DBpedia Spotlight zielt darauf ab, für viele Anwendungsfälle anpassbar zu sein. Anstatt sich auf einige Entitätstypen zu konzentrieren, bemüht sich das Projekt, die Annotation aller 3.5 zu unterstützen Millionen Einheiten und Konzepte aus mehr als 320 Klassen in DBpedia. Das Projekt begann im Juni 2010 bei der webbasierten Systemgruppe der Free University of Berlin.

Dbpedia rampenlicht ist öffentlich als Internetservice zum Testen und a Java/Scala API lizenziert über die Apache -Lizenz. Die DBpedia -Spotlight -Verteilung enthält a JQuery Plugin, das es Entwicklern ermöglicht, Seiten überall im Web zu kommentieren, indem sie ihrer Seite eine Zeile hinzufügen.[26] Kunden sind auch in Java oder erhältlich Php.[27] Das Werkzeug behandelt verschiedene Sprachen über seine Demo -Seite[28] und Webdienste. Die Internationalisierung wird für jede Sprache mit einer Wikipedia -Ausgabe unterstützt.[29]

Archivo Ontology -Datenbank

Ab 2020 bietet das DBPedia -Projekt eine regelmäßig aktualisierte Datenbank von Web -zugänglichen Ontologien, die in der geschrieben wurden EULE Ontologiesprache.[30] Archivo bietet außerdem ein Vier -Sterne -Bewertungsschema für die von ihm kratzenden Ontologien, basierend auf Barrierefreiheit, Qualität und damit verbundenen Fitness -Verbrauchskriterien. Zum Beispiel, Shacl Die Einhaltung von draphbasierten Daten wird gegebenenfalls ausgewertet. Ontologien sollten auch Metadaten über ihre Merkmale enthalten und eine öffentliche Lizenz angeben, die ihre Begriffe der Verwendung beschreibt.[31][32] Ab Juni 2021 Die Archivo -Datenbank enthält 1368 Einträge.

Geschichte

Dbpedia wurde 2007 von Sören Auer, Christian Bizer, Georgi Kobilarov, initiiert, Jens Lehmann, Richard Cyganiak und Zachary Ives.[4]

Siehe auch

Verweise

  1. ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christus; Cyganiak, Richard; Hellmann, Sebastian (September 2009). "Dbpedia - Ein Kristallisationspunkt für das Datennetz" (PDF). Websemantik: Wissenschaft, Dienste und Agenten im World Wide Web. 7 (3): 154–165. Citeseerx 10.1.1.150.4898. doi:10.1016/j.websem.2009.07.002. ISSN 1570-8268. Archiviert von das Original (PDF) am 10. August 2017. Abgerufen 11. Dezember 2015.
  2. ^ "Komplett Verlinkt - Verbindete Daten" (auf Deutsch). 3sat. 19. Juni 2009. archiviert von das Original am 6. Januar 2013. Abgerufen 10. November 2009.
  3. ^ "Sir Tim Berners-Lee spricht mit Talis über das semantische Web". Talis. 7. Februar 2008. archiviert von das Original am 10. Mai 2013.
  4. ^ a b c Dbpedia: Ein Kern für ein Netz offener Daten, verfügbar um [1], [2], oder [3]
  5. ^ "Credits". Dbpedia. Archiviert von das Original am 21. September 2014. Abgerufen 9. September 2014.
  6. ^ "Heim".
  7. ^ a b "Ja! Wir haben es wieder gemacht;)-Neue Veröffentlichung von 2016-04 dbpedia". Dbpedia. 19. Oktober 2016. Abgerufen 9. Januar 2019.
  8. ^ "Dbpedia Mappings". Mappings.dbpedia.org. Abgerufen 3. April 2010.
  9. ^ "Änderungsprotokoll". Dbpedia. September 2014. Abgerufen 9. September 2014.
  10. ^ Holze, Julia (23. Juli 2021). "Ankündigung: dbpedia snapshot 2021-06 Release". DBPedia Association. Abgerufen 28. Juli 2021.
  11. ^ E. Curry, A. Freitas und S. O'riáin, "Die Rolle der Community-betriebenen Datenkuration für Unternehmen", " Archiviert 23. Januar 2012 bei der Wayback -Maschine Bei der Verknüpfung von Unternehmensdaten, D. Wood, hrsg. Boston, MA: Springer US, 2010, S. 25-47.
  12. ^ "Statistiken zu Links zwischen Datensätzen", SWEO -Community -Projekt: Verknüpfen offener Daten im semantischen Web, W3c, abgerufen 24. November 2009
  13. ^ "Statistiken zu Datensätzen", SWEO -Community -Projekt: Verknüpfen offener Daten im semantischen Web, W3c, abgerufen 24. November 2009
  14. ^ "Zemanta API". dev.zemanta.com. Abgerufen 26. Juli 2021.
  15. ^ Sandhaus, Evan; Larson, Rob (29. Oktober 2009). "Erste 5.000 Tags, die für die verknüpfte Datenwolke veröffentlicht wurden". Die New York Times Blogs. Abgerufen 10. November 2009.
  16. ^ "Leben in der verknüpften Datenwolke". opencalais.com. Archiviert von das Original am 24. November 2009. Abgerufen 10. November 2009. Wikipedia verfügt über einen verknüpften Daten -Zwilling namens Dbpedia. Dbpedia hat die gleichen strukturierten Informationen wie Wikipedia-aber in ein maschinenlesbares Format übersetzt.
  17. ^ "Zemanta Gespräche haben Daten mit SDK und kommerzieller API verknüpft". ZDNET. Archiviert von das Original am 28. Februar 2010. Abgerufen 10. November 2009. Zemanta unterstützt die Verknüpfung der offenen Dateninitiative. Es ist die erste API, die zu schwindelerregende Einheiten zurückgibt, die mit DBpedia, Freebase, MusicBrainz und Semantic Crunchbase verbunden sind.
  18. ^ "European Semantic Web Conference 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer und Robert Lee. Media trifft das semantische Web - wie die BBC DBPedia verwendet und Daten miteinander verbunden sind, um Verbindungen herzustellen". ESWC2009.org. Archiviert von das Original am 8. Juni 2009. Abgerufen 10. November 2009.
  19. ^ "BBC Learning - Open Lab - Referenz". BBC. Archiviert von das Original am 25. August 2009. Abgerufen 10. November 2009. Dbpedia ist eine Datenbankversion von Wikipedia. Es wird in vielen Projekten aus einer Vielzahl verschiedener Gründe verwendet. Bei der BBC verwenden wir es zum Markieren von Inhalten.
  20. ^ "Semantisches Tagging mit Faviki".ReadwriteWeb.com.Archiviert von das Original am 29. Januar 2010.
  21. ^ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer und Chris Welty "Bauen von Watson: Ein Überblick über das Deepqa -Projekt." Im AI Magazine Herbst 2010. Verein für die Weiterentwicklung künstlicher Intelligenz (AAAI).
  22. ^ "Amazon Web Services Developer Community: dbpedia". Entwickler.amazonwebservices.com. Archiviert von das Original am 13. Februar 2010. Abgerufen 10. November 2009.
  23. ^ Filipiak, Dominik; Filipowska, Agata (2. Dezember 2015). Dbpedia auf dem Kunstmarkt. Workshops für Geschäftsinformationssysteme. Bis 2015. Vorlesungen in der Verarbeitung von Geschäftsinformationen. Vol. 228. S. 321–331. doi:10.1007/978-3-319-26762-3_28. ISBN 978-3-319-26761-6.
  24. ^ "Gate.ac.uk - Anwendungen/yodie.html". Gate.ac.uk. Abgerufen 11. Mai 2020.
  25. ^ "Ushahidi/Plattformkomaten". GitHub. 30. Juni 2019. Abgerufen 9. März 2020.
  26. ^ Mendes, Pablo. "Dbpedia Spotlight JQuery Plugin". JQuery -Plugins. Abgerufen 15. September 2011.
  27. ^ Diciuccio, Rob (25. September 2016). "PHP -Client für dbpedia Spotlight". GitHub.
  28. ^ "Demo von Dbpedia Spotlight". Abgerufen 8. September 2013.
  29. ^ "Internationalisierung des DBpedia -Spotlight". GitHub. Abgerufen 8. September 2013.
  30. ^ "Dbpedia archivo". Abgerufen 8. Juli 2021.
  31. ^ Frey, Johannes;Streitmatter, Denis;Götz, Fabian;Hellmann, Sebastian;Arndt, Natanael (27. Oktober 2020)."Dbpedia Archivo: Eine Web-Skale-Schnittstelle für die Ontologie-Archivierung unter konsumentenorientierten Aspekten".In Sure Vetter, York;Sack, Harald;Cudré-Mauroux, Philippe;Maleshkova, Maria;Pellegrini, Tassilo;Acosta, Maribel (Hrsg.). Semantische Systeme: Die Kraft von KI und Wissensgraphen. Cham, Schweiz: Springer. doi:10.1007/978-3-030-59833-4_2. ISBN 978-3-030-59832-7. S2CID 219939266. Laden Sie als PDF oder EPUB herunter. open access
  32. ^ Frey, Johannes; Streitmatter, Denis; Götz, Fabian; Hellmann, Sebastian; Arndt, Natanael (10. September 2020). Dbpedia archivo: Eine Web-Skale-Schnittstelle für die Ontologie-Archivierung unter konsumentenorientierten Aspekten.Leipzig, Deutschland: Institut für Angewandte Informatik (Infai). Abgerufen 8. Juli 2021. YouTube Video 00:10:38.

Externe Links