Entitätsverknüpfung

Im Verarbeitung natürlicher Sprache, Entitätsverknüpfung, auch bezeichnet als Verknüpfung der benannten Inentität (Nel),[1] Disambiguation mit benannter Entfernung (NED), Anerkennung und Disambiguierung mit benannter Entfernung (Nerd) oder Normalisierung der benannten Entfernung (Nen)[2] ist die Aufgabe, Entitäten (wie berühmten Personen, Standorten oder Unternehmen), die im Text erwähnt wurden, eine einzigartige Identität zugewiesen. Zum Beispiel angegeben der Satz "Paris ist die Hauptstadt von Frankreich"Die Idee ist, das zu bestimmen "Paris" bezieht sich auf die Stadt von Paris und nicht zu Paris Hilton oder eine andere Einheit, die als als bezeichnet werden "Paris". Entitätsverknüpfung unterscheidet sich von Anerkennung der benannten Entfaltung (NER) In diesem NER identifiziert das Auftreten einer benannten Entität im Text, identifiziert jedoch nicht, welche spezifische Entität sie ist (siehe Unterschiede zu anderen Techniken).

Bei der Entitätsverknüpfung ist jede benannte Entität mit einer eindeutigen Kennung verknüpft. Oft entspricht diese Kennung einer Wikipedia -Seite.

Einführung

In der Entitätsverknüpfung werden Wörter von Interesse (Namen von Personen, Standorten und Unternehmen) von einem Eingabetxt zu entsprechenden eindeutigen Entitäten in einem Ziel abgebildet Wissensbasis. Wörter von Interesse werden genannt genannte Entitäten (NES), Erwähnungen oder Oberflächenformen. Die Zielwissensbasis hängt von der beabsichtigten Anwendung ab, aber für Entitätsverbinden von Systemen, die für den Open-Domain-Text arbeiten sollen Wikipedia (wie zum Beispiel Wikidata oder Dbpedia).[2][3] In diesem Fall wird jede einzelne Wikipedia -Seite als separate Einheit angesehen. Entitätsverknüpfungstechniken, die benannte Entitäten an Wikipedia -Unternehmen abbilden, werden ebenfalls aufgerufen Wikifikation.[4]

Den Beispielsatz erneut berücksichtigen "Paris ist die Hauptstadt von Frankreich"Die erwartete Ausgabe eines Entitätsverbindungssystems wird sein Paris und Frankreich. Diese Uniforme Ressourcenlokatoren (URLs) kann als einzigartig verwendet werden Einheitliche Ressourcenidentifikatoren (URIS) für die Entitäten in der Wissensbasis. Die Verwendung einer anderen Wissensbasis gibt unterschiedliche URIs zurück, aber für Wissensbasen, die ab Wikipedia aufgebaut sind, gibt es Einzel-zu-Eins-Uri-Zuordnungen.[5]

In den meisten Fällen werden Wissensbasen manuell gebaut,[6] aber in Anwendungen, wo groß Textkorpora sind verfügbar, die Wissensbasis kann automatisch aus dem abgeleitet werden Verfügbarer Text.[7]

Entity Linking ist ein kritischer Schritt, um Webdaten mit Wissensbasis zu überbrücken, was für die Annotierung der großen Menge an rohen und oft lauten Daten im Internet von Vorteil ist und zur Vision des beiträgt Semantisches Web.[8] Zusätzlich zur Verknüpfung der Entität gibt es andere kritische Schritte, einschließlich, aber nicht beschränkt auf die Ereignisentnahme,[9] und Ereignisverknüpfung[10] usw.

Anwendungen

Entitätsverknüpfung ist in Feldern von Vorteil, die abstrakte Darstellungen aus Text extrahieren müssen, wie es in der Textanalyse geschieht. Empfehlungssysteme, semantische Suche und Chatbots. In all diesen Bereichen werden Konzepte, die für die Anwendung relevant sind, von Text und anderen nicht zwangenden Daten getrennt.[11][12]

Zum Beispiel eine gemeinsame Aufgabe von ausgeführt von Suchmaschinen ist, Dokumente zu finden, die einer als Eingabe angegeben sind, oder zusätzliche Informationen zu den Personen zu finden, die darin erwähnt werden. Betrachten Sie einen Satz, der den Ausdruck enthält "Die Hauptstadt Frankreichs": Ohne Entitätsverknüpfung könnte die Suchmaschine, die sich mit dem Inhalt von Dokumenten befasst "Paris", was zu sogenannten führt Falsche Negative (Fn). Schlimmer noch, die Suchmaschine könnte falsche Spiele erzeugen (oder Fehlalarm (FP)), wie z. B. Abrufen von Dokumenten, die sich auf "Frankreich" als Land.

Viele Ansätze orthogonal zur Entitätsverbindung gibt es, um Dokumente ähnlich wie ein Eingabedokument abzurufen. Zum Beispiel, Latente semantische Analyse (LSA) oder Vergleich von Dokumenteinbettungen mit erhaltenen mitdoc2Vec. Diese Techniken ermöglichen jedoch nicht die gleiche feinkörnige Kontrolle, die von der Entitätsverbindung angeboten wird, da sie andere Dokumente zurückgeben, anstatt Darstellungen des ursprünglichen Jahres auf hoher Ebene zu erstellen. Zum Beispiel schematische Informationen zu erhalten "Paris", wie von Wikipedia präsentiert Infoboxe wäre viel weniger unkompliziert oder manchmal sogar unmittelbar, abhängig von der Komplexität der Abfrage.[13]

Darüber hinaus wurde eine Entitätsverbindung verwendet, um die Leistung von zu verbessern Informationsrückgewinnung Systeme[2] und um die Suchleistung in digitalen Bibliotheken zu verbessern.[14] Entitätsverknüpfung ist auch eine Schlüsseleingabe für Semantische Suche.[15]

Herausforderungen in der Entitätsverbindung

Ein Unternehmensverbindungssystem muss sich mit einer Reihe von Herausforderungen befassen, bevor sie in realen Anwendungen spielt. Einige dieser Probleme sind für die Aufgabe der Entitätsverbindung intellozial[16] wie die Mehrdeutigkeit von Text, während andere, wie die Skalierbarkeit und Ausführungszeit, relevant werden, wenn sie die Verwendung solcher Systeme in der realen Lebensdauer berücksichtigen.

  • Namensvariationen: Die gleiche Entität kann mit textuellen Darstellungen erscheinen. Quellen dieser Variationen umfassen Abkürzungen (New York, NY), Aliase (New York, Big Apple) oder Rechtschreibvariationen und Fehler (New Yokr).
  • Mehrdeutigkeit: Die gleiche Erwähnung kann oft auf viele verschiedene Entitäten beziehen, abhängig vom Kontext, da viele Entitätsnamen eher sind polysem (d. h. haben mehrere Bedeutungen). Das Wort Parisunter anderem könnte sich auf die beziehen Französische Hauptstadt oder zu Paris Hilton. In einigen Fällen (wie in die Hauptstadt Frankreichs), es gibt keine textuelle Ähnlichkeit zwischen dem Erwähnungstext und der tatsächlichen Zieleinheit (Paris).
  • Abwesenheit: Manchmal haben einige benannte Entitäten möglicherweise keine korrekte Entitätsverbindung in der Zielwissenbasis. Dies kann beim Umgang mit sehr spezifischen oder ungewöhnlichen Einheiten oder bei der Verarbeitung von Dokumenten über jüngste Ereignisse geschehen, bei denen möglicherweise erwähnt werden, dass Personen oder Ereignisse, die noch keine entsprechende Einheit in der Wissensbasis haben, erwähnt werden. Eine weitere häufige Situation, in der es fehlende Entitäten gibt, ist die Verwendung domänenspezifischer Wissensbasis (z. B. eine biologische Wissensbasis oder eine Filmdatenbank). In all diesen Fällen sollte das Entitätsverknüpfungssystem a zurückgeben NULL Entitätslink. Verstehen, wann eine zurückgegeben werden muss NULL Die Vorhersage ist nicht einfach, und es wurden viele verschiedene Ansätze vorgeschlagen. Zum Beispiel durch Schwellenwert eine Art Vertrauensbewertung in der Entitätsverbindungssystem oder durch Hinzufügen eines zusätzlichen NULL Einheit der Wissensbasis, die auf die gleiche Weise wie die anderen Einheiten behandelt wird. Darüber hinaus ist in einigen Fällen aus der Perspektive eines Endbenutzers in einigen Fällen eine falsche, aber verwandte Entitätsverbindungsvorhersage besser als kein Ergebnis.[16]
  • Skalierbarkeit und Geschwindigkeit: Es ist wünschenswert für eine industrielle Einheit, die das Verknüpfungssystem in einer angemessenen Zeit und häufig in Echtzeit liefert. Diese Anforderung ist für Suchmaschinen, Chat-Bots und für Unternehmen, die von Datenanalytikplattformen angeboten werden, von entscheidender Bedeutung. Die Gewährleistung einer geringen Ausführungszeit kann bei der Verwendung großer Wissensbasen oder bei der Verarbeitung großer Dokumente eine Herausforderung sein.[17] Zum Beispiel enthält Wikipedia fast 9 Millionen Einheiten und mehr als 170 Millionen Beziehungen zwischen ihnen.
  • Informationen entwickeln: Ein Entitätsverknüpfungssystem sollte sich auch mit sich entwickelnden Informationen befassen und Updates einfach in die Wissensbasis integrieren. Das Problem der Entwicklung von Informationen hängt manchmal mit dem Problem fehlender Einheiten zusammen, beispielsweise bei der Verarbeitung neuerer Nachrichtenartikel, in denen es Erwähnungen von Ereignissen gibt, die aufgrund ihrer Neuheit keinen entsprechenden Eintrag in die Wissensbasis haben.[18]
  • Mehrere Sprachen: Ein Entitätsverbindungssystem kann möglicherweise Abfragen unterstützen, die in mehreren Sprachen durchgeführt werden. Im Idealfall sollte die Genauigkeit des Entitätsverbindungssystems nicht von der Eingabestrach beeinflusst werden, und die Entitäten in der Wissensbasis sollten in verschiedenen Sprachen gleich sein.[19]

Unterschiede zu anderen Techniken

Entitätsverknüpfung wird auch als Deiern (NED) als benannte Entsetzt (NED) bezeichnet und ist tief mit der Wikifikation verbunden und Aufzeichnungsverknüpfung.[20] Definitionen sind oft verschwommen und variieren bei verschiedenen Autoren geringfügig: Alhelbawy et al.[21] Betrachten Sie die Entität als eine breitere Version von NED, da NED davon ausgehen sollte, dass die Entität, die eine bestimmte Textus -Entitäts -Erwähnung korrekt übereinstimmt, in der Wissensbasis liegt. In der Referenzwissensbasis ist möglicherweise keine Einträge für das benannte Unternehmen verfügbar. Andere Autoren machen keine solche Unterscheidung und verwenden die beiden Namen austauschbar.[22][23]

  • Wikification ist die Aufgabe, Textuser Erwähnungen in Wikipedia zu verknüpfen (im Allgemeinen die Begrenzung des Rahmens auf die englische Wikipedia im Falle einer interlingualen Wikifikation).
  • Aufzeichnungsverknüpfung (RL) gilt als ein breiteres Feld als eine Entitätsverbindung und besteht darin, Aufzeichnungen über mehrere und häufig heterogene Daten zu finden, die sich auf dieselbe Entität beziehen.[14] Record Linkage ist eine Schlüsselkomponente zum Digitalisieren von Archiven und zum Beitritt zu mehreren Wissensbasen.[14]
  • Anerkennung der benannten Entfaltung Laut und klassifiziert benannte Entitäten in unstrukturiertem Text in vordefinierte Kategorien wie Namen, Organisationen, Standorte und mehr. Zum Beispiel der folgende Satz:

Paris ist die Hauptstadt von Frankreich.

würde von einem NER -System verarbeitet, um die folgende Ausgabe zu erhalten:

[Paris]Stadt ist die Hauptstadt von [Frankreich]Land.

Die Erkennung der benannten Inentalität ist normalerweise ein Vorverarbeitungsschritt eines Unternehmensverbindungssystems, da es nützlich sein kann, im Voraus zu wissen, welche Wörter mit Entitäten der Wissensbasis verbunden werden sollten.
  • Korreferenzauflösung versteht, ob mehrere Wörter in einem Text auf dieselbe Entität beziehen. Es kann zum Beispiel nützlich sein, das Wort ein Pronomen zu verstehen. Betrachten Sie das folgende Beispiel:

Paris ist die Hauptstadt von Frankreich. Es ist auch die größte Stadt in Frankreich.

In diesem Beispiel würde ein Algorithmus zur Korreferenzauflösung identifizieren, dass das Pronomen Es bezieht sich auf Paris, und nicht zu Frankreich oder zu einer anderen Entität. Eine bemerkenswerte Unterscheidung im Vergleich zur Entitätsverknüpfung ist, dass die Koreferenzauflösung den Wörtern, die sie entsprechen, keine eindeutige Identität zuweist, aber einfach heißt es, ob sie sich auf dieselbe Entität beziehen oder nicht. In diesem Sinne könnten Vorhersagen eines Systems zur Korreferenzauflösung für eine nachfolgende Entitätskomponente nützlich sein.

Ansätze zur Entitätsverknüpfung

Die Entitätsverknüpfung war seit zehn Jahren ein heißes Thema in Industrie und Wissenschaft. Bis heute bestehende Herausforderungen sind immer noch ungelöst, und es wurden viele Entitätsverbinden von Systemen mit sehr unterschiedlichen Stärken und Schwächen vorgeschlagen.[24]

Im Großen und Ganzen können moderne Entitätsverknüpfungssysteme in zwei Kategorien unterteilt werden:

Oft können Entitätsverknüpfungssysteme in beiden Kategorien nicht strikt kategorisiert werden. Sie verwenden jedoch Wissensgrafiken, die mit zusätzlichen Textmerkmalen angereichert wurden, beispielsweise aus den Textkorpora, die zum Aufbau der Wissensgrafiken selbst verwendet wurden.[22][23]

Darstellung der Hauptschritte in einer Entität, die Algorithmus verknüpft. Die meisten Entitätsverknüpfungsalgorithmen bestehen aus einem anfänglichen Erkennungsschritt mit der benannten Entfaltung, in dem benannte Entitäten im Originaltext (hier, Paris und Frankreich) gefunden werden, und mit einem nachfolgenden Schritt, in dem jede benannte Entität mit seiner entsprechenden eindeutigen Bezeichnung (einzigartige Bezeichnung ( Hier eine Wikipedia -Seite). Dieser letzte Schritt wird häufig durchgeführt, indem ein kleiner Satz von Kandidatenkennungen für jedes benannte Unternehmen erstellt und den vielversprechendsten Kandidaten in Bezug auf eine gewählte Metrik ausgewählt wird.

Textbasierte Entitätsverbindung

Die wegweisende Arbeit von Cucerzan im Jahr 2007 schlug eines der ersten Entitäten vor, die in der Literatur erschienen und die Aufgabe der Wikifikation in Angriff nahm, wobei Textuelle Erwähnungen mit Wikipedia -Seiten verknüpft wurden.[25] Dieses System partitiert Seiten als Entität, Disambiguierung oder Listenseiten, mit denen jeder Entität Kategorien zugewiesen wird. Die auf jeder Entitätsseite vorhandene Entitäten wird verwendet, um den Kontext der Entität zu erstellen. Die endgültige Entitätsverknüpfungsschritt ist eine kollektive Disambiguierung, die durch Vergleich von binären Vektoren aus handgefertigten Merkmalen und aus dem Kontext jeder Entität durchgeführt wird. Das Cucerzan -Entitätsverknüpfungssystem wird für viele aktuelle Arbeiten weiterhin als Grundlinie verwendet.[27]

Die Arbeit von Rao et al. ist ein bekanntes Papier auf dem Gebiet der Entitätsverbindung.[16] Die Autoren schlagen einen zweistufigen Algorithmus vor, mit dem benannte Entitäten mit Entitäten in einer Zielwissenbasis verknüpft werden können. Zunächst wird eine Reihe von Kandidateneinheiten unter Verwendung von String -Matching, Akronymen und bekannten Aliase ausgewählt. Dann wird die beste Verbindung zwischen den Kandidaten mit einer Rangliste ausgewählt Vektormaschine unterstützen (SVM), das sprachliche Merkmale verwendet.

Jüngste Systeme wie die von Tsai et al.,[20] beschäftigen Worteinbettungen mit a erhalten Gramm überspringen Modell als Sprachmerkmale und kann auf jede Sprache angewendet werden, solange ein großer Korpus zum Erstellen von Worteinbettungen bereitgestellt wird. Ähnlich wie bei den meisten Entitätsverknüpfungssystemen erfolgt die Verknüpfung in zwei Schritten mit einer anfänglichen Auswahl der Kandidatenentitäten und einem linearen Ranking -SVM als zweiter Schritt.

Verschiedene Ansätze wurden versucht, das Problem der Unklarheit der Entität anzugehen. Im wegweisenden Ansatz von Milne und Witten, überwachtes Lernen wird mit dem verwendet Ankertexte von Wikipedia -Entitäten als Trainingsdaten.[28] Andere Ansätze sammelten auch Trainingsdaten basierend auf eindeutigen Synonymen.[29]

Graph-basierte Entitätsverknüpfung

Moderne Entity -Verknüpfungssysteme beschränken ihre Analyse nicht auf Textmerkmale, die aus Eingabedokumenten oder Textkorpora generiert werden, sondern Large einsetzen Wissensgrafiken aus Wissensbasen wie Wikipedia geschaffen. Diese Systeme extrahieren komplexe Merkmale, die die Knowledge-Graph-Topologie nutzen oder mehrstufige Verbindungen zwischen Entitäten nutzen, die durch einfache Textanalyse verborgen würden. Darüber hinaus erstellen Sie mehrsprachige Entitätsverbinden von Systemen basierend auf Verarbeitung natürlicher Sprache (NLP) ist von Natur aus schwierig, da entweder große Textkorpora erforderlich sind, häufig für viele Sprachen oder handgefertigte Grammatikregeln, die in den Sprachen sehr unterschiedlich sind. Han et al. Schlagen Sie die Schaffung eines Disambigierungsdiagramms vor (ein Untergraphen der Wissensbasis, die Kandidateneinheiten enthält).[3] Dieses Diagramm wird für ein rein kollektives Ranking -Verfahren verwendet, bei dem der beste Kandidatenverbindungslink für jede Textverwendung findet.

Ein weiterer berühmter Ansatz für die Verknüpfung von Entity -Verknüpfungen ist AIDA, das eine Reihe komplexer Graph -Algorithmen verwendet, und ein gieriger Algorithmus, der kohärente Erwähnungen auf einem dichten Untergraphen identifiziert, indem auch Kontext -Ähnlichkeiten und Scheitelpunkte Wichtigkeitsfunktionen zur Durchführung einer kollektiven Disambiguation berücksichtigt werden.[26]

Graph -Ranking (oder Vertex -Ranking) bezeichnet Algorithmen wie z. Seitenrang (Pr) und Hyperlink-induzierte Themensuche (Hits), mit dem Ziel, jedem Scheitelpunkt eine Punktzahl zuzuweisen, die seine relative Bedeutung im Gesamtdiagramm darstellt. Das in Alhelbawy et al. Beschäftigt PageRank, um eine kollektive Einheit durchzuführen, die mit einem Disambigierungsdiagramm verknüpft ist, und um zu verstehen, welche Unternehmen stärker miteinander verwandt sind und eine bessere Verknüpfung darstellen würden.[21]

Mathematische Entitätsverbindung

Mathematische Ausdrücke (Symbole und Formeln) können mit semantischen Entitäten verbunden werden (z. B.,, Wikipedia Artikel[30] oder Wikidata Artikel[31]) mit ihrer natürlichen Sprache gekennzeichnet. Dies ist für die Disambiguierung von wesentlicher Bedeutung, da Symbole unterschiedliche Bedeutungen haben können (z. B. "E" kann "Energie" oder "Erwartungswert" usw. sein).[32][31] Die Mathematikeinheit Verknüpfungsprozess kann durch Annotationsempfehlung erleichtert und beschleunigt werden, z. B. unter Verwendung des von Wikimedia gehosteten "Annomathtex" -Systems.[33][34][35]

Um die Reproduzierbarkeit mathematischer Entitätsverbinden (Mathel) Experimente zu erleichtern, wurde der Benchmark -Mathmlben erstellt.[36][37] Es enthält Formeln aus Wikipedia, der Arxiv und der NIST Digital Library of Mathematical Functions (DLMF). Formeln Einträge im Benchmark werden von bezeichnet und erweitert von Wikidata Markup.[31] Darüber hinaus für zwei große Korpora aus dem Arxiv[38] und Zbmath[39] Repository -Verteilungen der mathematischen Notation wurden untersucht. Mathematische Objekte von Interesse (MOI) werden als potenzielle Kandidaten für Mathel identifiziert.[40]

Neben der Verknüpfung mit Wikipedia, Schubotze[37] und Scharpf et al.[31] Beschreiben Sie die Verknüpfung mathematischer Formelinhalte mit Wikidata, beide in Mathml und Latex Markup. Um klassische Zitate durch mathematische Erweiterung zu erweitern, fordern sie eine Formelkonzeptentdeckung (FCD) und Formelkonzepterkennung (FCR), um automatisierte Mathel auszuarbeiten. Ihr FCD -Ansatz liefert einen Rückruf von 68% zum Abrufen von äquivalenten Darstellungen häufiger Formeln und 72% zum Extrahieren des Formelnamens aus dem umgebenden Text auf dem NTCIR[41] Arxiv -Datensatz.[35]

Siehe auch

Verweise

  1. ^ Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013-01-01). "Künstliche Intelligenz, Wikipedia und semi-strukturierte ressourcenvaluierende Entität, die sich mit Wikipedia verbindet". Künstliche Intelligenz. 194: 130–150. doi:10.1016/j.artint.2012.04.005.
  2. ^ a b c M. A. Khalid, V. Jijkoun und M. de Rijke (2008). Die Auswirkungen der genannten Entitätnormalisierung auf das Abrufen von Informationen zur Beantwortung der Frage. Proc. Ecir.
  3. ^ a b c Han, Xianpei; Sonne, le; Zhao, Jun (2011). "Kollektive Entität Verknüpfung im Webtext: Eine graphbasierte Methode". Proceedings der 34. International ACM Sigir -Konferenz über Forschung und Entwicklung im Informationsabruf. ACM: 765–774. doi:10.1145/2009916.2010019. ISBN 9781450307574. S2CID 14428938.
  4. ^ Rada Mihalcea und Andras Csomai (2007)Wikify! Verknüpfung von Dokumenten mit enzyklopädischem Wissen. Proc. Cikm.
  5. ^ "Wikipedia Links".
  6. ^ Wikidata
  7. ^ Aaron M. Cohen (2005). Unüberwachte Gen/Protein -Normalisierung der Entität mithilfe automatisch extrahierter Wörterbücher. Proc. ACL-Ismb Workshop zur Verknüpfung biologischer Literatur, Ontologien und Datenbanken: Bergbau biologischer Semantik, S. 17–24.
  8. ^ Shen W., Wang J., Han J. Entity, die sich mit einer Wissensbasis verbindet: Themen, Techniken und Lösungen [J]. IEEE-Transaktionen zu Wissens- und Datentechnik, 2014, 27 (2): 443-460.
  9. ^ Chang Y C, Chu C H, Su Y C, et al. Rohr: Ein Protein -Protein -Wechselwirkungs -Durchgangs -Extraktionsmodul für eine biokreative Herausforderung [J]. Datenbank, 2016, 2016.
  10. ^ Lou P., Jimeno Yepes A, Zhang Z, et al. Bionorm: Deep Learning-basierte Ereignisnormalisierung für die Kuration von Reaktionsdatenbanken [j]. Bioinformatik, 2020, 36 (2): 611-620.
  11. ^ Slawski, Bill (16. September 2015). "Wie Google mit dem Namen der Entität für Entitäten mit den gleichen Namen benutzt".
  12. ^ Zhou, Ming; LV, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). "Entität verlinkt nach Abfragen durch Durchsuchen von Wikipedia -Sätzen". Verfahren der Konferenz 2017 über empirische Methoden in der Verarbeitung natürlicher Sprache. S. 68–77. Arxiv:1704.02788. doi:10.18653/v1/d17-1007. S2CID 1125678.
  13. ^ Le, Quoc; Mikolov, Tomas (2014). "Verteilte Darstellungen von Sätzen und Dokumenten". Proceedings der 31. Internationalen Konferenz zur internationalen Konferenz über maschinelles Lernen - Band 32. JMLR.org: II - 1188 - II - 1196. Arxiv:1405.4053.
  14. ^ a b c Hui Han, Hongyuan Zha, C. Lee Giles, "Name Disambiguation in Autorzitationen unter Verwendung einer K-Way-Spektral-Clustering-Methode", ACM/IEEE Joint Conference über digitale Bibliotheken 2005 (JCDL 2005): 334-343, 2005
  15. ^ Stics
  16. ^ a b c d Rao, Delip; McNamee, Paul; Dredze, Mark (2013). "Entitätsverknüpfung: Finden extrahierter Entitäten in einer Wissensbasis". Multi-Source, mehrsprachige Informationsextraktion und Zusammenfassung. Theorie und Anwendungen der Verarbeitung natürlicher Sprache. Springer Berlin Heidelberg: 93–115. doi:10.1007/978-3-642-28569-1_5. ISBN 978-3-642-28568-4.
  17. ^ Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B.; Santambrogio, Marco D. (2019). "Schnelle und genaue Entität, die über die Einbettung von Diagramme verknüpft ist". Proceedings des 2. Joint International Workshop zu Graph Data Management Experiences & Systems (Grade) und Netzwerkdatenanalyse (NDA). ACM: 10: 1–10: 9. doi:10.1145/3327964.3328499. HDL:11311/1119019. ISBN 9781450367899. S2CID 195357229.
  18. ^ Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). "Entdeckung aufstrebender Einheiten mit mehrdeutigen Namen". Proceedings der 23. Internationalen Konferenz über World Wide Web. ACM: 385–396. doi:10.1145/2566486.2568003. ISBN 9781450327442. S2CID 7562986.
  19. ^ Doermann, David S.; Oard, Douglas W.; Lawrie, Dawn J.; Mayfield, James; McNamee, Paul (2011). "Cross-Language-Entität Verknüpfung". S2CID 3801685. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  20. ^ a b Tsai, Chen-Tse; Roth, Dan (2016). "Kreuzsprachige Wikifikation mit mehrsprachigen Einbettungen". Verfahren der Konferenz 2016 des nordamerikanischen Kapitels der Vereinigung für Computer -Linguistik: Human Language Technologies. Vol. Proceedings of Naacl-HLT 2016. S. 589–598. doi:10.18653/v1/n16-1072. S2CID 15156124.
  21. ^ a b Alhelbawy, Ayman; Gaizauskas, Robert (August 2014). "Collective Named Entity Disambiguation unter Verwendung von Graph -Ranking und Clique -Partitionierungsansätzen". Proceedings of Coling 2014, die 25. Internationale Konferenz über Computerlinguistik: Technische Papiere (Dublin City University und Association for Computational Linguistics): 1544–1555. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  22. ^ a b Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). "Robustes und kollektives Unternehmen Disambiguation durch semantische Einbettungen". Proceedings der 39. International ACM Sigir -Konferenz über Forschung und Entwicklung im Informationsabruf. ACM: 425–434. doi:10.1145/2911451.2911535. ISBN 9781450340694. S2CID 207237647.
  23. ^ a b Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). "Bewertung der Entität, die mit Wikipedia verknüpft ist". Artef. Intelligkeit. 194: 130–150. doi:10.1016/j.artint.2012.04.005. ISSN 0004-3702.
  24. ^ Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). "Überblick über die TAC-KBP2015 Tri-Lingual Entity Discovery und Verknüpfung". TAC.
  25. ^ a b Cucerzan, Silviu (Juni 2007). "Groß angelegte Entitäts-Disambiguation auf der Grundlage von Wikipedia-Daten". Proceedings der gemeinsamen Konferenz von 2007 über empirische Methoden in der Verarbeitung natürlicher Sprache und des Lernens der natürlichen Sprache (EMNLP-Conll): 708–716. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  26. ^ a b Weikum, Gerhard; Thiser, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). "Robuste Disambiguierung benannter Entitäten im Text". Verfahren der Konferenz 2011 über empirische Methoden in der Verarbeitung natürlicher Sprache: 782–792.
  27. ^ Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soulemen (2009). Kollektive Annotation von Wikipedia -Entitäten im Webtext. Proc. 15. ACM Sigkdd Int'l Conf. über Wissenserfassung und Data Mining (KDD). doi:10.1145/1557019.1557073. ISBN 9781605584959.
  28. ^ David Milne und Ian H. Witten (2008). Lernen, mit Wikipedia zu verknüpfen. Proc. Cikm.
  29. ^ Zhang, Wei; Jian Su; Chew Lim Tan (2010). "Entitätsverbinden automatisch generierte Annotation". Proceedings der 23. Internationalen Konferenz über Computerlinguistik (Coling 2010).
  30. ^ Giovanni Yoko Kristianto; Goran -Thema; Akiko Aizawa; et al. (2016). "Entität, die für mathematische Ausdrücke in wissenschaftlichen Dokumenten verlinkt". Internationale Konferenz über asiatische digitale Bibliotheken. Vorlesungsnotizen in Informatik. Springer. 10075: 144–149. doi:10.1007/978-3-319-49304-6_18. ISBN 978-3-319-49303-9.
  31. ^ a b c d Philipp Scharpf; Moritz Schubotz; et al. (2018). Darstellung mathematischer Formeln in Content Mathml mit Wikidata darstellen. ACM SIGIR -Konferenz über Forschung und Entwicklung im Informationsabruf (Sigir 2018).
  32. ^ Moritz Schubotz; Philipp Scharpf; et al. (2018). "Einführung in Mathqa: Ein mathematisches Fragenbeantwortungssystem". Informationsbedeckung und Lieferung. Emerald Publishing Limited. 46 (4): 214–224. Arxiv:1907.01642. doi:10.1108/IDD-06-2018-0022. S2CID 49484035.
  33. ^ "Annomathtex -Formel/Identifikator Annotation Empfehlungssystem".
  34. ^ Philipp Scharpf; Ian Mackerracher; et al. (17. September 2019). "Annomathtex: Ein Annotationssystem für Annotationen für die Formel für STEM -Dokumente" (PDF). Verfahren der 13. ACM -Konferenz über Empfehlungssysteme (Recsys 2019): 532–533. doi:10.1145/3298689.3347042. ISBN 9781450362436. S2CID 202639987.
  35. ^ a b Philipp Scharpf; Moritz Schubotz; Bela Gipp (14. April 2021). "Schnelle Verknüpfung mathematischer Wikidata -Entitäten in Wikipedia -Artikeln unter Verwendung einer Annotationsempfehlung" (PDF). Begleitverfahren der Webkonferenz 2021 (WWW '21 Companion): 602–609. Arxiv:2104.05111. doi:10.1145/3442442.3452348. ISBN 9781450383134. S2CID 233210264.
  36. ^ "Mathmlben Formel Benchmark".
  37. ^ a b Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). "Verbesserung der Darstellung und Umwandlung mathematischer Formeln durch Betrachtung ihres textlichen Kontextes" (PDF). 18. ACM/IEEE auf der gemeinsamen Konferenz über digitale Bibliotheken 2018. 39 (3): 233–242. Arxiv:1804.04956. doi:10.1145/3197026.3197058. ISBN 9781450351782. PMC 8474120. PMID 34584342. S2CID 4872257.
  38. ^ "Arxiv Preprint -Repository".
  39. ^ "ZBMath Mathematical Document Library".
  40. ^ André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breiter; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). "Entdeckung mathematischer Objekte von Interesse - eine Studie mathematischer Notationen" (PDF). Verfahren der Webkonferenz 2020 (www '20): 1445–1456. Arxiv:2002.02712. doi:10.1145/3366423.3380218. ISBN 9781450370233. S2CID 211066554.
  41. ^ Akiko Aizawa; Michael Kohlhase; Iadh ounis; Moritz Schubotz. "NTCIR-11 Math-2-Aufgabeübersicht". Verfahren der 11. NTCIR -Konferenz zur Bewertung von Informationszugriffstechnologien.