Semantische Ähnlichkeit

Semantische Ähnlichkeit ist ein metrisch definiert über eine Reihe von Dokumenten oder Begriffen, bei denen die Idee der Entfernung zwischen den Elementen auf der Ähnlichkeit ihrer Bedeutung basiert oder semantischer Inhalt im Gegensatz zu lexikografisch Ähnlichkeit. Dies sind mathematische Instrumente, mit denen die Stärke der semantischen Beziehung zwischen Spracheinheiten, Konzepten oder Instanzen durch eine numerische Beschreibung nach dem Vergleich von Informationen, die ihre Bedeutung unterstützen oder ihre Natur beschreiben, durch eine numerische Beschreibung abschätzen.[1][2] Der Begriff semantischer Ähnlichkeit wird oft mit semantischer Verwandtschaft verwechselt. Semantische Verwandtschaft Enthält eine Beziehung zwischen zwei Begriffen, während die semantische Ähnlichkeit nur "eine" Beziehungen umfasst.[3] Zum Beispiel ähnelt "Auto" "Bus", aber auch mit "Straße" und "Fahren" zusammen.

Berechnend kann semantische Ähnlichkeit durch Definition a geschätzt werden topologisch Ähnlichkeit durch Verwendung Ontologien Um den Abstand zwischen Begriffen/Konzepten zu definieren. Zum Beispiel eine naive Metrik für den Vergleich von Konzepten, die in a geordnet sind teilweise bestelltes Set und als Knoten von a dargestellt Regie acyclische Graphen (z. B. a Taxonomie), wäre der kürzeste Weg, der die beiden Konzeptknoten verbindet. Basierend auf Textanalysen kann die semantische Verwandtschaft zwischen Spracheinheiten (z. B. Wörter, Sätze) auch unter Verwendung statistischer Mittel wie a geschätzt werden Vektorraummodell zu zueinander in Beziehung stehen Wörter und Textkontexte von einem geeigneten Textkorpus. Die Bewertung der vorgeschlagenen semantischen Ähnlichkeits- / Verwandtschaftsmaßnahmen werden auf zwei Hauptmethoden bewertet. Ersteres basiert auf der Verwendung von Datensätzen, die von Experten entworfen wurden und aus Wortpaaren mit semantischer Abschluss nach Ähnlichkeit / Verwandtschaftsabschluss bestehen. Der zweite Weg basiert auf der Integration der Maßnahmen in bestimmte Anwendungen wie Informationsabruf, Empfehlungssysteme, natürliche Sprachverarbeitung usw.

Terminologie

Das Konzept von Semantische Ähnlichkeit ist spezifischer als Semantische Verwandtschaft, wie letztere enthält Konzepte als Antonymie und Meronymie, während Ähnlichkeit nicht tut.[4] Ein Großteil der Literatur verwendet diese Begriffe jedoch austauschbar sowie mit Semantikstrecken. Im Wesentlichen bedeuten semantische Ähnlichkeit, semantische Entfernung und semantische Verwandtschaft: "Wie viel hat Begriff A mit Begriff B zu tun?" Die Antwort auf diese Frage lautet normalerweise eine Zahl zwischen -1 und 1 oder zwischen 0 und 1, wobei 1 extrem hohe Ähnlichkeit bedeutet.

Visualisierung

Eine intuitive Methode zur Visualisierung der semantischen Ähnlichkeit von Begriffen besteht darin, Begriffe zu gruppieren, die eng verwandt sind und die von denjenigen, die weitläufig verwandt sind, eng miteinander verbunden sind. Dies ist auch in der Praxis üblich für Gedächniskarten und Konzeptkarten.

Ein direkterer Weg zur Visualisierung der semantischen Ähnlichkeit zweier sprachlicher Elemente ist mit dem zu sehen Semantische Faltung sich nähern. In diesem Ansatz kann ein sprachlicher Element wie ein Begriff oder ein Text durch Generieren a dargestellt werden Pixel Für jedes seiner aktiven semantischen Merkmale in z. Ein 128 x 128 Gitter. Dies ermöglicht einen direkten visuellen Vergleich der Semantik zweier Elemente durch Vergleich von Bilddarstellungen ihrer jeweiligen Merkmalssätze.

Anwendungen

In biomedizinischen Informatik

Semantische Ähnlichkeitsmaßnahmen wurden in biomedizinischen Ontologien angewendet und entwickelt.[5][6] Sie werden hauptsächlich zum Vergleichen verwendet Gene und Proteine Basierend auf der Ähnlichkeit ihrer Funktionen[7] eher als auf ihrem Sequenzähnlichkeit, aber sie werden auch auf andere Bioentitäten wie Krankheiten ausgedehnt.[8]

Diese Vergleiche können mit Tools durchgeführt werden, die im Web frei verfügbar sind:

  • Proteinon kann verwendet werden, um interagierende Proteine ​​zu finden, zugewiesene GO -Begriffe zu finden und die funktionelle semantische Ähnlichkeit von zu berechnen UniProt Proteine ​​und um den Informationsgehalt zu erhalten und die funktionale semantische Ähnlichkeit von GO -Begriffen zu berechnen.[9]
  • CMPSIM liefert ein funktionelles Ähnlichkeitsmaß zwischen chemischen Verbindungen und Stoffwechselwegen unter Verwendung Chebi basierte semantische Ähnlichkeitsmaßnahmen.[10]
  • CESSM bietet ein Werkzeug für die automatisierte Bewertung von GO-basierten semantischen Ähnlichkeitsmaßnahmen.[11]

In Geoinformatik

Ähnlichkeit wird auch in angewendet Geoinformatik ähnlich zu finden geografische Merkmale oder Funktionstypen:[12]

  • SIM-DL-Ähnlichkeitsserver[13] Kann verwendet werden, um Ähnlichkeiten zwischen Konzepten zu berechnen, die in Ontologien des geografischen Feature -Typs gespeichert sind.
  • Der Ähnlichkeitsrechner kann verwendet werden, um zu berechnen, wie gut verwandte zwei geografische Konzepte in der Geo-Net-PT-Ontologie sind.[14][15]
  • Das OSM Semantisches Netzwerk kann verwendet werden, um die semantische Ähnlichkeit von Tags in zu berechnen OpenStreetmap.[16]

In der Computersprachlingistik

Mehrere Metriken verwenden Wordnet, eine manuell konstruierte lexikalische Datenbank englischer Wörter. Trotz der Vorteile einer menschlichen Überwachung bei der Konstruktion der Datenbank, da die Wörter nicht automatisch erfahren werden, kann die Datenbank die Verwandtschaft nicht zwischen dem Multi-Word-Term, dem nicht-inkrementellen Vokabular, messen.[4][17]

In der natürlichen Sprachverarbeitung

Verarbeitung natürlicher Sprache (NLP) ist ein Bereich der Informatik und Linguistik. Stimmungsanalyse, natürliches Sprachverständnis und maschinelle Übersetzung (automatisch Text von einer menschlichen Sprache in eine andere übersetzen) sind einige der Hauptbereiche, in denen sie verwendet werden. Wenn Sie beispielsweise eine Informationsressource im Internet kennen, ist es häufig von unmittelbarem Interesse, ähnliche Ressourcen zu finden. Das Semantisches Web Bietet semantische Erweiterungen, um ähnliche Daten nach Inhalten und nicht nur durch willkürliche Deskriptoren zu finden.[18][19][20][21][22][23][24][25][26] Tiefes Lernen Methoden sind zu einer genauen Methode geworden, um die semantische Ähnlichkeit zwischen zwei Textpassagen zu messen, in denen jede Passage zuerst in eine kontinuierliche Vektordarstellung eingebettet wird.[27][28][29]

Mittel

Topologische Ähnlichkeit

Es gibt im Wesentlichen zwei Arten von Ansätzen, die die topologische Ähnlichkeit zwischen ontologischen Konzepten berechnen:

  • Edge basiert: die die Kanten und ihre Typen als Datenquelle verwenden;
  • Knotenbasiert: in dem die Hauptdatenquellen die Knoten und ihre Eigenschaften sind.

Andere Maßnahmen berechnen die Ähnlichkeit zwischen ontologischen Fällen:

  • Paarweise: Messen Sie die funktionale Ähnlichkeit zwischen zwei Instanzen, indem Sie die semantischen Ähnlichkeiten der Konzepte kombinieren, die sie darstellen
  • Gruppentiell: Berechnen Sie die Ähnlichkeit direkt, ohne die semantischen Ähnlichkeiten der Konzepte, die sie darstellen, nicht zu kombinieren

Einige Beispiele:

Kantenbasis

  • Pekar et al.[30]
  • Cheng und Cline[31]
  • Wu et al.[32]
  • Del Pozo et al.[33]
  • Intelligo: Benabderrahmane et al.[6]

Knotenbasierte

  • Resnik[34]
    • basierend auf dem Begriff von Informationsgehalt. Der Informationsinhalt eines Konzepts (Term oder Wort) ist der Logarithmus der Wahrscheinlichkeit, das Konzept in einem bestimmten Korpus zu finden.
    • berücksichtigt nur den Informationsinhalt von Niedrigster gemeinsamer Subsumer (LCS). Ein niedrigster gemeinsamer Subsumer ist ein Konzept in einer lexikalischen Taxonomie (z. B. WordNet), die die kürzeste Entfernung von den beiden verglichenen Konzepten aufweist. Zum Beispiel sind Tier und Säugetier beide die Subsumern von Katze und Hund, aber Säugetier ist für sie ein niedrigerer Subsumer als ein Tier.
  • Lin[35]
    • Basierend auf der Ähnlichkeit von Resnik.
    • berücksichtigt den Informationsgehalt des niedrigsten gemeinsamen Subsumer (LCS) und den beiden verglichenen Konzepten.
  • Maguitman, Menczer, Roinestad und Vespignani[36]
    • Verallgemeinert Lins Ähnlichkeit mit willkürlichen Ontologien (Graphen).
  • Jiang und Conrath[37]
    • Basierend auf der Ähnlichkeit von Resnik.
    • berücksichtigt den Informationsgehalt des niedrigsten gemeinsamen Subsumer (LCS) und den beiden verglichenen Konzepten, um den Abstand zwischen den beiden Konzepten zu berechnen. Der Abstand wird später bei der Berechnung der Ähnlichkeitsmaßnahme verwendet.
  • Ausrichten, verweigern und gehen: Zufällige Spaziergänge auf semantischen Netzwerken[38]

Node-and-Relation-Content-basiert

  • anwendbar auf Ontologie
  • Betrachten Sie Eigenschaften (Inhalt) von Knoten
  • Betrachten Sie Typen (Inhalt) der Beziehungen
  • Basierend auf ETVSM[39]
  • Basierend auf Resniks Ähnlichkeit[40]

Paarweise

  • Maximum der paarweisen Ähnlichkeiten
  • zusammengesetzter Durchschnitt, bei dem nur die besten Paare berücksichtigt werden (Best-Match-Durchschnitt)

Gruppenweise

Statistische Ähnlichkeit

Statistische Ähnlichkeitsansätze können aus Daten oder vordefiniert werden. Ähnlichkeitslernen Kann häufig vordefinierte Ähnlichkeitsmaßnahmen übertreffen. Im Großen und Ganzen erstellen diese Ansätze ein statistisches Modell von Dokumenten und verwenden es, um Ähnlichkeit zu schätzen.

  • LSA (Latente semantische Analyse)[41][42](+) vektorbasiert, fügt Vektoren hinzu, um Multi-Word-Begriffe zu messen. (-) Nicht-inkrementeller Vokabular, lange Vorverarbeitungszeiten
  • PMI (Punkte gegenseitige Informationen) (+) großes Vokab, da es jede Suchmaschine verwendet (wie Google); ( -) Die Verwandtschaft zwischen ganzen Sätzen oder Dokumenten nicht messen kann
  • SOC-PMI (Ko-Auftreten zweiter Ordnung punktuell gegenseitige Informationen) (+) Sortieren Sie Listen wichtiger Nachbarwörter aus einem großen Korpus; ( -) Die Verwandtschaft zwischen ganzen Sätzen oder Dokumenten nicht messen kann
  • GLSA (generalisierte latente semantische Analyse) (+) Vektorbasiert, fügt Vektoren hinzu, um Multi-Word-Begriffe zu messen. (-) Nicht-inkrementeller Vokabular, lange Vorverarbeitungszeiten
  • ICAN (inkrementelle Konstruktion eines assoziativen Netzwerks) (+) Inkrementelle, netzwerkbasierte Maßnahme, gut für die Verbreitung der Aktivierung, erklärt die Verwandtschaft zweiter Ordnung; (-) Die Verwandtschaft zwischen mehreren Wörtern und langen Vorverarbeitungszeiten nicht messen kann
  • Ngd (Normalisierte Google -Entfernung) (+) großes Vokab, da es jede Suchmaschine verwendet (wie Google); ( -) kann die Verwandtschaft zwischen ganzen Sätzen oder Dokumenten messen, desto größer ist der Satz oder document desto mehr Einfallsreichtum erforderlich, Cilibrasi & Vitanyi (2007), Referenz unten.[43]
  • TSS - Twitter Semantische Ähnlichkeit -PDF Großer Wortschatz, weil es Online -Tweets von Twitter verwendet, um die Ähnlichkeit zu berechnen. Es hat eine hohe temporäre Auflösung, die es ermöglicht, Hochfrequenzereignisse zu erfassen. Open Source
  • NCD (Normalisierter Kompressionsabstand)
  • ESA (explizite semantische Analyse) bezogen auf Wikipedia und die ODP
  • SSA (herausragende semantische Analyse) welche Begriffe unter Verwendung von herausragenden Konzepten in ihrem unmittelbaren Kontext indiziert.
  • N ° von Wikipedia (jetzt), inspiriert vom Spiel Sechs Grad Wikipediaist eine Entfernungsmetrik basierend auf der hierarchischen Struktur von Wikipedia. Eine gerichtete Graphe wird zuerst konstruiert und später. Dijkstra's kürzester Pfadalgorithmus wird verwendet, um den Wert zwischen zwei Begriffen als geodätischer Abstand zwischen den entsprechenden Themen (d. H. Knoten) im Diagramm zu bestimmen.
  • Vgem (Vektorerzeugung eines explizit definierten mehrdimensionalen semantischen Raums) (+) inkrementelles Vokab
  • Simrank
  • Nasari:[44] Spärliche Vektordarstellungen, die durch Anwenden der hypergeometrischen Verteilung über das Wikipedia -Korpus in Kombination mit Antrag genommen werden Babelnet Taxonomie. Durch die mehrsprachige und einheitliche Erweiterung ist derzeit auch eine Kreuzungsähnlichkeit möglich.[45]

Semantikbasierte Ähnlichkeit

  • Markerübergang: Kombination der lexikalischen Zersetzung für die automatisierte Ontologie -Schöpfung und Marker, die den Ansatz von Fähndrich et al. führt eine neue Art von semantischer Ähnlichkeitsmaßnahme ein.[46] Hier werden Marker von den beiden Zielkonzepten übergeben, die eine Menge Aktivierung tragen. Diese Aktivierung kann abhängig vom Beziehungsgewicht, mit dem die Konzepte verbunden sind, zunehmen oder abnehmen. Dies kombiniert Kanten- und Knotenbasis -Ansätze und enthält verbindungsistische Argumentation mit symbolischen Informationen.
  • Gute semantische Ähnlichkeitsmaßnahme auf dem gemeinsamen Subsumer- (GCS) -basierte Semantikmessung[47]

Goldstandards

Forscher haben Datensätze mit Ähnlichkeitsurteilen zu Wörternpaaren gesammelt, die zur Bewertung der kognitiven Plausibilität von Rechenmessungen verwendet werden. Der goldene Standard bis heute ist eine alte 65 -Wörter -Liste, in der Menschen das Wort Ähnlichkeit beurteilt haben.[48] Für eine Liste von Datensätzen und einen Überblick über den Stand der Technik siehe https://www.aclweb.org/.

Siehe auch

Verweise

  1. ^ Harispes s.; Ranwez S. Janaqi S.; Montmain J. (2015). "Semantische Ähnlichkeit aus natürlicher Sprache und Ontologieanalyse". Synthesevorlesungen über Technologien der menschlichen Sprache. 8: 1: 1–254. Arxiv:1704.05295. doi:10.2200/S00639ED1V01Y201504HLT027. S2CID 17428739.
  2. ^ Feng Y.; Bagheri e.; Ensan F.; Jovanovic J. (2017). "Der Stand der Technik in semantischer Verwandtschaft: Ein Rahmen für Vergleiche". Knowledge Engineering Review. 32: 1–30. doi:10.1017/s0269888917000029. S2CID 52172371.
  3. ^ A. Ballatore; M. Bertolotto; D. C. Wilson (2014). "Eine bewertende Grundlinie für geo-semantische Verwandtschaft und Ähnlichkeit". Geoinformatik. 18: 4 (4): 747–767. Arxiv:1402.3371. Bibcode:2014ArXIV1402.3371B. doi:10.1007/s10707-013-0197-8. S2CID 17474023.
  4. ^ a b Budanitsky, Alexander; Hirst, Graeme (2001). "Semantische Entfernung in WordNet: Eine experimentelle, anwendungsorientierte Bewertung von fünf Maßnahmen" (PDF). Workshop über WordNet und andere lexikalische Ressourcen, zweite Besprechung des nordamerikanischen Kapitels der Vereinigung für Computer -Linguistik. Pittsburgh.
  5. ^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Semantische Ähnlichkeitsanalyse von Proteindaten: Bewertung mit biologischen Merkmalen und Problemen". Briefings in Bioinformatik. 13 (5): 569–585. doi:10.1093/bib/bbr066. PMID 22138322.
  6. ^ a b Benabderrahmane, Sidahmed; SMail Tabbone, Malika; Poch, Olivier; Napoli, Amedeo; Devimate, Marie-Domonique. (2010). "Intelligo: Eine neue semantische Semantikmessung auf vektorbasiertem Annotation" Annotation Origin ". BMC Bioinformatics. 11: 588. doi:10.1186/1471-2105-11-588. PMC 3098105. PMID 21122125.
  7. ^ Chicco, D; Masseroli, M (2015). "Software -Suite für Gene- und Protein -Annotation -Vorhersage und Ähnlichkeitssuche". IEEE/ACM -Transaktionen zur Computerbiologie und Bioinformatik. 12 (4): 837–843. doi:10.1109/tcbb.2014.2382127. PMID 26357324. S2CID 14714823.
  8. ^ Köhler, S; Schulz, MH; Krawitz, p; Bauer, s; Dolken, S; OTT, CE; Mundlos, C; Horn, d; et al. (2009). "Klinische Diagnostik in der menschlichen Genetik mit semantischer Ähnlichkeitssuche in Ontologien". American Journal of Human Genetics. 85 (4): 457–64. doi:10.1016/j.ajhg.2009.09.003. PMC 2756558. PMID 19800049.
  9. ^ "Proteinon".
  10. ^ "Cmpsim".
  11. ^ "Cessm".
  12. ^ Janowicz, K., Raubal, M. und Kuhn, W. (2011). "Die Semantik der Ähnlichkeit im Abruf geografischer Informationen". Journal of Spatial Information Science. 2 (2): 29–57. doi:10.5311/josis.2011.2.3.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  13. ^ "SIM-DL-Ähnlichkeitsserver". 2007: 128–145. Citeseerx 10.1.1.172.5544. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  14. ^ "Geo-net-PT-Ähnlichkeitsrechner".
  15. ^ "Geo-net-pt".
  16. ^ A. Ballatore; D. C. Wilson; M. Bertolotto. "Geografische Wissensextraktion und semantische Ähnlichkeit in OpenStreetmap" (PDF). Wissens- und Informationssysteme: 61–81.
  17. ^ Kaur, I. & Hornof, A.J. (2005). Ein Vergleich von LSA, WordNet und PMI zur Vorhersage des Benutzer -Klickverhaltens. Verfahren der Konferenz über menschliche Faktoren im Computer, Chi 2005. S. 51–60. doi:10.1145/1054972.1054980. ISBN 978-1-58113-998-3. S2CID 14347026.
  18. ^ Ähnlichitätsbasierte Lernmethoden für das semantische Web (C. d'Amato, Doktorarbeit)
  19. ^ Gracia, J. & Mena, E. (2008). "Webbasiertes Maß für die semantische Verwandtschaft" (PDF). Proceedings der 9. Internationalen Konferenz über Web Information Systems Engineering (Wise '08): 136–150.
  20. ^ Raveendranathan, P. (2005). Identifizierung von Sätzen verwandter Wörter aus dem World Wide Web. Master of Science Thesis, Universität von Minnesota Duluth.
  21. ^ Wubben, S. (2008). Verwenden der freien Verbindungsstruktur zur Berechnung der semantischen Verwandtschaft. In der ILK Research Group Technical Report Series, nr. 08-01, 2008.
  22. ^ Juvina, I., Van Oostendorp, H., Karbor, P. & Pauw, B. (2005). Auf dem Weg zur Modellierung von Kontextinformationen in der Webnavigation. In B. G. Bara & L. Barsalou & M. Bucciarelli (Hrsg.), 27. Jahrestagung der Cognitive Science Society, COGSCI2005 (S. 1078–1083). Austin, TX: The Cognitive Science Society, Inc.
  23. ^ Navigli, R., Lapata, M. (2007). Graph -Konnektivitätsmaße für unbeaufsichtigte Disambiguation von Wort Sinnessinn, Proc. der 20. Internationalen gemeinsamen Konferenz über künstliche Intelligenz (IJCAI 2007), Hyderabad, Indien, 6.-12. Januar 2007, S. 1683–1688.
  24. ^ Pirolli, P. (2005). "Rationale Analysen von Informationsstätten im Web". Kognitionswissenschaft. 29 (3): 343–373. doi:10.1207/s15516709Cog0000_20. PMID 21702778.
  25. ^ Pirolli, P. & Fu, W.-T. (2003). "Snif-Act: Ein Modell von Informationsstätten im World Wide Web". Vorlesungsnotizen in Informatik. Vorlesungsnotizen in Informatik. Vol. 2702. S. 45–54. Citeseerx 10.1.1.6.1506. doi:10.1007/3-540-44963-9_8. ISBN 978-3-540-40381-4.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  26. ^ Turney, P. (2001). Bergbau im Web für Synonyme: PMI gegen LSA auf TOEFL. In L. de Raedt & P. ​​Flach (Hrsg.), Proceedings der zwölften Europäischen Konferenz über maschinelles Lernen (ECML-2001) (S. 491–502). Freiburg, Deutschland.
  27. ^ Reimer, Nils; Gurevych, Iryna (November 2019). "Satzbert: Satz Einbettungen mit siamesischer Bert-Networks". Verfahren der Konferenz 2019 über empirische Methoden in der Verarbeitung natürlicher Sprache und der 9. Internationalen gemeinsamen Konferenz zur Verarbeitung natürlicher Sprache (EMNLP-IJCNLP). Hongkong, China: Vereinigung für Computer -Linguistik: 3982–3992. Arxiv:1908.10084. doi:10.18653/v1/d19-1410.
  28. ^ Mueller, Jonas; Thyagarajan, Aditya (2016-03-05). "Siamese wiederkehrende Architekturen zum Lernen von Satz Ähnlichkeit". Dreißigste AAAI -Konferenz über künstliche Intelligenz. 30. doi:10.1609/aaai.v30i1.10350. S2CID 16657628.
  29. ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortes, C.; Lawrence, N. D.; Lee, D. D.; Sugiyama, M. (Hrsg.), "Überspringen Sie Vektoren überspringen" (PDF), Fortschritte in den neuronalen Informationsverarbeitungssystemen 28, Curran Associates, Inc., S. 3294–3302, abgerufen 2020-03-13
  30. ^ Pekar, Viktor; Staab, Steffen (2002). Taxonomie -Lernen. Proceedings der 19. Internationalen Konferenz über Computer -Linguistik -. Vol. 1. S. 1–7. doi:10.3115/1072228.1072318.
  31. ^ Cheng, J; Cline, M; Martin, J; Finkelstein, D; Awad, t; Kulp, D; Siani-Rose, MA (2004). "Ein wissensbasierter Clustering-Algorithmus, der von Gen-Ontologie angetrieben wird". Journal of Biopharmaceutical Statistics. 14 (3): 687–700. doi:10.1081/bip-200025659. PMID 15468759. S2CID 25224811.
  32. ^ Wu, H; Su, z; Mao, f; Olman, V; Xu, Y (2005). "Vorhersage von Funktionsmodulen basierend auf einer vergleichenden Genomanalyse und der Gen -Ontologie -Anwendung". Nukleinsäurenforschung. 33 (9): 2822–37. doi:10.1093/nar/gki573. PMC 1130488. PMID 15901854.
  33. ^ Del Pozo, Angela; Pazos, Florencio; Valencia, Alfonso (2008). "Funktionsabstände über Gen -Ontologie definieren". BMC Bioinformatics. 9: 50. doi:10.1186/1471-2105-9-50. PMC 2375122. PMID 18221506.
  34. ^ Philip Resnik (1995). Chris S. Mellish (Hrsg.). "Verwenden von Informationsinhalten zur Bewertung der semantischen Ähnlichkeit in einer Taxonomie". Proceedings der 14. Internationalen gemeinsamen Konferenz über künstliche Intelligenz (IJCAI'95). 1: 448–453. Arxiv:CMP-LG/9511007. Bibcode:1995cmp.lg ... 11007r. Citeseerx 10.1.1.41.6956.
  35. ^ Dekang Lin. 1998. Eine Informations-theoretische Definition von Ähnlichkeit. In Proceedings der fünfzehnten Internationalen Konferenz über maschinelles Lernen (ICML '98), Jude W. Shavlik (Hrsg.). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 296-304
  36. ^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Algorithmischer Nachweis der semantischen Ähnlichkeit. Www 2005: 107-116
  37. ^ J. J. Jiang und D. W. Conrath. Semantische Ähnlichkeit basierend auf Corpus -Statistiken und lexikalischer Taxonomie. In der Internationalen Konferenz über Forschung zu Computer -Linguistik (Rocling X), Seiten 9008+, September 1997
  38. ^ M. T. Pilehvar, D. Jürgens und R. Navigli. Ausrichtung, Disams und Gehen: Ein einheitlicher Ansatz zur Messung der semantischen Ähnlichkeit.. Proc. der 51. Jahrestagung der Vereinigung für Computerlinguistik (ACL 2013), Sofia, Bulgarien, 4. bis 9. August 2013, S. 1341–1351.
  39. ^ Dong, Hai (2009). "Ein hybrides Konzept -Ähnlichkeitsmessmodell für die Ontologieumgebung". Um sich auf aussagekräftige Internetsysteme zu bewegen: OTM 2009 Workshops. Vorlesungsnotizen in Informatik. Vol. 5872. S. 848–857. Bibcode:2009lncs.5872..848d. doi:10.1007/978-3-642-05290-3_103. ISBN 978-3-642-05289-7.
  40. ^ Dong, Hai (2011). "Ein kontextbewusstes semantisches Ähnlichkeitsmodell für Ontologieumgebungen". Parallelität und Berechnung: Übung und Erfahrung. 23 (2): 505–524. doi:10.1002/cpe.1652. S2CID 412845.
  41. ^ Landauer, T. K.; Dumais, S. T. (1997). "Eine Lösung für Platons Problem: Die latente semantische Analysetheorie des Erwerbs, Induktion und Repräsentation von Wissen" (PDF). Psychologische Überprüfung. 104 (2): 211–240. Citeseerx 10.1.1.184.4759. doi:10.1037/0033-295x.104.2.211.
  42. ^ Landauer, T. K., Foltz, P. W. & Laham, D. (1998). "Einführung in die latente semantische Analyse" (PDF). Diskursprozesse. 25 (2–3): 259–284. Citeseerx 10.1.1.125.109. doi:10.1080/01638539809545028.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  43. ^ "Google -Ähnlichkeitsentfernung".
  44. ^ J. Camacho-Collados, M. T. Pilehvar und R. Navigli. Nasari: Ein neuartiger Ansatz zu einer semantisch bewussten Darstellung von Elementen. In Proceedings of the North American Chapter der Association of Computational Linguistics (NAACL 2015), Denver, USA, S. 567-577, 2015
  45. ^ J. Camacho-Collados, M. T. Pilehvar und R. Navigli. Eine einheitliche mehrsprachige semantische Darstellung von Konzepten. In Proceedings der 53. Jahrestagung der Vereinigung für Computerlinguistik (ACL 2015), Peking, China, 27. bis 29. Juli, S. 741-751, 2015
  46. ^ Fäderdrich J., Weber S., Ahrndt S. (2016) Entwurf und Verwendung einer semantischen Ähnlichkeitsmaßnahme für die Interoperabilität zwischen Wirkstoffen. In: Klusch M., Ultrand R., Shehory O., Pokahr A., ​​Ahrndt S. (Hrsg.) Multiagent -Systemtechnologien. Partner 2016. Vorlesungsnotizen in Computer Science, Vol 9872. Springer, erhältlich bei Autorenversion
  47. ^ C. D'Amato, S. Staab und N. Fanizzi. Über den Einfluss der Beschreibung Logik Ontologien auf die konzeptionelle Ähnlichkeit. Knowledge Engineering: Praxis und Muster, Seiten 48-63, 2008 doi:10.1007/978-3-540-87696-0_7
  48. ^ Rubenstein, Herbert und John B. Goodenough. Kontextkorrelate der Synonymie. Kommunikation der ACM, 8 (10): 627–633, 1965.
  49. ^ Rubenstein, Herbert; Goodenough, John B. (1965-10-01). "Kontextkorrelate der Synonymie". Kommunikation der ACM. 8 (10): 627–633. doi:10.1145/365628.365657. S2CID 18309234.
  50. ^ Miller, George A.; Charles, Walter G. (1991-01-01). "Kontextkorrelate der semantischen Ähnlichkeit". Sprach- und kognitive Prozesse. 6 (1): 1–28. doi:10.1080/01690969108406936. ISSN 0169-0965.
  51. ^ "Suche in den Kontext platzieren". ACM -Transaktionen auf Informationssystemen. 20: 116–131. 2002-01-01. doi:10.1145/503104.503110. S2CID 12956853.

Quellen

Externe Links

Umfrageartikel