Semantische Ähnlichkeit
Semantische Ähnlichkeit ist ein metrisch definiert über eine Reihe von Dokumenten oder Begriffen, bei denen die Idee der Entfernung zwischen den Elementen auf der Ähnlichkeit ihrer Bedeutung basiert oder semantischer Inhalt im Gegensatz zu lexikografisch Ähnlichkeit. Dies sind mathematische Instrumente, mit denen die Stärke der semantischen Beziehung zwischen Spracheinheiten, Konzepten oder Instanzen durch eine numerische Beschreibung nach dem Vergleich von Informationen, die ihre Bedeutung unterstützen oder ihre Natur beschreiben, durch eine numerische Beschreibung abschätzen.[1][2] Der Begriff semantischer Ähnlichkeit wird oft mit semantischer Verwandtschaft verwechselt. Semantische Verwandtschaft Enthält eine Beziehung zwischen zwei Begriffen, während die semantische Ähnlichkeit nur "eine" Beziehungen umfasst.[3] Zum Beispiel ähnelt "Auto" "Bus", aber auch mit "Straße" und "Fahren" zusammen.
Berechnend kann semantische Ähnlichkeit durch Definition a geschätzt werden topologisch Ähnlichkeit durch Verwendung Ontologien Um den Abstand zwischen Begriffen/Konzepten zu definieren. Zum Beispiel eine naive Metrik für den Vergleich von Konzepten, die in a geordnet sind teilweise bestelltes Set und als Knoten von a dargestellt Regie acyclische Graphen (z. B. a Taxonomie), wäre der kürzeste Weg, der die beiden Konzeptknoten verbindet. Basierend auf Textanalysen kann die semantische Verwandtschaft zwischen Spracheinheiten (z. B. Wörter, Sätze) auch unter Verwendung statistischer Mittel wie a geschätzt werden Vektorraummodell zu zueinander in Beziehung stehen Wörter und Textkontexte von einem geeigneten Textkorpus. Die Bewertung der vorgeschlagenen semantischen Ähnlichkeits- / Verwandtschaftsmaßnahmen werden auf zwei Hauptmethoden bewertet. Ersteres basiert auf der Verwendung von Datensätzen, die von Experten entworfen wurden und aus Wortpaaren mit semantischer Abschluss nach Ähnlichkeit / Verwandtschaftsabschluss bestehen. Der zweite Weg basiert auf der Integration der Maßnahmen in bestimmte Anwendungen wie Informationsabruf, Empfehlungssysteme, natürliche Sprachverarbeitung usw.
Terminologie
Das Konzept von Semantische Ähnlichkeit ist spezifischer als Semantische Verwandtschaft, wie letztere enthält Konzepte als Antonymie und Meronymie, während Ähnlichkeit nicht tut.[4] Ein Großteil der Literatur verwendet diese Begriffe jedoch austauschbar sowie mit Semantikstrecken. Im Wesentlichen bedeuten semantische Ähnlichkeit, semantische Entfernung und semantische Verwandtschaft: "Wie viel hat Begriff A mit Begriff B zu tun?" Die Antwort auf diese Frage lautet normalerweise eine Zahl zwischen -1 und 1 oder zwischen 0 und 1, wobei 1 extrem hohe Ähnlichkeit bedeutet.
Visualisierung
Eine intuitive Methode zur Visualisierung der semantischen Ähnlichkeit von Begriffen besteht darin, Begriffe zu gruppieren, die eng verwandt sind und die von denjenigen, die weitläufig verwandt sind, eng miteinander verbunden sind. Dies ist auch in der Praxis üblich für Gedächniskarten und Konzeptkarten.
Ein direkterer Weg zur Visualisierung der semantischen Ähnlichkeit zweier sprachlicher Elemente ist mit dem zu sehen Semantische Faltung sich nähern. In diesem Ansatz kann ein sprachlicher Element wie ein Begriff oder ein Text durch Generieren a dargestellt werden Pixel Für jedes seiner aktiven semantischen Merkmale in z. Ein 128 x 128 Gitter. Dies ermöglicht einen direkten visuellen Vergleich der Semantik zweier Elemente durch Vergleich von Bilddarstellungen ihrer jeweiligen Merkmalssätze.
Anwendungen
In biomedizinischen Informatik
Semantische Ähnlichkeitsmaßnahmen wurden in biomedizinischen Ontologien angewendet und entwickelt.[5][6] Sie werden hauptsächlich zum Vergleichen verwendet Gene und Proteine Basierend auf der Ähnlichkeit ihrer Funktionen[7] eher als auf ihrem Sequenzähnlichkeit, aber sie werden auch auf andere Bioentitäten wie Krankheiten ausgedehnt.[8]
Diese Vergleiche können mit Tools durchgeführt werden, die im Web frei verfügbar sind:
- Proteinon kann verwendet werden, um interagierende Proteine zu finden, zugewiesene GO -Begriffe zu finden und die funktionelle semantische Ähnlichkeit von zu berechnen UniProt Proteine und um den Informationsgehalt zu erhalten und die funktionale semantische Ähnlichkeit von GO -Begriffen zu berechnen.[9]
- CMPSIM liefert ein funktionelles Ähnlichkeitsmaß zwischen chemischen Verbindungen und Stoffwechselwegen unter Verwendung Chebi basierte semantische Ähnlichkeitsmaßnahmen.[10]
- CESSM bietet ein Werkzeug für die automatisierte Bewertung von GO-basierten semantischen Ähnlichkeitsmaßnahmen.[11]
In Geoinformatik
Ähnlichkeit wird auch in angewendet Geoinformatik ähnlich zu finden geografische Merkmale oder Funktionstypen:[12]
- SIM-DL-Ähnlichkeitsserver[13] Kann verwendet werden, um Ähnlichkeiten zwischen Konzepten zu berechnen, die in Ontologien des geografischen Feature -Typs gespeichert sind.
- Der Ähnlichkeitsrechner kann verwendet werden, um zu berechnen, wie gut verwandte zwei geografische Konzepte in der Geo-Net-PT-Ontologie sind.[14][15]
- Das OSM Semantisches Netzwerk kann verwendet werden, um die semantische Ähnlichkeit von Tags in zu berechnen OpenStreetmap.[16]
In der Computersprachlingistik
Mehrere Metriken verwenden Wordnet, eine manuell konstruierte lexikalische Datenbank englischer Wörter. Trotz der Vorteile einer menschlichen Überwachung bei der Konstruktion der Datenbank, da die Wörter nicht automatisch erfahren werden, kann die Datenbank die Verwandtschaft nicht zwischen dem Multi-Word-Term, dem nicht-inkrementellen Vokabular, messen.[4][17]
In der natürlichen Sprachverarbeitung
Verarbeitung natürlicher Sprache (NLP) ist ein Bereich der Informatik und Linguistik. Stimmungsanalyse, natürliches Sprachverständnis und maschinelle Übersetzung (automatisch Text von einer menschlichen Sprache in eine andere übersetzen) sind einige der Hauptbereiche, in denen sie verwendet werden. Wenn Sie beispielsweise eine Informationsressource im Internet kennen, ist es häufig von unmittelbarem Interesse, ähnliche Ressourcen zu finden. Das Semantisches Web Bietet semantische Erweiterungen, um ähnliche Daten nach Inhalten und nicht nur durch willkürliche Deskriptoren zu finden.[18][19][20][21][22][23][24][25][26] Tiefes Lernen Methoden sind zu einer genauen Methode geworden, um die semantische Ähnlichkeit zwischen zwei Textpassagen zu messen, in denen jede Passage zuerst in eine kontinuierliche Vektordarstellung eingebettet wird.[27][28][29]
Mittel
Topologische Ähnlichkeit
Es gibt im Wesentlichen zwei Arten von Ansätzen, die die topologische Ähnlichkeit zwischen ontologischen Konzepten berechnen:
- Edge basiert: die die Kanten und ihre Typen als Datenquelle verwenden;
- Knotenbasiert: in dem die Hauptdatenquellen die Knoten und ihre Eigenschaften sind.
Andere Maßnahmen berechnen die Ähnlichkeit zwischen ontologischen Fällen:
- Paarweise: Messen Sie die funktionale Ähnlichkeit zwischen zwei Instanzen, indem Sie die semantischen Ähnlichkeiten der Konzepte kombinieren, die sie darstellen
- Gruppentiell: Berechnen Sie die Ähnlichkeit direkt, ohne die semantischen Ähnlichkeiten der Konzepte, die sie darstellen, nicht zu kombinieren
Einige Beispiele:
Kantenbasis
- Pekar et al.[30]
- Cheng und Cline[31]
- Wu et al.[32]
- Del Pozo et al.[33]
- Intelligo: Benabderrahmane et al.[6]
Knotenbasierte
- Resnik[34]
- basierend auf dem Begriff von Informationsgehalt. Der Informationsinhalt eines Konzepts (Term oder Wort) ist der Logarithmus der Wahrscheinlichkeit, das Konzept in einem bestimmten Korpus zu finden.
- berücksichtigt nur den Informationsinhalt von Niedrigster gemeinsamer Subsumer (LCS). Ein niedrigster gemeinsamer Subsumer ist ein Konzept in einer lexikalischen Taxonomie (z. B. WordNet), die die kürzeste Entfernung von den beiden verglichenen Konzepten aufweist. Zum Beispiel sind Tier und Säugetier beide die Subsumern von Katze und Hund, aber Säugetier ist für sie ein niedrigerer Subsumer als ein Tier.
- Lin[35]
- Basierend auf der Ähnlichkeit von Resnik.
- berücksichtigt den Informationsgehalt des niedrigsten gemeinsamen Subsumer (LCS) und den beiden verglichenen Konzepten.
- Maguitman, Menczer, Roinestad und Vespignani[36]
- Verallgemeinert Lins Ähnlichkeit mit willkürlichen Ontologien (Graphen).
- Jiang und Conrath[37]
- Basierend auf der Ähnlichkeit von Resnik.
- berücksichtigt den Informationsgehalt des niedrigsten gemeinsamen Subsumer (LCS) und den beiden verglichenen Konzepten, um den Abstand zwischen den beiden Konzepten zu berechnen. Der Abstand wird später bei der Berechnung der Ähnlichkeitsmaßnahme verwendet.
- Ausrichten, verweigern und gehen: Zufällige Spaziergänge auf semantischen Netzwerken[38]
Node-and-Relation-Content-basiert
- anwendbar auf Ontologie
- Betrachten Sie Eigenschaften (Inhalt) von Knoten
- Betrachten Sie Typen (Inhalt) der Beziehungen
- Basierend auf ETVSM[39]
- Basierend auf Resniks Ähnlichkeit[40]
Paarweise
- Maximum der paarweisen Ähnlichkeiten
- zusammengesetzter Durchschnitt, bei dem nur die besten Paare berücksichtigt werden (Best-Match-Durchschnitt)
Gruppenweise
Statistische Ähnlichkeit
Statistische Ähnlichkeitsansätze können aus Daten oder vordefiniert werden. Ähnlichkeitslernen Kann häufig vordefinierte Ähnlichkeitsmaßnahmen übertreffen. Im Großen und Ganzen erstellen diese Ansätze ein statistisches Modell von Dokumenten und verwenden es, um Ähnlichkeit zu schätzen.
- LSA (Latente semantische Analyse)[41][42](+) vektorbasiert, fügt Vektoren hinzu, um Multi-Word-Begriffe zu messen. (-) Nicht-inkrementeller Vokabular, lange Vorverarbeitungszeiten
- PMI (Punkte gegenseitige Informationen) (+) großes Vokab, da es jede Suchmaschine verwendet (wie Google); ( -) Die Verwandtschaft zwischen ganzen Sätzen oder Dokumenten nicht messen kann
- SOC-PMI (Ko-Auftreten zweiter Ordnung punktuell gegenseitige Informationen) (+) Sortieren Sie Listen wichtiger Nachbarwörter aus einem großen Korpus; ( -) Die Verwandtschaft zwischen ganzen Sätzen oder Dokumenten nicht messen kann
- GLSA (generalisierte latente semantische Analyse) (+) Vektorbasiert, fügt Vektoren hinzu, um Multi-Word-Begriffe zu messen. (-) Nicht-inkrementeller Vokabular, lange Vorverarbeitungszeiten
- ICAN (inkrementelle Konstruktion eines assoziativen Netzwerks) (+) Inkrementelle, netzwerkbasierte Maßnahme, gut für die Verbreitung der Aktivierung, erklärt die Verwandtschaft zweiter Ordnung; (-) Die Verwandtschaft zwischen mehreren Wörtern und langen Vorverarbeitungszeiten nicht messen kann
- Ngd (Normalisierte Google -Entfernung) (+) großes Vokab, da es jede Suchmaschine verwendet (wie Google); ( -) kann die Verwandtschaft zwischen ganzen Sätzen oder Dokumenten messen, desto größer ist der Satz oder document desto mehr Einfallsreichtum erforderlich, Cilibrasi & Vitanyi (2007), Referenz unten.[43]
- TSS - Twitter Semantische Ähnlichkeit -PDF Großer Wortschatz, weil es Online -Tweets von Twitter verwendet, um die Ähnlichkeit zu berechnen. Es hat eine hohe temporäre Auflösung, die es ermöglicht, Hochfrequenzereignisse zu erfassen. Open Source
- NCD (Normalisierter Kompressionsabstand)
- ESA (explizite semantische Analyse) bezogen auf Wikipedia und die ODP
- SSA (herausragende semantische Analyse) welche Begriffe unter Verwendung von herausragenden Konzepten in ihrem unmittelbaren Kontext indiziert.
- N ° von Wikipedia (jetzt), inspiriert vom Spiel Sechs Grad Wikipediaist eine Entfernungsmetrik basierend auf der hierarchischen Struktur von Wikipedia. Eine gerichtete Graphe wird zuerst konstruiert und später. Dijkstra's kürzester Pfadalgorithmus wird verwendet, um den Wert zwischen zwei Begriffen als geodätischer Abstand zwischen den entsprechenden Themen (d. H. Knoten) im Diagramm zu bestimmen.
- Vgem (Vektorerzeugung eines explizit definierten mehrdimensionalen semantischen Raums) (+) inkrementelles Vokab
- Simrank
- Nasari:[44] Spärliche Vektordarstellungen, die durch Anwenden der hypergeometrischen Verteilung über das Wikipedia -Korpus in Kombination mit Antrag genommen werden Babelnet Taxonomie. Durch die mehrsprachige und einheitliche Erweiterung ist derzeit auch eine Kreuzungsähnlichkeit möglich.[45]
Semantikbasierte Ähnlichkeit
- Markerübergang: Kombination der lexikalischen Zersetzung für die automatisierte Ontologie -Schöpfung und Marker, die den Ansatz von Fähndrich et al. führt eine neue Art von semantischer Ähnlichkeitsmaßnahme ein.[46] Hier werden Marker von den beiden Zielkonzepten übergeben, die eine Menge Aktivierung tragen. Diese Aktivierung kann abhängig vom Beziehungsgewicht, mit dem die Konzepte verbunden sind, zunehmen oder abnehmen. Dies kombiniert Kanten- und Knotenbasis -Ansätze und enthält verbindungsistische Argumentation mit symbolischen Informationen.
- Gute semantische Ähnlichkeitsmaßnahme auf dem gemeinsamen Subsumer- (GCS) -basierte Semantikmessung[47]
Goldstandards
Forscher haben Datensätze mit Ähnlichkeitsurteilen zu Wörternpaaren gesammelt, die zur Bewertung der kognitiven Plausibilität von Rechenmessungen verwendet werden. Der goldene Standard bis heute ist eine alte 65 -Wörter -Liste, in der Menschen das Wort Ähnlichkeit beurteilt haben.[48] Für eine Liste von Datensätzen und einen Überblick über den Stand der Technik siehe https://www.aclweb.org/.
Siehe auch
- Analogie
- Komponentialanalyse
- Kohärenz (Linguistik)
- Levenshtein -Entfernung
- Semantisches Differential
- Semantisches Ähnlichkeitsnetzwerk
- Terminologieextraktion
- Word2Vec
- tf-idf
Verweise
- ^ Harispes s.; Ranwez S. Janaqi S.; Montmain J. (2015). "Semantische Ähnlichkeit aus natürlicher Sprache und Ontologieanalyse". Synthesevorlesungen über Technologien der menschlichen Sprache. 8: 1: 1–254. Arxiv:1704.05295. doi:10.2200/S00639ED1V01Y201504HLT027. S2CID 17428739.
- ^ Feng Y.; Bagheri e.; Ensan F.; Jovanovic J. (2017). "Der Stand der Technik in semantischer Verwandtschaft: Ein Rahmen für Vergleiche". Knowledge Engineering Review. 32: 1–30. doi:10.1017/s0269888917000029. S2CID 52172371.
- ^ A. Ballatore; M. Bertolotto; D. C. Wilson (2014). "Eine bewertende Grundlinie für geo-semantische Verwandtschaft und Ähnlichkeit". Geoinformatik. 18: 4 (4): 747–767. Arxiv:1402.3371. Bibcode:2014ArXIV1402.3371B. doi:10.1007/s10707-013-0197-8. S2CID 17474023.
- ^ a b Budanitsky, Alexander; Hirst, Graeme (2001). "Semantische Entfernung in WordNet: Eine experimentelle, anwendungsorientierte Bewertung von fünf Maßnahmen" (PDF). Workshop über WordNet und andere lexikalische Ressourcen, zweite Besprechung des nordamerikanischen Kapitels der Vereinigung für Computer -Linguistik. Pittsburgh.
- ^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). "Semantische Ähnlichkeitsanalyse von Proteindaten: Bewertung mit biologischen Merkmalen und Problemen". Briefings in Bioinformatik. 13 (5): 569–585. doi:10.1093/bib/bbr066. PMID 22138322.
- ^ a b Benabderrahmane, Sidahmed; SMail Tabbone, Malika; Poch, Olivier; Napoli, Amedeo; Devimate, Marie-Domonique. (2010). "Intelligo: Eine neue semantische Semantikmessung auf vektorbasiertem Annotation" Annotation Origin ". BMC Bioinformatics. 11: 588. doi:10.1186/1471-2105-11-588. PMC 3098105. PMID 21122125.
- ^ Chicco, D; Masseroli, M (2015). "Software -Suite für Gene- und Protein -Annotation -Vorhersage und Ähnlichkeitssuche". IEEE/ACM -Transaktionen zur Computerbiologie und Bioinformatik. 12 (4): 837–843. doi:10.1109/tcbb.2014.2382127. PMID 26357324. S2CID 14714823.
- ^ Köhler, S; Schulz, MH; Krawitz, p; Bauer, s; Dolken, S; OTT, CE; Mundlos, C; Horn, d; et al. (2009). "Klinische Diagnostik in der menschlichen Genetik mit semantischer Ähnlichkeitssuche in Ontologien". American Journal of Human Genetics. 85 (4): 457–64. doi:10.1016/j.ajhg.2009.09.003. PMC 2756558. PMID 19800049.
- ^ "Proteinon".
- ^ "Cmpsim".
- ^ "Cessm".
- ^ Janowicz, K., Raubal, M. und Kuhn, W. (2011). "Die Semantik der Ähnlichkeit im Abruf geografischer Informationen". Journal of Spatial Information Science. 2 (2): 29–57. doi:10.5311/josis.2011.2.3.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ "SIM-DL-Ähnlichkeitsserver". 2007: 128–145. Citeseerx 10.1.1.172.5544.
{{}}
: Journal zitieren erfordert|journal=
(Hilfe) - ^ "Geo-net-PT-Ähnlichkeitsrechner".
- ^ "Geo-net-pt".
- ^ A. Ballatore; D. C. Wilson; M. Bertolotto. "Geografische Wissensextraktion und semantische Ähnlichkeit in OpenStreetmap" (PDF). Wissens- und Informationssysteme: 61–81.
- ^ Kaur, I. & Hornof, A.J. (2005). Ein Vergleich von LSA, WordNet und PMI zur Vorhersage des Benutzer -Klickverhaltens. Verfahren der Konferenz über menschliche Faktoren im Computer, Chi 2005. S. 51–60. doi:10.1145/1054972.1054980. ISBN 978-1-58113-998-3. S2CID 14347026.
- ^ Ähnlichitätsbasierte Lernmethoden für das semantische Web (C. d'Amato, Doktorarbeit)
- ^ Gracia, J. & Mena, E. (2008). "Webbasiertes Maß für die semantische Verwandtschaft" (PDF). Proceedings der 9. Internationalen Konferenz über Web Information Systems Engineering (Wise '08): 136–150.
- ^ Raveendranathan, P. (2005). Identifizierung von Sätzen verwandter Wörter aus dem World Wide Web. Master of Science Thesis, Universität von Minnesota Duluth.
- ^ Wubben, S. (2008). Verwenden der freien Verbindungsstruktur zur Berechnung der semantischen Verwandtschaft. In der ILK Research Group Technical Report Series, nr. 08-01, 2008.
- ^ Juvina, I., Van Oostendorp, H., Karbor, P. & Pauw, B. (2005). Auf dem Weg zur Modellierung von Kontextinformationen in der Webnavigation. In B. G. Bara & L. Barsalou & M. Bucciarelli (Hrsg.), 27. Jahrestagung der Cognitive Science Society, COGSCI2005 (S. 1078–1083). Austin, TX: The Cognitive Science Society, Inc.
- ^ Navigli, R., Lapata, M. (2007). Graph -Konnektivitätsmaße für unbeaufsichtigte Disambiguation von Wort Sinnessinn, Proc. der 20. Internationalen gemeinsamen Konferenz über künstliche Intelligenz (IJCAI 2007), Hyderabad, Indien, 6.-12. Januar 2007, S. 1683–1688.
- ^ Pirolli, P. (2005). "Rationale Analysen von Informationsstätten im Web". Kognitionswissenschaft. 29 (3): 343–373. doi:10.1207/s15516709Cog0000_20. PMID 21702778.
- ^ Pirolli, P. & Fu, W.-T. (2003). "Snif-Act: Ein Modell von Informationsstätten im World Wide Web". Vorlesungsnotizen in Informatik. Vorlesungsnotizen in Informatik. Vol. 2702. S. 45–54. Citeseerx 10.1.1.6.1506. doi:10.1007/3-540-44963-9_8. ISBN 978-3-540-40381-4.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ Turney, P. (2001). Bergbau im Web für Synonyme: PMI gegen LSA auf TOEFL. In L. de Raedt & P. Flach (Hrsg.), Proceedings der zwölften Europäischen Konferenz über maschinelles Lernen (ECML-2001) (S. 491–502). Freiburg, Deutschland.
- ^ Reimer, Nils; Gurevych, Iryna (November 2019). "Satzbert: Satz Einbettungen mit siamesischer Bert-Networks". Verfahren der Konferenz 2019 über empirische Methoden in der Verarbeitung natürlicher Sprache und der 9. Internationalen gemeinsamen Konferenz zur Verarbeitung natürlicher Sprache (EMNLP-IJCNLP). Hongkong, China: Vereinigung für Computer -Linguistik: 3982–3992. Arxiv:1908.10084. doi:10.18653/v1/d19-1410.
- ^ Mueller, Jonas; Thyagarajan, Aditya (2016-03-05). "Siamese wiederkehrende Architekturen zum Lernen von Satz Ähnlichkeit". Dreißigste AAAI -Konferenz über künstliche Intelligenz. 30. doi:10.1609/aaai.v30i1.10350. S2CID 16657628.
- ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Russ R; Zemel, Richard; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015), Cortes, C.; Lawrence, N. D.; Lee, D. D.; Sugiyama, M. (Hrsg.), "Überspringen Sie Vektoren überspringen" (PDF), Fortschritte in den neuronalen Informationsverarbeitungssystemen 28, Curran Associates, Inc., S. 3294–3302, abgerufen 2020-03-13
- ^ Pekar, Viktor; Staab, Steffen (2002). Taxonomie -Lernen. Proceedings der 19. Internationalen Konferenz über Computer -Linguistik -. Vol. 1. S. 1–7. doi:10.3115/1072228.1072318.
- ^ Cheng, J; Cline, M; Martin, J; Finkelstein, D; Awad, t; Kulp, D; Siani-Rose, MA (2004). "Ein wissensbasierter Clustering-Algorithmus, der von Gen-Ontologie angetrieben wird". Journal of Biopharmaceutical Statistics. 14 (3): 687–700. doi:10.1081/bip-200025659. PMID 15468759. S2CID 25224811.
- ^ Wu, H; Su, z; Mao, f; Olman, V; Xu, Y (2005). "Vorhersage von Funktionsmodulen basierend auf einer vergleichenden Genomanalyse und der Gen -Ontologie -Anwendung". Nukleinsäurenforschung. 33 (9): 2822–37. doi:10.1093/nar/gki573. PMC 1130488. PMID 15901854.
- ^ Del Pozo, Angela; Pazos, Florencio; Valencia, Alfonso (2008). "Funktionsabstände über Gen -Ontologie definieren". BMC Bioinformatics. 9: 50. doi:10.1186/1471-2105-9-50. PMC 2375122. PMID 18221506.
- ^ Philip Resnik (1995). Chris S. Mellish (Hrsg.). "Verwenden von Informationsinhalten zur Bewertung der semantischen Ähnlichkeit in einer Taxonomie". Proceedings der 14. Internationalen gemeinsamen Konferenz über künstliche Intelligenz (IJCAI'95). 1: 448–453. Arxiv:CMP-LG/9511007. Bibcode:1995cmp.lg ... 11007r. Citeseerx 10.1.1.41.6956.
- ^ Dekang Lin. 1998. Eine Informations-theoretische Definition von Ähnlichkeit. In Proceedings der fünfzehnten Internationalen Konferenz über maschinelles Lernen (ICML '98), Jude W. Shavlik (Hrsg.). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 296-304
- ^ Ana Gabriela Maguitman, Filippo Menczer, Heather Roinestad, Alessandro Vespignani: Algorithmischer Nachweis der semantischen Ähnlichkeit. Www 2005: 107-116
- ^ J. J. Jiang und D. W. Conrath. Semantische Ähnlichkeit basierend auf Corpus -Statistiken und lexikalischer Taxonomie. In der Internationalen Konferenz über Forschung zu Computer -Linguistik (Rocling X), Seiten 9008+, September 1997
- ^ M. T. Pilehvar, D. Jürgens und R. Navigli. Ausrichtung, Disams und Gehen: Ein einheitlicher Ansatz zur Messung der semantischen Ähnlichkeit.. Proc. der 51. Jahrestagung der Vereinigung für Computerlinguistik (ACL 2013), Sofia, Bulgarien, 4. bis 9. August 2013, S. 1341–1351.
- ^ Dong, Hai (2009). "Ein hybrides Konzept -Ähnlichkeitsmessmodell für die Ontologieumgebung". Um sich auf aussagekräftige Internetsysteme zu bewegen: OTM 2009 Workshops. Vorlesungsnotizen in Informatik. Vol. 5872. S. 848–857. Bibcode:2009lncs.5872..848d. doi:10.1007/978-3-642-05290-3_103. ISBN 978-3-642-05289-7.
- ^ Dong, Hai (2011). "Ein kontextbewusstes semantisches Ähnlichkeitsmodell für Ontologieumgebungen". Parallelität und Berechnung: Übung und Erfahrung. 23 (2): 505–524. doi:10.1002/cpe.1652. S2CID 412845.
- ^ Landauer, T. K.; Dumais, S. T. (1997). "Eine Lösung für Platons Problem: Die latente semantische Analysetheorie des Erwerbs, Induktion und Repräsentation von Wissen" (PDF). Psychologische Überprüfung. 104 (2): 211–240. Citeseerx 10.1.1.184.4759. doi:10.1037/0033-295x.104.2.211.
- ^ Landauer, T. K., Foltz, P. W. & Laham, D. (1998). "Einführung in die latente semantische Analyse" (PDF). Diskursprozesse. 25 (2–3): 259–284. Citeseerx 10.1.1.125.109. doi:10.1080/01638539809545028.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ "Google -Ähnlichkeitsentfernung".
- ^ J. Camacho-Collados, M. T. Pilehvar und R. Navigli. Nasari: Ein neuartiger Ansatz zu einer semantisch bewussten Darstellung von Elementen. In Proceedings of the North American Chapter der Association of Computational Linguistics (NAACL 2015), Denver, USA, S. 567-577, 2015
- ^ J. Camacho-Collados, M. T. Pilehvar und R. Navigli. Eine einheitliche mehrsprachige semantische Darstellung von Konzepten. In Proceedings der 53. Jahrestagung der Vereinigung für Computerlinguistik (ACL 2015), Peking, China, 27. bis 29. Juli, S. 741-751, 2015
- ^ Fäderdrich J., Weber S., Ahrndt S. (2016) Entwurf und Verwendung einer semantischen Ähnlichkeitsmaßnahme für die Interoperabilität zwischen Wirkstoffen. In: Klusch M., Ultrand R., Shehory O., Pokahr A., Ahrndt S. (Hrsg.) Multiagent -Systemtechnologien. Partner 2016. Vorlesungsnotizen in Computer Science, Vol 9872. Springer, erhältlich bei Autorenversion
- ^ C. D'Amato, S. Staab und N. Fanizzi. Über den Einfluss der Beschreibung Logik Ontologien auf die konzeptionelle Ähnlichkeit. Knowledge Engineering: Praxis und Muster, Seiten 48-63, 2008 doi:10.1007/978-3-540-87696-0_7
- ^ Rubenstein, Herbert und John B. Goodenough. Kontextkorrelate der Synonymie. Kommunikation der ACM, 8 (10): 627–633, 1965.
- ^ Rubenstein, Herbert; Goodenough, John B. (1965-10-01). "Kontextkorrelate der Synonymie". Kommunikation der ACM. 8 (10): 627–633. doi:10.1145/365628.365657. S2CID 18309234.
- ^ Miller, George A.; Charles, Walter G. (1991-01-01). "Kontextkorrelate der semantischen Ähnlichkeit". Sprach- und kognitive Prozesse. 6 (1): 1–28. doi:10.1080/01690969108406936. ISSN 0169-0965.
- ^ "Suche in den Kontext platzieren". ACM -Transaktionen auf Informationssystemen. 20: 116–131. 2002-01-01. doi:10.1145/503104.503110. S2CID 12956853.
Quellen
- Chicco, D; Masseroli, M (2015). "Software -Suite für Gene- und Protein -Annotation -Vorhersage und Ähnlichkeitssuche". IEEE/ACM -Transaktionen zur Computerbiologie und Bioinformatik. 12 (4): 837–843. doi:10.1109/tcbb.2014.2382127. PMID 26357324. S2CID 14714823.
- Cilibrasi, R. L. & Vitanyi, P.M.B. (2007). "Die Google -Ähnlichkeitsabstand". IEEE trans. Wissens- und Datentechnik. 19 (3): 370–383. Arxiv:CS/0412098. doi:10.1109/tkde.2007.48. S2CID 59777.
- Dumais, S (2003). "Datengesteuerte Ansätze zum Zugang zum Informationszugriff". Kognitionswissenschaft. 27 (3): 491–524. doi:10.1207/s15516709COG2703_7.
- Gabrilovich, E. und Markovitch, S. (2007). Berechnung der semantischen Verwandtschaft mit wikipedia-basierten expliziten semantischen Analysen, Proceedings der 20. Internationalen gemeinsamen Konferenz über künstliche Intelligenz (IJCAI), Hyderabad, Indien, Januar 2007.
- Lee, M. D., Pincombe, B. & Welsh, M. (2005). Eine empirische Bewertung von Modellen der Ähnlichkeit von Textdokumenten. In B. G. Bara & L. Barsalou & M. Bucciarelli (Hrsg.), 27. Jahrestagung der Cognitive Science Society, COGSCI2005 (S. 1254–1259). Austin, TX: The Cognitive Science Society, Inc.
- Lemaire, B. & Denhiére, G. (2004). Inkrementelle Konstruktion eines assoziativen Netzwerks aus einem Korpus. In K. D. Forbus & D. Gentner & T. Regier (Hrsg.), 26. Jahrestagung der Cognitive Science Society, COGSCI2004. Hillsdale, NJ: Lawrence Erlbaum Publisher.
- Lindsey, R., Veksler, V. D., Grintsvayg, A., Gray, W. D. (2007). "Die Auswirkungen der Korpusauswahl auf die Messung der semantischen Verwandtschaft" (PDF). Proceedings der 8. Internationalen Konferenz über kognitive Modellierung, Ann Arbor, MI.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - Navigli, R., Lapata, M. (2010). "Eine experimentelle Untersuchung der Graphenkonnektivität für unbeaufsichtigte Disambiguation von Wort Sinnessinn". IEEE -Transaktionen zur Musteranalyse und Machine Intelligence (TPAMI), 32 (4), IEEE Press, 2010, S. 678–692.
- Veksler, V.D. & Gray, W.D. (2006). "Testfallauswahl zur Bewertung von Maßnahmen der semantischen Entfernung" (PDF). Proceedings of the 28. Jahrestagung der Cognitive Science Society, COGSCI2006.
- Wong, W., Liu, W. & Bennamoun, M. (2008) Featureless -Datenclustering. In: M. Song und Y. Wu; Handbuch der Forschung zu Text- und Web -Mining -Technologien; IGI Global. ISBN978-1-59904-990-8 (die Verwendung von NGD und jetzt für Term und URI-Clustering)
Externe Links
Umfrageartikel
- Konferenzartikel: C. D'Amato, S. Staab, N. Fanizzi. 2008. Über den Einfluss der Beschreibung Logik -Ontologien auf die konzeptionelle Ähnlichkeit. In Proceedings der 16. Internationalen Konferenz über Wissenstechnik: Praxis und Muster Seiten 48-63. Acitrezza, Italien, Springer-Verlag
- Zeitschriftenartikel Zum allgemeineren Thema der Verwandtschaft, einschließlich Ähnlichkeit: Z. Zhang, A. Gentile, F. Ciravegna. 2013. Jüngste Fortschritte in Methoden der lexikalischen semantischen Verwandtschaft - eine Umfrage. Natural Language Engineering 19 (4), 411–479, Cambridge University Press
- Buch: S. Harispe, S. Ranwez, S. Janaqi, J. Montmain. 2015. Semantische Ähnlichkeit aus natürlicher Sprache und Ontologieanalyse, Morgan & Claypool Publishers.