Lexikaler Markup -Framework
Sprachressourcenmanagement - Lexikaler Markup -Framework (LMF; ISO 24613: 2008), ist der Internationale Standardisierungsorganisation ISO/TC37 Standard für Verarbeitung natürlicher Sprache (NLP) und maschinenlesbares Wörterbuch (MRD) Lexikone.[1] Der Umfang ist Standardisierung von Prinzipien und Methoden in Bezug auf Sprachressourcen in den Kontexten der mehrsprachigen Kommunikation.
Ziele
Die Ziele von LMF sind es, ein gemeinsames Modell für die Erstellung und Verwendung von zu liefern lexikalische Ressourcen, um den Datenaustausch zwischen und zwischen diesen Ressourcen zu verwalten und die Verschmelzung einer großen Anzahl einzelner elektronischer Ressourcen zur Bildung umfassender globaler elektronischer Ressourcen zu ermöglichen.
Die Arten einzelner Instanziationen von LMF können einsprachige, zweisprachige oder mehrsprachige lexikalische Ressourcen umfassen. Die gleichen Spezifikationen sind sowohl für kleine als auch für große Lexikaner sowohl für einfache als auch für komplexe Lexikaner sowohl für schriftliche als auch für gesprochene lexikalische Darstellungen zu verwenden. Die Beschreibungen reichen von Morphologie, Syntax, Computersemantik zu Computergestützte Übersetzung. Die abgedeckten Sprachen sind nicht beschränkt auf Europäische Sprachen aber alles abdecken natürliche Sprachen. Der Bereich des gezielten NLP Anwendungen ist nicht eingeschränkt. LMF ist in der Lage, die meisten Lexikone darzustellen, einschließlich Wordnet, EDR- und Bewährungsspeicher.
Geschichte
In der Vergangenheit wurde die Lexikonstandardisierung von einer Reihe von Projekten wie Genelex, EDR, Eagles, Multext, Bewährung, einfacher und Isle untersucht und entwickelt. Dann ist die ISO/TC37 Nationale Delegationen beschlossen, Standards für die Repräsentation von NLP und Lexikon zu beheben. Die Arbeiten an der LMF begannen im Sommer 2003 mit einem neuen Arbeitsplatzvorschlag, der von der US -Delegation ausgestellt wurde. Im Herbst 2003 gab die französische Delegation einen technischen Vorschlag für a heraus Datenmodell NLP -Lexonen gewidmet. Anfang 2004 beschloss das ISO/TC37 -Komitee, ein gemeinsames ISO -Projekt mit Nicoletta Calzolari zu bilden (CNR-Ilc Italien) als Convenor und Gil Francopoulo (Tagmatica France) und Monte George (Ansi USA) als Herausgeber. Der erste Schritt bei der Entwicklung von LMF bestand darin, ein Gesamtrahmen zu entwerfen, das auf den allgemeinen Merkmalen bestehender Lexonen basiert und eine konsistente Terminologie entwickelt, um die Komponenten dieser Lexikone zu beschreiben. Der nächste Schritt war das tatsächliche Design eines umfassenden Modells, das alle Lexikonen im Detail am besten darstellte. Eine große Gruppe von 60 Experten hat eine breite Palette von Anforderungen für LMF beigetragen, die viele Arten von NLP -Lexikonen abdeckten. Die Redakteure von LMF arbeiteten eng mit dem Expertengremium zusammen, um die besten Lösungen zu identifizieren und einen Konsens über das Design von LMF zu erzielen. Besonderes Augenmerk wurde der Morphologie gelegt, um leistungsstarke Mechanismen für den Umgang mit Problemen in mehreren Sprachen zu liefern, die als schwer zu handhaben bekannt waren. 13 Versionen wurden geschrieben, versandt (an die nationalen nominierten Experten), kommentiert und diskutiert in verschiedenen technischen Treffen der ISO. Nach fünf Jahren Arbeit, darunter zahlreiche persönliche Treffen und E-Mail-Börsen, kamen die Redakteure zu einem kohärenten UML-Modell an. Zusammenfassend sollte LMF als Synthese des Standes der Kunst im NLP -Lexikonfeld angesehen werden.
Das momentane Stadium
Die ISO -Nummer lautet 24613. Die LMF -Spezifikation wurde am 17. November 2008 offiziell als internationaler Standard veröffentlicht.
Als eines der Mitglieder der ISO/TC37 -Standardfamilie
Die ISO/TC37 -Standards werden derzeit als hohes Niveau ausgearbeitet Spezifikationen und umgehen mit Wortsegmentierung (ISO 24614), Anmerkungen (ISO 24611 A.K.A. Merkmalsstrukturen (ISO 24610), Multimedia -Behälter (ISO 24616 a.k.a. mlif) und Lexikone (ISO 24613). Diese Standards basieren auf Spezifikationen auf niedriger Ebene, die den Konstanten gewidmet sind, nämlich Datenkategorien (Überarbeitung von ISO 12620). Sprachcodes (ISO 639), Skriptecodes (ISO 15924), Ländercodes (ISO 3166) und Unicode (ISO 10646).
Die Organisation der beiden Ebenen bildet eine kohärente Standardfamilie mit den folgenden allgemeinen und einfachen Regeln:
- Die Spezifikation auf hoher Ebene liefert strukturelle Elemente, die von den standardisierten Konstanten geschmückt werden.
- Die Spezifikationen auf niedriger Ebene liefern standardisierte Konstanten als Metadaten.
Schlüsselstandards
Die Linguistikkonstanten wie/feminin/oder/transitiv/sind in LMF nicht definiert, sondern werden in der Datenkategorieregistrierung (DCR) aufgezeichnet, die von ISO/TC37 in Einklang mit ISO/IEC 11179-3: 2003 als globale Ressource aufrechterhalten werden.[2] Und diese Konstanten werden verwendet, um die hochgradigen Strukturelemente zu schmücken.
Die LMF -Spezifikation entspricht den Modellierungsprinzipien von Einheitliche Modellierungssprache (Uml) wie definiert von Objektverwaltungsgruppe (OMG). Die Struktur wird mittels UML -Klasse angegeben Diagramme. Die Beispiele werden mittels UML -Instanz- (oder Objekt-) Diagramme dargestellt.
Ein XML DTD wird in einem Anhang des LMF -Dokuments angegeben.
Modellstruktur
LMF besteht aus den folgenden Komponenten:
- Das Kernpaket, das das strukturelle Skelett ist, das die grundlegende Hierarchie der Informationen in einem lexikalischen Eintrag beschreibt.
- Erweiterungen des Kernpakets, die in einem Rahmen ausgedrückt werden, das die Wiederverwendung der Kernkomponenten in Verbindung mit den zusätzlichen Komponenten beschreibt, die für eine bestimmte lexikalische Ressource erforderlich sind.
Die Erweiterungen sind speziell für Morphologie, MRD, NLP Syntax, NLP Semantik, NLP Mehrsprachige Notationen, NLP Morphologische Muster, MultiWord -Ausdruck Muster, und Einschränkungsausdruck Muster.
Beispiel
Im folgenden Beispiel ist der lexikalische Eintrag mit einem Lemma verbunden Geistliche und zwei gebogene Formen Geistliche und Geistliche. Die Sprachcodierung ist für die gesamte lexikalische Ressource festgelegt. Der Sprachwert wird für das gesamte Lexikon festgelegt, wie im Folgenden gezeigt Uml Beispiel Diagramm.
Die Elemente Lexikalische Ressource, Globale Informationen, Lexikon, Lexikaleintrag, Lemma, und Wortform Definieren Sie die Struktur des Lexikons. Sie sind im LMF -Dokument angegeben. Andererseits, Languagecoding, Sprache, Teil der Rede, gängiges Substantiv, Schriftform, Grammatikalum, Singular, Plural- sind Datenkategorien, die aus der Datenkategorieregistrierung entnommen werden. Diese Markierungen schmücken die Struktur. Die Werte ISO 639-3, Geistliche, Geistliche sind einfache Charakter -Saiten. Der Wert Eng wird aus der Liste der Sprachen entnommen, wie definiert von ISO 639-3.
Mit einigen zusätzlichen Informationen wie dtdversion und featDie gleichen Daten können durch Folgendes ausgedrückt werden Xml Fragment:
dtdversion ="fünfzehn"> att ="Languagecoding" val ="ISO 639-3"/> att ="Sprache" val ="Eng"/> att ="Teil der Rede" val ="gängiges Substantiv"/> att ="Schriftform" val ="Geistliche"/> att ="Schriftform" val ="Geistliche"/> att ="Grammatikalum" val ="Singular"/> att ="Schriftform" val ="Geistliche"/> att ="Grammatikalum" val ="Plural"/>
Dieses Beispiel ist ziemlich einfach, während LMF viel komplexere sprachliche Beschreibungen darstellen kann, die das XML -Tagging entsprechend komplex ist.
Ausgewählte Veröffentlichungen über LMF
Die erste Veröffentlichung zur LMF -Spezifikation, wie sie von ISO ratifiziert wurde (dieses Papier wurde (im Jahr 2015) zum 9. am meisten zitierten Papier innerhalb der Sprachressourcen und Bewertung Konferenzen aus LREC -Papieren):
- Sprachressourcen und Bewertung LREC-2006/Genua: Gil Francopoulo, Monte George, Nicoletta Calzoli, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexikaler Markup-Rahmen (LMF) [3]
Über semantische Darstellung:
- Vesellschaft für linguistische datenverarBeitung GLDV-2007/Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Lexikaler Markup-Rahmen ISO-Standard für semantische Informationen in NLP-Lexikons [4]
Über afrikanische Sprachen:
- Traitement Automatique des Langues Naturelles, Marseille, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: Auf dem Weg zur Gründung eines LMF-basierten Wolof-Sprachlexikons ) [auf Französisch][5]
Über asiatische Sprachen:
- Lexikographie, Journal of Asialex, Springer 2014: Lexikaler Markup-Gerüst: Gil Francopoulo, Chu-ren Huang: Ein ISO-Standard für elektronische Lexika und seine Auswirkungen auf asiatische Sprachen doi 10.1007/s40607-014-0006-Z.
Über europäische Sprachen:
- Coling 2010: Verena Henrich, Erhard Hinrichs: Standardisierungswörter im ISO-Standard LMF: WordNet-LMF für Germanet [6]
- EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Ausblenden eines standardisierten Formats für die Interoperabilität des Unterkategorisierungsrahmens [7]
- EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY-Eine großflächige, einheitliche lexikalisch-semantische Ressource, die auf LMF basiert.[8]
Über semitische Sprachen:
- Journal of Natural Language Engineering, Cambridge University Press (im Frühjahr 2015 erscheinen): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: ISO -Standardmodellierung eines großen arabischen Wörterbuchs.
- Proceedings of the Seventh Global WordNet Conference 2014: Nadia B M Karmani, Hsan Soussou, Adel M Alimi: Erstellen eines standardisierten Wordnets im ISO LMF für AEB -Sprache.[9]
- Proceedings of the Workshop: HLT & NLP innerhalb der arabischen Welt, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Auf dem Weg zu einem syntaktischen Lexikon arabischer Verben.[10]
- Traitement Automatique des Langues Naturelles, Toulouse (in Französisch) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des Paradigmes de Flexion des Verbes Arabes Selon La Nive LMF-ISO 24613.[11]
Spezielles Buch
2013 wird ein Buch veröffentlicht: LMF Lexikaler Markup -Framework[12] das ist vollständig LMF gewidmet. Das erste Kapitel befasst sich mit der Geschichte von Lexikonmodellen, das zweite Kapitel ist eine formale Präsentation des Datenmodells und das dritte, das die Beziehung zu den Datenkategorien der ISO-DCR betrifft. Die anderen 14 Kapitel befassen sich mit einem Lexikon oder einem System, entweder im zivilen oder im militärischen Bereich, entweder in wissenschaftlichen Forschungslabors oder für industrielle Anwendungen. Dies sind WordNet-LMF, prolmf, Duelme, UBY-lmf, LG-LMF, Relish, Globalatlas (oder Global Atlas) und Wordscape.
Verwandte wissenschaftliche Kommunikation
- Sprachressourcen und Bewertung LREC-2006/Genoa: Die Relevanz von Standards für Forschungsinfrastrukturen [2]
Siehe auch
- Computerlexikologie
- Lexikalische Semantik
- Morphologie (Linguistik) Für Erklärungen zu Paradigmen und Morphosyntax
- Maschinenübersetzung Für eine Präsentation der verschiedenen Arten von mehrsprachigen Notationen (siehe Abschnitt Ansätze)
- Morphologisches Muster für den Unterschied zwischen einem Paradigma und einem Paradigmenmuster
- Wordnet für eine Präsentation der berühmtesten Semantisches Lexikon Für die englische Sprache
- Universeller Terminologieaustausch (UTX) für ein benutzerorientiertes alternatives Format für maschinenlesbare Wörterbücher
- Universelle Netzwerksprache
- UBY-lmf für eine Anwendung von LMF
- Ontolex-Lemon Für ein LMF-basierter Modell für die Veröffentlichung von Wörterbüchern als Wissensgrafiken, in RDF und/oder als Sprachverbundene offene Daten
Verweise
- ^ "ISO 24613: 2008 - Sprachressourcenmanagement - Lexikaler Markup Framework (LMF)". ISO.org. Abgerufen 2016-01-24.
- ^ a b "Die Relevanz von Standards für Forschungsinfrastrukturen" (PDF). Hal.inria.fr. Abgerufen 2016-01-24.
- ^ "Lexical Markup Framework (LMF)" (PDF). Hal.inria.fr. Abgerufen 2016-01-24.
- ^ "Lexical Markup Framework (LMF) für NLP -mehrsprachige Ressourcen" (PDF). Hal.inria.fr. Abgerufen 2016-01-24.
- ^ "Gegen la mise en place d'un lexique basé sur lmf pour la Langue Wolof" (PDF). ACLWeb.org. Abgerufen 2016-01-24.
- ^ "Standardisieren von Wortnetzen im ISO-Standard LMF: WordNet-LMF für Germanet" (PDF). ACLWeb.org. Abgerufen 2016-01-24.
- ^ "Subcat-LMF: Ausblenden eines standardisierten Formats für die Interoperabilität des Unterkategorisierungsrahmens" (PDF). ACLWeb.org: 550–560. April 2012. Abgerufen 2016-01-24.
- ^ "UBY-Eine groß angelegte, einheitliche lexikalisch-semantische Ressource, die auf LMF basiert" (PDF). ACLWeb.org. Abgerufen 2016-01-24.
- ^ "Erstellen eines standardisierten Wordnets im ISO LMF für AEB -Sprache" (PDF). ACLWeb.org. Abgerufen 2016-01-24.
- ^ "LREC 2008 Proceedings". Lrec-conf.org. Abgerufen 2016-01-24.
- ^ "Modélisation des Paradigmes de Flexion des Verbes Arabes Selon La Nive LMF - ISO 24613" (PDF). ACLWeb.org. Abgerufen 2016-01-24.
- ^ Gil Francopoulo (herausgegeben von) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN978-1-84821-430-9)