Sprachkategorien

Sprachkategorien enthalten

Die Definition sprachlicher Kategorien ist ein wichtiges Anliegen von Sprachtheorieund damit variieren die Definition und Benennung von Kategorien zwischen verschiedenen theoretischen Rahmenbedingungen und grammatikalischen Traditionen für verschiedene Sprachen. Das Operationalisierung von sprachlichen Kategorien in Lexikographie, Computerlinguistik, Verarbeitung natürlicher Sprache, Korpuslinguistik, und Terminology Management Erfordert in der Regel ressourcen-, problem- oder anwendungsspezifische Definitionen sprachlicher Kategorien. Im Kognitive Linguistik Es wurde argumentiert, dass sprachliche Kategorien a haben Prototypstruktur wie die der Kategorien gemeinsamer Wörter in einer Sprache.[1]

Linguistische Kategorienbestände

Um das zu erleichtern Interoperabilität zwischen lexikalische Ressourcen, Sprachanmerkungen und Annotationsinstrumente und für den systematischen Umgang mit sprachlichen Kategorien in verschiedenen theoretischen Rahmenbedingungen wurden eine Reihe von Beständen sprachlicher Kategorien entwickelt und werden verwendet. Beispiele, wie unten angegeben. Das praktische Ziel solcher Bestände ist es, durchzuführen Quantitative Evaluation (Für sprachspezifische Bestände), um NLP-Tools zu trainieren oder die linguistische Bewertung, Abfrage oder Annotation von Sprachdaten zu erleichtern. Auf theoretischer Ebene wurde die Existenz universeller Kategorien in der menschlichen Sprache postuliert, z. B. in Universelle Grammatik, aber auch stark kritisiert.

Teil der Sprache

Schulen lehren üblicherweise, dass es 9 gibt Teile der Rede auf Englisch: Substantiv, Verb, Artikel, Adjektiv, Präposition, Pronomen, Adverb, Verbindung, und Zwischenruf. Es gibt jedoch eindeutig viele weitere Kategorien und Unterkategorien. Für Substantive können die Plural-, Possessiv- und Singularformen unterschieden werden. In vielen Sprachen sind auch Wörter für ihre markiert Fall (Rolle als Subjekt, Objekt usw.), grammatikalisches Geschlecht, usw; während Verben für markiert sind für Zeitform, Aspekt, Und andere Dinge. In einigen Tagging -Systemen unterschiedlich Beugungen Das gleiche Wurzelwort erhalten verschiedene Teile der Sprache, was zu einer großen Anzahl von Tags führt. Zum Beispiel nn für singuläre gemeinsame Substantive, nns für Plural -gemeinsame Substantive, NP für einzigartige richtige Substantive (siehe die POS -Tags verwendet im Brown Corpus). Andere Tagging -Systeme verwenden eine geringere Anzahl von Tags und ignorieren feine Unterschiede oder modellieren sie als Merkmale Etwas unabhängig von einem Teil der Sprache.[2]

Bei einem Teil des Speech-Taggings vom Computer ist es typisch, von 50 bis 150 separaten Sprachteilen für Englisch zu unterscheiden. POS -Tagging -Arbeiten wurden in verschiedenen Sprachen durchgeführt, und die verwendeten POS -Tags variieren stark von der Sprache. Tags sind normalerweise so konzipiert, dass sie offenkundige morphologische Unterscheidungen enthalten, obwohl dies zu Inkonsistenzen wie Fallmarkierungen für Pronomen, jedoch nicht zu Substantiven in Englisch und viel größere Vergnügensunterschiede führt. Die Tag -Sets für stark gebogene Sprachen wie z. griechisch und Latein kann sehr groß sein; Tagging Wörter in agglutinative Sprachen wie zum Beispiel Inuit -Sprachen kann praktisch unmöglich sein. Arbeit an stochastisch Methoden zum Tagging Koine Griechisch (Derose 1990) hat über 1.000 Teile Sprache verwendet und festgestellt, dass ungefähr so ​​viele Wörter waren zweideutig in dieser Sprache wie in Englisch. Ein morphosyntaktischer Deskriptor im Fall morphologisch reichhaltiger Sprachen wird üblicherweise unter Verwendung von sehr kurzen Mnemoniken ausgedrückt, wie z. Ncmsan für Kategorie = Substantiv, Typ = gemeinsam, Geschlecht = männlich, Zahl = Singular, Fall = Akkusativ, Animate = Nr.

Das beliebteste "Tag -Set" für POS -Tagging für American English ist wahrscheinlich das Penn -Tag -Set, das im Penn Treebank -Projekt entwickelt wurde.

Mehrsprachige Annotationsschemata

Für westeuropäische Sprachen wurden mit dem Speech, Morphosyntax und der Syntax mit dem Speech, Morphosyntax und Syntax angewiesen, für westeuropäische Sprachen wurden mit dem Eagles -Richtlinien. Die "Expertenberatungsgruppe für Sprachtechnik" (Eagles) war eine Initiative der Europäische Kommission das lief innerhalb der DG XIII. Sprachforschung und Engineering -Programm von 1994 bis 1998, koordiniert von Consorzio Pisa Ricerche, Pisa, Italien. Die Richtlinien der Eagles geben Anleitungen für Markup verwendet werden mit Textkorporainsbesondere zur Identifizierung von Funktionen, die relevant in Computerlinguistik und Lexikographie. Zahlreiche Unternehmen, Forschungszentren, Universitäten und Berufsbehörden in der Europäischen Union haben zusammengearbeitet, um die Richtlinien von Eagles zu erstellen, die Empfehlungen für darstellen de facto Standards und Regeln der Best Practice für:[3]

  • Großräumige Sprachressourcen (z. B. Textkorpora, Berechnung Lexikone und Sprachkorpora);
  • Mittel zur Manipulation solcher Wissen über via Computersprachiger sprachlich Formalismen, markieren Sprachen und verschiedene Softwaretools;
  • Mittel zur Bewertung und Bewertung von Ressourcen, Tools und Produkten.

Die Richtlinien von Eagles haben spätere Arbeiten in anderen Regionen inspiriert, z. B. Osteuropa.[4]

Eine Generation später wurde eine ähnliche Anstrengung von der Forschungsgemeinschaft unter dem Dach von initiiert Universelle Abhängigkeiten. Petrov et al.[5][6] haben einen "universellen", aber hochreduktiven Tag -Set mit 12 Kategorien vorgeschlagen (z. B. keine Subtypen von Substantiven, Verben, Interpunktion usw.; Universeller "Zufall) usw.). Anschließend ergänzt dies durch Kreuzungsspezifikationen für die Abhängigkeitssyntax (Stanford-Abhängigkeiten).[7] und Morphosyntax (Interet Interlingua,[8] teilweise auf der Multext-East/Eagles-Tradition aufbauen) im Kontext der Universelle Abhängigkeiten (UD), ein internationales kooperatives Projekt zum Erstellen Baumbanks der weltweit sprachübergreifenden Anmerkungen für Teile der Sprache, Abhängigkeitssyntax und (optional) morphosyntaktische (morphologische) Merkmale von den weltweiten Sprachen. Kernanwendungen werden automatisiert Textverarbeitung auf dem Gebiet der Verarbeitung natürlicher Sprache (NLP) und Erforschung der natürlichen Sprachsyntax und Grammatik, insbesondere innerhalb Sprachtypologie. Das Annotationsschema hat es Wurzeln in drei verwandten Projekten: Das UD -Annotationsschema verwendet eine Darstellung in Form von Abhängigkeitsbäume im Gegensatz zu a Ausdruckstrukturbäume. Im Februar 2019 gibt es im UD -Inventar etwas mehr als 100 Baumbänke mit mehr als 70 Sprachen.[9] Das Hauptziel des Projekts ist es, eine quersprachliche Konsistenz der Annotation zu erreichen. Sprachspezifische Erweiterungen sind jedoch für morphologische Merkmale zulässig (einzelne Sprachen oder Ressourcen können zusätzliche Funktionen einführen). In einer eingeschränkteren Form können Abhängigkeitsbeziehungen mit einem sekundären Etikett erweitert werden, das das UD -Etikett begleitet, z. B.. Aux: Pass für ein Auxiliary (UD Aux) verwendet, um passive Stimme zu markieren.[10]

Die universellen Abhängigkeiten haben ähnliche Anstrengungen für die Gebiete der Flexionalmorphologie inspiriert,[11] Rahmensemantik[12] und Korreferenz.[13] Zum Phrasenstruktursyntax, eine vergleichbare Anstrengung scheint nicht zu existieren, sondern die Spezifikationen der Penn Treebank wurden auf eine breite Palette von Sprachen angewendet (und erweitert),[14] z. B. Isländisch,[15] Altes Englisch,[16] Mittelglisch,[17] Mittelniederdeutsch,[18] Hochmoderne Hochdeutsche,[19] Jiddisch,[20] Portugiesisch,[21] Japanisch,[22] Arabisch[23] und Chinesen.[24]

Konventionen für interlineare Glanz

Im Linguistik, ein interlinearer Glanz ist a Glanz (Reihe kurzer Erklärungen wie Definitionen oder Aussprachen), die zwischen den Zeilen platziert sind (inter- + linear), wie zwischen einer Zeile des Originaltextes und seiner Übersetzung in eine andere Sprache. Wenn sie beschönigt, erfasst jede Zeile des Originaltextes eine oder mehrere Transkriptionszeilen, die als interlinearer Text oder interlinearer glänzender Text (IGT) bezeichnet werden - kurze. Solche Glosses helfen dem Leser, der Beziehung zwischen dem zu folgen Quellentext und seine Übersetzung und die Struktur der Originalsprache. Es gibt keinen Standardinventar für Glanz, aber in den Leipzig -Glanzregeln werden gemeinsame Etiketten gesammelt.[25] Wikipedia liefert auch a Liste der beschönigen Abkürzungen Das stützt sich auf diese und andere Quellen.

Allgemeine Ontologie für sprachliche Beschreibung (Gold)

Gold ("Allgemeine Ontologie für sprachliche Beschreibung") ist ein Ontologie zum Beschreibende Linguistik. Es enthält eine formalisierte Darstellung der grundlegendsten Kategorien und Beziehungen, die in der wissenschaftlichen Beschreibung der menschlichen Sprache verwendet werden, z. B. als Formalisierung interlinearer Glosses. Gold wurde zuerst von Farrar und Langendoen (2003) eingeführt.[26] Ursprünglich wurde es als Lösung für das Problem der Lösung unterschiedlicher Markup -Schemata für sprachliche Daten, insbesondere Daten von gefährdete Sprachen. Gold ist jedoch viel allgemeiner und kann auf alle Sprachen angewendet werden. In dieser Funktion überschneidet sich Gold mit dem ISO 12620 Datenkategorieregistrierung (ISOCAT); Es ist jedoch strenger strukturiert.

Gold wurde von der aufrechterhalten Linguist -Liste und andere von 2007 bis 2010.[27] Das GENIESSEN Das Projekt erstellte einen Spiegel der 2010 -Ausgabe von Gold als Datenkategorieauswahl innerhalb von ISOCAT. Ab 2018 bleibt Golddaten ein wichtiger Terminologie -Zentrum im Kontext der Linguistische verknüpfte offene Datenwolke, aber da es nicht mehr aktiv aufrechterhalten wird, wird seine Funktion zunehmend durch ersetzt Olia (Für sprachliche Annotation, Aufbau von Gold und ISOCAT) und Lexinfo.net (Für Wörterbuchmetadaten, bauen auf ISOCAT).

ISO 12620 (ISO TC37 -Datenkategorieregistrierung, ISOCAT)

ISO 12620 ist a Standard aus ISO/TC 37 das definiert a Datenkategorieregistrierung, eine Registrierung zur Registrierung sprachlicher Begriffe in verschiedenen Bereichen von Übersetzung, Computerlinguistik und Verarbeitung natürlicher Sprache und Definieren von Zuordnungen sowohl zwischen verschiedenen Begriffen als auch den gleichen Begriffen, die in verschiedenen Systemen verwendet werden.[28][29][30]

Eine frühere Implementierung dieses Standards, ISOCAT, liefert anhaltende Kennungen und URIS Für sprachliche Kategorien, einschließlich des Bestands der Gold -Ontologie (siehe unten). Das Ziel des Registers ist, dass neue Systeme bestehende Terminologie wiederverwenden oder zumindest leicht auf bestehende Terminologie zugeordnet werden können, um zu helfen Interoperabilität.[31] Der Standard wird nach anderen Maßstäben verwendet, z. Lexikaler Markup -Framework (ISO 24613: 2008), und dem Register wurden eine Reihe von Terminologien hinzugefügt, einschließlich der Richtlinien von Eagles, die Nationaler Korpus der Politurund das Termbasis -Austauschformat aus dem Lokalisierungsbranche Standards Association.

Die aktuelle Ausgabe ISO 12620: 2019[32] Bietet keine Begriffe für Sprachtechnologie und Terminologie mehr, sondern ist jetzt auf Terminologie -Ressourcen beschränkt, weshalb der überarbeitete Titel "Management von Terminologie -Ressourcen - Datenkategoriespezifikationen". Dementsprechend wird ISOCAT nicht mehr aktiv entwickelt.[33] Ab Mai 2020, Nachfolgesysteme, Clarin Concept Registry[34] und Datcatinfo[35] entstehen nur.

Für sprachliche Kategorien, die für relevant sind lexikalische Ressourcen, das Lexinfo Das Vokabular ist ein etablierter Gemeinschaftsstandard.[36] insbesondere im Zusammenhang mit dem Ontolex Wortschatz und maschinenlesbare Wörterbücher im Zusammenhang mit Sprachverbundene offene Daten Technologien. Wie der Ontolex -Vokabular auf der Lexikaler Markup -Framework (LMF), Lexinfo baut auf (LMF -Abschnitt von) ISOCAT auf.[37] Im Gegensatz zu ISOCAT wird Lexinfo jedoch aktiv gepflegt und derzeit (Mai 2020) in Gemeinschaftsbemühungen erweitert.[38]

Ontologien der sprachlichen Annotation (Olia)

Ähnlich im Geiste wie Gold liefern die Ontologien der sprachlichen Annotation (Olia) ein Referenzinventar der sprachlichen Kategorien für syntaktische, morphologische und semantische Phänomene, die für relevant sind sprachliche Annotation und Sprachkörper in Form eines Ontologie. Darüber hinaus bieten sie für mehr als 100 Sprachen maschinenlesbare Annotationsschemata, die mit dem Olia-Referenzmodell verbunden sind.[39] Die Olia -Ontologien repräsentieren einen wichtigen Zentrum für Annotationsterminologie in der (Sprachlich) Verknüpfte offene Daten Cloud mit Anwendungen für die Suche, das Abrufen und das maschinelle Lernen über heterogene kommentierte Sprachressourcen.[37]

Zusätzlich zu Annotationsschemata ist das Olia -Referenzmodell auch mit den Eagles -Richtlinien verbunden.[40] GOLD,[40] Isocat,[41] Klarin -Konzeptregister,[42] Universelle Abhängigkeiten,[43] Lexinfo,[43] usw., so ermöglichen sie die Interoperabilität zwischen diesen Vokabeln. Olia wird als Community -Projekt auf Github entwickelt [44]

Verweise

  1. ^ John R Taylor (1995) Sprachkategorisierung: Prototypen in der sprachlichen Theorie, 2. Aufl., Kap. 2 S.21
  2. ^ Universelle POS -Tags
  3. ^ Das Wesentliche der Adler
  4. ^ Dimitrova, L., Ide, N., Petkevic, V., Erjavec, T., Kaalep, H. J., & Tufis, D. (1998, August). Multext-East: Parallele und vergleichbare Korpora und Lexikone für sechs zentrale und osteuropäische Sprachen. Im Proceedings der 17. Internationalen Konferenz über Computer-Linguistik-Volumen 1 (S. 315-319). Assoziation für Computer -Linguistik.
  5. ^ Petrov, Slav; Das, Dipanjan; McDonald, Ryan (11. April 2011). "Ein universelles Teil des Speech-Tagsets". Arxiv:1104.2086 [cs.cl].
  6. ^ Petrov, SLAV (11. April 2011). "Ein universelles Teil des Speech-Tagsets". Arxiv:1104.2086 [cs.cl].
  7. ^ "Stanford -Abhängigkeiten". nlp.stanford.edu. Die Stanford Natural Language Processing Group. Abgerufen 8. Mai 2020.
  8. ^ "Interet". Cuni.cz. Institut für formale und angewandte Linguistik (Tschechische Republik). Abgerufen 8. Mai 2020.
  9. ^ "Universelle Abhängigkeiten". universelleDenencies.org. Abgerufen 2020-05-14.
  10. ^ "Aux: Pass". universelleDenencies.org. Abgerufen 2020-05-14.
  11. ^ Unimorph. "Unimorph: Universelle morphologische Annotation". Unimorph. Abgerufen 2020-05-14.
  12. ^ System-T/Universalpropositionen, System-T, 2020-05-14, abgerufen 2020-05-14
  13. ^ Prange, J., Schneider, N. & Abend, O. (2019, August). Semantisch eingeschränkte Multilayer -Annotation: Der Fall der Kernferenz. Im Verfahren des ersten internationalen Workshops zur Gestaltung von Bedeutung Darstellungen (S. 164-176).
  14. ^ "Penn an Parsen Corpora of Historical English: Other Corpora". www.ling.upenn.edu. Abgerufen 2020-05-14.
  15. ^ "Isländischer Parsed Historical Corpus (ICEPAHC)". www.linguist.is. Abgerufen 2020-05-14.
  16. ^ Warner, Anthony Department of Language and Linguistic Science University of York York; Taylor, Ann; Warner, Anthony; Pintzuk, Susan; Beths, Frank (September 2003). "Der York-Toronto-Helsinki-Korpus der alten englischen Prosa (ycoe)". {{}}: Journal zitieren erfordert |journal= (Hilfe)
  17. ^ "Penn-Helsinki Parsend Corpus von Mittelglisch 2". www.ling.upenn.edu. Abgerufen 2020-05-14.
  18. ^ "Korpus des historischen Tiefdeutsch". www.chlg.ac.uk. Abgerufen 2020-05-14.
  19. ^ Light, C. & Wallenberg, J. (2011). Über die Verwendung von Passiven in ganz germanischer. Präsentiert auf der 13. Sitzung der diachronischen Generativsyntax (DIGS) -Konferenz 13, Universität von Pennsylvania. 5. Juni 2011
  20. ^ Beatrice Santorini (1993) [.//Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20Santorini/Santorini-1993.pdf Die Rate der Phrasenstrukturänderung in der Geschichte von Jiddisch]. Sprachschwankung und Veränderung 5, 257-283.
  21. ^ "Tycho Brahe -Projekt". www.tycho.iel.unicamp.br. Abgerufen 2020-05-14.
  22. ^ "NPCMJ - Ninjal Paresed Corpus des modernen Japanisch". Abgerufen 2020-05-14.
  23. ^ "Arabische Baumbank: Teil 3 (Full Corpus) V 2.0 (MPG + Syntaktische Analyse) - Sprachdatenkonsortium". Catalog.ldc.upenn.edu. Abgerufen 2020-05-14.
  24. ^ "Penn Chinese Treebank -Projekt". Verben.Colorado.edu. Abgerufen 2020-05-14.
  25. ^ Comrie, B., Haspelmath, M. & Bickel, B. (2008). Die Leipzig-Glanzregeln: Konventionen für interlineare Morphem-für-Morphem-Glanzgüter. Abteilung für Linguistik des Max -Planck -Instituts für Evolutionsanthropologie und Abteilung für Linguistik der Universität Leipzig. Abgerufen Januar, 28, 2010.
  26. ^ Scott Farrar und D. Terence Langendoen (2003) "Eine sprachliche Ontologie für das semantische Web". GLOT International. 7 (3), S. 97-100, [1].
  27. ^ Goldversionen
  28. ^ "ISO 12620: 1999 - Computeranwendungen in der Terminologie - Datenkategorien". ISO.org. 2011. Abgerufen 9. November 2011.
  29. ^ "ISO 12620: 2009 - Terminologie und andere Sprach- und Inhaltsressourcen - Spezifikation der Datenkategorien und das Management einer Datenkategorieregistrierung für Sprachressourcen". ISO.org. 2011. Abgerufen 9. November 2011.
  30. ^ "ISO 12620: 2019 Management von Terminologie -Ressourcen - Datenkategoriespezifikationen". ISO. Abgerufen 20. Januar 2020.
  31. ^ Bononno, Robert (2011). "Terminologie für Übersetzer - eine Implementierung von ISO 12620". Meta. 45 (4): 646–669. Citeseerx 10.1.1.136.4771. doi:10.7202/002101ar.
  32. ^ "ISO 12620: 2019 Management von Terminologie -Ressourcen - Datenkategoriespezifikationen". ISO. Abgerufen 20. Januar 2020.
  33. ^ "Das Datenkategorie -Repository (DCR) hat die Adresse geändert". www.iso.org. Abgerufen 2020-05-08.
  34. ^ "Clarin Concept Registry | Clarin Eric". www.clarin.eu. Abgerufen 2020-05-08.
  35. ^ "Datcatinfo". www.datcatinfo.net. Abgerufen 2020-05-08.
  36. ^ "Lexinfo". www.lexinfo.net. Abgerufen 2020-05-14.
  37. ^ a b P. Cimiano, C. Chiarcos, J. P. McCrae & J. Gracia (2020). Sprachliche verknüpfte Daten (S. 137-160). Springer, Cham.
  38. ^ Ontolex/Lexinfo, Ontolex Community Group, 2020-03-07, abgerufen 2020-05-14
  39. ^ "Olia Ontologies". purl.org/olia. Abgerufen 2020-05-14.{{}}: CS1 Wartung: URL-Status (Link)
  40. ^ a b Chiarcos, C. (2008). Eine Ontologie sprachlicher Anmerkungen. Im LDV -Forum (Bd. 23, Nr. 1, S. 1-16).
  41. ^ Chiarcos, C. (2010, Mai). Erde eine Ontologie sprachlicher Anmerkungen in der Datenkategorieregistrierung. Im LREC 2010 Workshop zu Sprachressourcen- und Sprachtechnologiestandards (LT & LTS), Valetta, Malta (S. 37-40).
  42. ^ Rehm, G., Galanis, D., Labropoulou, P., Piperidis, S., Welß, M., USbeck, R., et al. (2020). Auf dem Weg zu einem interoperablen Ökosystem von AI- und LT -Plattformen: eine Roadmap für die Implementierung verschiedener Interoperabilitätsniveaus. Arxiv Preprint Arxiv:2004.08355.
  43. ^ a b Christian Chiarcos, Maxim Ionov und Christian Fäth (2020), Annotation Interoperability in der Zeit nach der Isokat, LREC 2020
  44. ^ Acoli-Repo/Olia, Acoli, 2020-03-10, abgerufen 2020-05-14

Externe Links