Verarbeitung natürlicher Sprache

Ein automatisierter Online -Assistent Bereitstellung Kundendienst Auf einer Webseite ist ein Beispiel für eine Anwendung, bei der natürliche Sprachverarbeitung eine Hauptkomponente ist.[1]

Verarbeitung natürlicher Sprache (NLP) ist ein Unterfeld von Linguistik, Informatik, und künstliche Intelligenz Besorgt über die Interaktionen zwischen Computern und menschlicher Sprache, insbesondere wie Computer programmiert werden, um große Mengen von zu verarbeiten und zu analysieren Natürliche Sprache Daten. Das Ziel ist ein Computer, der in der Lage ist, den Inhalt von Dokumenten, einschließlich der Kontext Nuancen der Sprache in ihnen. Die Technologie kann dann genaue Informationen und Erkenntnisse extrahieren, die in den Dokumenten enthalten sind sowie die Dokumente selbst kategorisieren und organisieren.

Herausforderungen in der Verarbeitung natürlicher Sprache beinhalten häufig Spracherkennung, natürliches Sprachverständnis, und Natürliche Sprache Generation.

Geschichte

Die Verarbeitung natürlicher Sprache hat ihre Wurzeln in den 1950er Jahren. Bereits im Jahr 1950, Alan Turing veröffentlichte einen Artikel mit dem Titel "Computermaschinen und Intelligenz"was vorgeschlagen hat, was jetzt als genannt wird Turing-Test als Kriterium der Intelligenz, obwohl zu der Zeit, die nicht als Problem von künstlicher Intelligenz getrennt war. Der vorgeschlagene Test beinhaltet eine Aufgabe, die die automatisierte Interpretation und Erzeugung von natürlicher Sprache beinhaltet.

Symbolische NLP (1950er - Anfang der 1990er Jahre)

Die Prämisse des symbolischen NLP wird gut verummiert von John Searle's Chinesisches Zimmer Experiment: Bei einer Sammlung von Regeln (z. B. einem chinesischen Wortbuch mit Fragen und übereinstimmenden Antworten) emuliert der Computer das Verständnis der natürlichen Sprache (oder andere NLP -Aufgaben), indem diese Regeln auf die von ihm konfrontierten Daten angewendet werden.

  • 1950er Jahre: Das Georgetown Experiment im Jahr 1954 voll beteiligt automatische Übersetzung von mehr als sechzig russischen Sätzen ins Englische. Die Autoren behaupteten, innerhalb von drei oder fünf Jahren sei eine maschinelle Übersetzung ein gelöstes Problem.[2] Der echte Fortschritt war jedoch viel langsamer und nach dem ALPAC -Bericht Im Jahr 1966, das feststellte, dass die zehnjährige Forschung die Erwartungen nicht erfüllt hatte, wurde die Finanzierung für maschinelle Übersetzung dramatisch reduziert. Bis Ende der 1980er Jahre wurden nur wenige weitere Untersuchungen zur maschinellen Übersetzung durchgeführt, als der erste Statistische maschinelle Übersetzung Systeme wurden entwickelt.
  • 1960er Jahre: Einige besonders erfolgreiche natürliche Sprachverarbeitungssysteme, die in den 1960er Jahren entwickelt wurden, waren Shrdlu, ein natürliches Sprachsystem, das in eingeschränkter Arbeit arbeitet "Blockiert Welten"mit eingeschränkten Vokabeln und Eliza, eine Simulation von a Rogerianer Psychotherapeut, geschrieben von Joseph Weizenbaum Zwischen 1964 und 1966. verwendete Eliza manchmal eine erstaunlich menschliche Interaktion. Wenn der "Patient" die sehr kleine Wissensbasis überschritten hat, könnte Eliza eine generische Reaktion geben, beispielsweise auf "Mein Kopf weh tut" mit "Warum sagst du, dein Kopf tut weh?".
  • 1970er Jahre: In den 1970er Jahren begannen viele Programmierer zu schreiben "konzeptionell Ontologien", die Informationen in realer Welt zu computergestützten Daten strukturierten. Beispiele sind Margie (Schank, 1975), Sam (Cullingford, 1978), Pam (Wilensky, 1978), Tainespin (Meehan, 1976), Qualm (Lehnert, 1977) , Politik (Carbonell, 1979) und Handlungseinheiten (Lehnert 1981). In dieser Zeit die erste Chatterbots wurden geschrieben (z. B.,, PARIEREN).
  • 1980er Jahre: Die 1980er und frühen 1990er Jahre kennzeichnen die Hexen-Tag der symbolischen Methoden in NLP. Zu den zeitlichen Fokuszonen gehörte die Forschung zur regelbasierten Parsen (z. B. die Entwicklung von HPSG als Computeroperation von Generative Grammatik), Morphologie (z. B. zweistufige Morphologie[3]), Semantik (z. B.,, Lesk -Algorithmus), Referenz (z. B. innerhalb der Zentrierungstheorie[4]) und andere Bereiche des natürlichen Sprachverständnisses (z. B. in der Rhetorische Strukturtheorie). Andere Forschungslinien wurden fortgesetzt, z. B. die Entwicklung von Chatterbots mit Renner und Jabberwacky. Eine wichtige Entwicklung (die schließlich zur statistischen Wende in den neunziger Jahren führte) war die steigende Bedeutung der quantitativen Bewertung in diesem Zeitraum.[5]

Statistisches NLP (1990er bis 2010s)

Bis in die 1980er Jahre basierten die meisten natürlichen Sprachverarbeitungssysteme auf komplexen Mengen handgeschriebener Regeln. Ab den späten 1980er Jahren gab es jedoch eine Revolution in der natürlichen Sprachverarbeitung mit der Einführung von maschinelles Lernen Algorithmen für die Sprachverarbeitung. Dies war sowohl auf die stetige Zunahme der Rechenleistung zurückzuführen (siehe Moores Gesetz) und die allmähliche Verringerung der Dominanz von Chomskyan Theorien der Linguistik (z. Transformationsgrammatik), deren theoretische Grundlagen die Art von entmutigten Korpuslinguistik Dies zugrunde dem maschinellen Lernansatz zur Sprachverarbeitung.[6]

  • 1990er Jahre: Viele der bemerkenswerten frühen Erfolge zu statistischen Methoden in NLP traten auf dem Gebiet von auf Maschinenübersetzungvor allem für die Arbeit bei IBM Research. Diese Systeme konnten die vorhandene Mehrsprachige nutzen Textkorpora das war von der produziert worden Kanada -Parlament und die europäische Union Infolge von Gesetzen, die die Übersetzung aller Regierungsverfahren in alle offiziellen Sprachen der entsprechenden Regierungssysteme fordern. Die meisten anderen Systeme hängen jedoch von Korpora ab, die speziell für die von diesen Systemen implementierten Aufgaben entwickelt wurden, was (und ist häufig weiterhin eine wesentliche Einschränkung des Erfolgs dieser Systeme. Infolgedessen hat sich eine Menge Forschung in Methoden des effektiveren Lernens aus begrenzten Datenmengen befasst.
  • 2000er Jahre: Mit dem Wachstum des Webs sind seit Mitte der neunziger Jahre zunehmende Mengen an Rohdaten (nicht annotierter) Sprachdaten verfügbar. Die Forschung hat sich daher zunehmend auf unbeaufsichtigt und Semi-betriebliches Lernen Algorithmen. Solche Algorithmen können aus Daten lernen, die nicht mit den gewünschten Antworten oder mit einer Kombination aus kommentierten und nicht annotierten Daten handnotiert wurden. Im Allgemeinen ist diese Aufgabe viel schwieriger als überwachtes Lernenund erzeugt normalerweise weniger genaue Ergebnisse für eine bestimmte Menge an Eingabedaten. Es gibt jedoch eine enorme Menge nicht annotierter Daten (einschließlich des gesamten Inhalts der Weltweites Netz), was die unteren Ergebnisse oft ausgleichen kann, wenn der verwendete Algorithmus ein niedrig genug ist Zeitkomplexität praktisch sein.

Neuronaler NLP (vorhanden)

In den 2010er Jahren, Repräsentationslernen und Tiefes neuronales Netzwerk-Methoden für maschinelles Lernen im Stil von maschinellem Lernen wurden in der Verarbeitung natürlicher Sprache weit verbreitet. Diese Popularität war teilweise auf eine Flut von Ergebnissen zurückzuführen, die zeigen, dass solche Techniken[7][8] kann hochmoderne Ergebnisse zu vielen natürlichen Sprachaufgaben erreichen, z. B. in Sprachmodellierung[9] und analysieren.[10][11] Dies wird immer wichtiger in der Medizin und im Gesundheitswesen, wo NLP hilft, Notizen und Text in zu analysieren elektronische Gesundheitsakten Das wäre ansonsten für das Studium nicht zugänglich, wenn Sie versuchen, die Pflege zu verbessern.[12]

Methoden: Regeln, Statistiken, neuronale Netze

In den frühen Tagen wurden viele Sprachverarbeitungssysteme mit symbolischen Methoden entworfen, d. H. Die Handkodierung einer Reihe von Regeln, gepaart mit einer Wörterbuch-Lookup:[13][14] wie durch das Schreiben von Grammatiken oder durch die Entwicklung heuristischer Regeln für Stamm.

Neuere Systeme basieren auf maschinelles Lernen Algorithmen haben viele Vorteile gegenüber Handproduzenten Regeln:

  • Die Lernverfahren, die während des maschinellen Lernens verwendet werden, konzentrieren sich automatisch auf die häufigsten Fälle, während beim Schreiben von Regeln von Hand häufig nicht offensichtlich ist, wo die Anstrengungen gerichtet werden sollten.
  • Automatische Lernverfahren können statistische Inferenzalgorithmen verwenden, um Modelle zu erstellen, die für unbekannte Eingaben robust sind (z. B. Wörter oder Strukturen, die zuvor nicht gesehen wurden) und zu fehlerhaften Eingaben (z. B. mit falsch geschriebenen Wörtern oder versehentlich weggelassen). Im Allgemeinen ist es äußerst schwierig, fehleranfällig und zeitaufwändig, wenn man diese Eingaben anmutig mit handgeschriebenen Regeln oder allgemeiner Schaffung von Systemen handgeschriebene Regeln ist, die weiche Entscheidungen treffen.
  • Systeme, die auf automatischem Erlernen der Regeln basieren, können einfach genauer gemacht werden, indem mehr Eingabedaten angegeben werden. Systeme, die auf handgeschriebenen Regeln basieren, können jedoch nur durch Erhöhen der Komplexität der Regeln genauer gemacht werden, was eine viel schwierigere Aufgabe ist. Insbesondere ist die Komplexität von Systemen, die auf handgeschriebenen Regeln basieren, über die die Systeme immer unüberschaubarer werden. Das Erstellen von mehr Daten zur Eingabe von Systemen für maschinelle Lernsysteme erfordert jedoch lediglich eine entsprechende Erhöhung der Anzahl der Arbeitsstunden, im Allgemeinen ohne signifikante Erhöhung der Komplexität des Annotationsprozesses.

Trotz der Popularität des maschinellen Lernens in der NLP -Forschung werden symbolische Methoden immer noch (2020) verwendet:

  • Wenn die Anzahl der Trainingsdaten nicht ausreicht, um maschinelles Lernmethoden erfolgreich anzuwenden, z. Apertium System,
  • Zur Vorverarbeitung in NLP -Pipelines, z. B.,,, Tokenisierung, oder
  • Zur Nachbearbeitung und Transformation des Ausgangs von NLP -Pipelines, z. B. für Wissensextraktion aus syntaktischen Parsen.

statistische Methoden

Seit der sogenannten "statistischen Revolution"[15][16] In den späten 1980er und Mitte der neunziger Jahre hat sich die Forschung in der natürlichen Sprachverarbeitung stark auf maschinelles Lernen angewiesen. Das maschinell-lernende Paradigma ruft stattdessen auf die Verwendung auf statistische Inferenz automatisch solche Regeln durch die Analyse von groß lernen Korpora (die Pluralform von Korpus, ist eine Reihe von Dokumenten, möglicherweise mit menschlichen oder Computeranmerkungen) von typischen realen Beispielen.

Viele verschiedene Klassen von Maschinenlernalgorithmen wurden auf natürliche Sprachverarbeitungsaufgaben angewendet. Diese Algorithmen nehmen einen großen Satz von "Merkmalen" ein, die aus den Eingabedaten generiert werden. Zunehmend hat sich die Forschung jedoch darauf konzentriert Statistische Modelle, die weich machen, probabilistisch Entscheidungen basierend auf dem Anhängen echt bewertet Gewichte für jedes Eingangsmerkmal (komplex bewertet Einbettungen,[17] und neuronale Netze im Allgemeinen wurden ebenfalls vorgeschlagen, z. Rede[18]). Solche Modelle haben den Vorteil, dass sie die relative Gewissheit vieler verschiedener möglicher Antworten ausdrücken können und nicht nur eine zuverlässigere Ergebnisse erzielen, wenn ein solches Modell als Komponente eines größeren Systems enthalten ist.

Einige der frühesten verwendeten Algorithmen für maschinelles Lernen, wie z. Entscheidungsbäume, produzierte Systeme mit harten If-then-Regeln, ähnlich wie vorhandene handgeschriebene Regeln. Jedoch, SPEC-STAGGGING führte die Verwendung von vor Versteckte Markov -Modelle zur natürlichen Sprachverarbeitung und zunehmend hat sich die Forschung konzentriert Statistische Modelle, die weich machen, probabilistisch Entscheidungen basierend auf dem Anhängen echt bewertet Gewichte zu den Funktionen, die die Eingabedaten ausmachen. Das Cache -Sprachmodelle von denen viele Spracherkennung Systeme sind jetzt Beispiele für solche statistischen Modelle. Solche Modelle sind im Allgemeinen robuster, wenn sie unbekannte Eingaben erhalten, insbesondere in Eingaben, die Fehler enthält (wie es für Daten in der realen Welt sehr häufig vorkommt), und erzielen zuverlässigere Ergebnisse, wenn sie in ein größeres System integriert werden, das mehrere Unteraufgaben umfasst.

Seit der neuronalen Wende wurden statistische Methoden in der NLP -Forschung weitgehend durch neuronale Netzwerke ersetzt. Sie sind jedoch weiterhin für Kontexte relevant, in denen statistische Interpretierbarkeit und Transparenz erforderlich sind.

Neuronale Netze

Ein wesentlicher Nachteil statistischer Methoden besteht darin, dass sie eine ausführliche Feature -Engineering erfordern. Seit 2015,[19] Das Feld hat also weitgehend statistische Methoden aufgegeben und auf verschoben Neuronale Netze für maschinelles Lernen. Beliebte Techniken umfassen die Verwendung von Worteinbettungen So erfassen die semantischen Eigenschaften von Wörtern und eine Zunahme des End-to-End-Lernens einer höheren Aufgabe (z. B. Beantwortung von Fragen), anstatt sich auf eine Pipeline separater Zwischenaufgaben (z. B. Teil der Sprachabhängigkeit und Abhängigkeit zu verwenden Parsing). In einigen Bereichen hat diese Verschiebung wesentliche Änderungen bei der Entwurf von NLP-Systemen mit sich gebracht, sodass tiefe netzwerkbasierte Ansätze als ein neues Paradigma angesehen werden können, das sich von der statistischen Verarbeitung natürlicher Sprache unterscheidet. Zum Beispiel der Begriff Neuralmaschinenübersetzung (NMT) betont die Tatsache, dass tief lernbasierte Ansätze zur maschinellen Übersetzung direkt lernen Sequenz zu Sequenz Transformationen, die Notwendigkeit von Intermediate -Schritten wie Wortausrichtung und Sprachmodellierung, die in verwendet wurden Statistische maschinelle Übersetzung (SMT).

Gemeinsame NLP -Aufgaben

Das Folgende ist eine Liste einiger der am häufigsten erforschten Aufgaben in der Verarbeitung natürlicher Sprache. Einige dieser Aufgaben haben direkte reale Anwendungen, während andere häufiger als Unteraufgaben dienen, die zur Lösung größerer Aufgaben helfen.

Obwohl natürliche Sprachverarbeitungsaufgaben eng miteinander verflochten sind, können sie ausführlich in Kategorien unterteilt werden. Eine grobe Division ist unten angegeben.

Text- und Sprachverarbeitung

Optische Zeichenerkennung (OCR)
Bestimmen Sie bei einem Bild, das gedruckten Text darstellt, den entsprechenden Text.
Spracherkennung
Bestimmen Sie bei einem Klangclip einer Person oder Personen, die sprechen, die Textdarstellung der Rede. Dies ist das Gegenteil von Text zu Sprache und ist eines der äußerst schwierigen Probleme, die umgangssprachlich bezeichnet werden "AI-Complete"(siehe oben). In natürliche Sprache Es gibt kaum eine Pause zwischen aufeinanderfolgenden Worten und damit Sprachsegmentierung ist eine notwendige Subtask der Spracherkennung (siehe unten). In den meisten gesprochenen Sprachen mischen sich die Sounds, die aufeinanderfolgende Buchstaben darstellen, in einem Prozess, der bezeichnet wird Koartikulationso die Umwandlung der Analogsignal Für diskrete Zeichen kann ein sehr schwieriger Prozess sein. Angesichts der Tatsache, dass Wörter in derselben Sprache von Menschen mit unterschiedlichen Akzenten gesprochen werden, muss die Spracherkennungssoftware in der Lage sein, die Vielzahl der Eingaben als identisch in Bezug auf ihre textbezogene Äquivalent zu erkennen.
Sprachsegmentierung
Trennen Sie ihn bei einem Tonclip einer Person oder Personen, die sprechen, in Wörter. Eine Untertasking von Spracherkennung und typischerweise gruppiert.
Text zu Sprache
Verwandeln Sie bei einem Text diese Einheiten und erzeugen Sie eine gesprochene Darstellung. Text-to-Speech kann verwendet werden, um die Sehbehinderte zu unterstützen.[20]
Wortsegmentierung (Tokenisierung)
Trennen Sie einen Teil des kontinuierlichen Textes in getrennte Wörter. Für eine Sprache wie EnglischDies ist ziemlich trivial, da Wörter normalerweise durch Räume getrennt werden. Einige geschriebene Sprachen mögen jedoch Chinesisch, japanisch und Thai Markieren Sie keine Wortgrenzen auf eine solche Weise, und in diesen Sprachen ist Textsegmentierung eine wesentliche Aufgabe, die Kenntnis der Kenntnisse benötigt Wortschatz und Morphologie von Wörtern in der Sprache. Manchmal wird dieser Prozess auch in Fällen wie verwendet Wörter Tasche (Bogen) Erstellung im Data Mining.

Morphologische Analyse

Lemmatisierung
Die Aufgabe, nur Flexionssenden zu entfernen und die Basiswörterbuchform eines Wortes zurückzugeben, das auch als Lemma bekannt ist. Lemmatisierung ist eine weitere Technik, um Wörter in ihre normalisierte Form zu reduzieren. In diesem Fall verwendet die Transformation jedoch tatsächlich ein Wörterbuch, um Wörter in ihre tatsächliche Form zuzubereiten.[21]
Morphologische Segmentierung
Getrennte Wörter in Individuum Morpheme und identifizieren Sie die Klasse der Morpheme. Die Schwierigkeit dieser Aufgabe hängt stark von der Komplexität des Morphologie (d.h., die Struktur der Wörter) der in Betracht gezogenen Sprache. Englisch hat besonders ziemlich einfache Morphologie, besonders Beugungalmorphologieund so ist es oft möglich, diese Aufgabe vollständig zu ignorieren und einfach alle möglichen Formen eines Wortes (z. B. "öffnen, öffnen, öffnen, öffnen") als separate Wörter. In Sprachen wie z. Türkisch oder Meitei,[22] a hoch agglutiniert Die indische Sprache ist jedoch nicht möglich, da jeder Wörterbucheintrag Tausende möglicher Wortformen enthält.
SPEC-STAGGGING
Bestimmen Sie bei einem Satz die Teil der Rede (Pos) für jedes Wort. Viele Wörter, insbesondere häufig, können als Vielfachen dienen Teile der Rede. Zum Beispiel kann "Buch" ein sein Substantiv ("Das Buch auf dem Tisch") oder Verb ("einen Flug buchen"); "set" kann a sein Substantiv, Verb oder Adjektiv; und "out" kann mindestens fünf verschiedene Sprachteile sein.
Stamm
Der Prozess der Reduzierung von gebogenen (oder manchmal abgeleiteten) Wörtern auf eine Basisform (z. B. "Schließen" ist die Wurzel für "geschlossen", "Schließen", "nah", "näher" usw.). Das Stamm führt zu ähnlichen Ergebnissen wie Lemmatisierung, dies tut jedoch aus Gründen der Regeln, nicht aus einem Wörterbuch.

Syntaktische Analyse

Grammatikinduktion[23]
Erzeugen a formelle Grammatik Das beschreibt die Syntax einer Sprache.
Satzbruch (auch bekannt als "Satzgrenze Disambiguation"))
Finden Sie die Satzgrenzen bei einem Teil des Textes. Satzgrenzen werden oft durch gekennzeichnet durch Perioden oder andere SatzzeichenAber dieselben Zeichen können anderen Zwecken dienen (z. B. Markierungen Abkürzungen).
Parsing
Bestimmen Sie die Baum analysieren (grammatikalische Analyse) eines bestimmten Satzes. Das Grammatik zum natürliche Sprachen ist zweideutig und typische Sätze haben mehrere mögliche Analysen: Vielleicht überraschenderweise gibt es für einen typischen Satz Tausende potenzieller Parsen (die meistens werden für einen Menschen völlig unsinnig erscheinen). Es gibt zwei Hauptarten von Parsen: Abhängigkeits Parsen und Wahlkreis Parsen. Die Analyse der Abhängigkeit konzentriert Probabilistische kontextfreie Grammatik (PCFG) (siehe auch stochastische Grammatik).

Lexikalische Semantik (einzelner Wörter im Kontext)

Lexikalische Semantik
Was ist die rechnerische Bedeutung einzelner Wörter im Kontext?
Verteilungssemantik
Wie können wir semantische Darstellungen aus Daten lernen?
Genannte Entitätserkennung (Ner)
Bestimmen Sie bei einem Textstrom, welche Elemente in der Textkarte zu Eigennamen wie Personen oder Orten und welche Art der einzelnen Namen ist (z. B. Person, Ort, Organisation). Obwohl Kapitalisierung Kann dazu beitragen, benannte Unternehmen in Sprachen wie Englisch zu erkennen. Diese Informationen können nicht helfen, die Art von zu bestimmen genannte Entitätund in jedem Fall oft ungenau oder unzureichend. Zum Beispiel wird auch der erste Brief eines Satzes aktiviert, und genannte Unternehmen umfassen oft mehrere Wörter, von denen nur einige aktiviert sind. Darüber hinaus sind viele andere Sprachen in nicht-westlichen Skripten (z. Chinesisch oder Arabisch) haben überhaupt keine Kapitalisierung, und selbst Sprachen mit Kapitalisierung verwenden sie möglicherweise nicht konsequent, um Namen zu unterscheiden. Zum Beispiel, Deutsch Wirkt sich alle aus Substantiveunabhängig davon, ob sie Namen sind und Französisch und Spanisch Kapitalisiere keine Namen, die als dienen als Adjektive.
Stimmungsanalyse (siehe auch Multimodale Stimmungsanalyse)
Extrahieren Sie subjektive Informationen in der Regel aus einer Reihe von Dokumenten und verwenden häufig Online -Bewertungen, um "Polarität" über bestimmte Objekte zu bestimmen. Es ist besonders nützlich, um Trends der öffentlichen Meinung in sozialen Medien für Marketing zu identifizieren.
Terminologieextraktion
Ziel der Terminologie -Extraktion besteht darin, relevante Begriffe automatisch aus einem bestimmten Korpus zu extrahieren.
Wortvernetzung (WSD)
Viele Wörter haben mehr als einen Bedeutung; Wir müssen die Bedeutung auswählen, die im Kontext am sinnvollsten ist. Für dieses Problem erhalten wir in der Regel eine Liste von Wörtern und zugehörigen Wortempfingen, z. aus einem Wörterbuch oder einer Online -Ressource wie z. Wordnet.
Entitätsverknüpfung
Viele Wörter - typisch richtige Namen - liefern sich an genannte Entitäten; Hier müssen wir die Entität (eine berühmte Person, einen Ort, ein Unternehmen usw.) auswählen, auf die im Kontext verwiesen wird.

Relationale Semantik (Semantik einzelner Sätze)

Beziehungsextraktion
Identifizieren Sie die Beziehungen zwischen benannten Entitäten (z. B. wer mit wem verheiratet ist).
Semantische Parsen
Erstellen Sie bei einem Textstück (typischerweise ein Satz) eine formale Darstellung seiner Semantik, entweder als Diagramm (z. B. in AMR Parsing) oder gemäß einem logischen Formalismus (z. B. in DRT Parsen). Diese Herausforderung enthält typischerweise Aspekte mehrerer elementarer NLP-Aufgaben aus der Semantik (z. B. semantische Rollenmarkierung, Wortverdünnung von Wortsensen) und kann erweitert werden, um eine vollwertige Diskursanalyse (z. B. Diskursanalyse, Kerneferenz; Natürliches Sprachverständnis unter).
Semantische Rollenkennzeichnung (Siehe auch implizite semantische Rollenmarkierung unten)
Identifizieren und disambiguieren semantische Prädikate (z. B. verbaler Satz Rahmen), dann die Rahmenelemente identifizieren und klassifizieren (Semantische Rollen).

Diskurs (Semantik jenseits einzelner Sätze)

Korreferenzauflösung
Bestimmen Sie bei einem Satz oder einem größeren Teil des Textes, welche Wörter ("erwähnt") auf dieselben Objekte ("Entitäten") beziehen. Anaphora -Lösung ist ein spezifisches Beispiel für diese Aufgabe und befasst sich speziell mit dem Matching Pronomen mit den Substantiven oder Namen, auf die sie sich beziehen. Die allgemeinere Aufgabe der Coreference-Auflösung umfasst auch die Identifizierung sogenannter "Überbrückungsbeziehungen", die beteiligt sind Ausdrücke überweisen. In einem Satz wie "Er betrat Johns Haus durch die Haustür", ist "die Haustür" ein Bezug Haus (und nicht von einer anderen Struktur, auf die auch erwähnt werden könnte).
Diskursanalyse
Diese Rubrik enthält mehrere verwandte Aufgaben. Eine Aufgabe ist das Analysieren des Diskurses, d. H. Identifiziert die Identifizierung der Diskurs Struktur eines vernetzten Textes, d. H. Die Art der Diskursbeziehungen zwischen Sätzen (z. B. Ausarbeitung, Erklärung, Kontrast). Eine andere mögliche Aufgabe ist das Erkennen und Klassifizieren der Sprachakte In einem Teil des Textes (z. B. Ja-Nein-Frage, Inhaltsfrage, Aussage, Behauptung usw.).
Implizite semantische Rollenmarkierung
Identifizieren und disambiguieren semantische Prädikate (z. B. verbaler Satz Rahmen) und ihre explizite semantische Rollen im aktuellen Satz (siehe Semantische Rollenkennzeichnung Oben). Identifizieren Sie dann semantische Rollen, die im aktuellen Satz nicht ausdrücklich realisiert werden, klassifizieren Sie sie in Argumente, die an anderer Stelle im Text ausdrücklich realisiert werden, und diejenigen, die nicht angegeben werden, und lösen Sie den ersteren gegen den lokalen Text. Eine eng verwandte Aufgabe ist eine Anaphora -Auflösung mit Null Pro-Drop-Sprachen.
Erkennen von Textbeschaffungen
Bestimmen Sie bei zwei Textfragmenten, ob eine true das andere die Negation des anderen beinhaltet, oder ermöglicht es dem anderen, entweder wahr oder falsch zu sein.[24]
Themensegmentierung und Anerkennung
Wenn Sie einen Teil des Textes gegeben haben, trennen Sie ihn in Segmente, von denen jeweils ein Thema gewidmet ist, und identifizieren Sie das Thema des Segments.
Argumentmingung
Das Ziel des Argumentationsabbaus ist die automatische Extraktion und Identifizierung argumentativer Strukturen von Natürliche Sprache Text mit Hilfe von Computerprogrammen.[25] Solche argumentativen Strukturen umfassen die Prämisse, Schlussfolgerungen, die Argumentschema und die Beziehung zwischen dem Haupt- und Nebenargument oder dem Haupt- und Gegenargument innerhalb des Diskurses.[26][27]

Übergeordnete NLP-Anwendungen

Automatische Zusammenfassung (Textübersicht)
Erstellen Sie eine lesbare Zusammenfassung eines Textbacks. Häufig verwendet, um Zusammenfassungen des Textes eines bekannten Typs wie Forschungsarbeiten zu bieten, Artikel im Finanzbereich einer Zeitung.
Buchgenerierung
Keine NLP-Aufgabe, sondern eine Erweiterung der Erzeugung der natürlichen Sprache und anderer NLP-Aufgaben ist die Schaffung vollwertiger Bücher. Das erste maschinengenerierte Buch wurde 1984 von einem regelbasierten System erstellt (Racter, Der Bart des Polizisten ist halb konstruiert).[28] Das erste veröffentlichte Werk eines neuronalen Netzwerks wurde 2018 veröffentlicht. 1 die Straße, als Roman vermarktet, enthält sechzig Millionen Wörter. Beide Systeme sind im Grunde genommen aufwendig, aber nicht anfällig (semantischfrei) Sprachmodelle. Das erste maschinengenerierte Wissenschaftsbuch wurde 2019 veröffentlicht (Beta-Autor, Lithium-Ionen-Batterien, Springer, Cham).[29] nicht wie Renner und 1 die StraßeDies beruht auf sachlichem Wissen und basiert auf der Zusammenfassung der Text.
Dialogmanagement
Computersysteme, die sich mit einem Menschen unterhalten sollen.
Dokument ai
Eine Dokument -AI -Plattform befindet sich oben in der NLP -Technologie, die es Benutzern ermöglicht, ohne vorherige Erfahrung mit künstlicher Intelligenz, maschinellem Lernen oder NLP einen Computer zu schulen, um die spezifischen Daten aus verschiedenen Dokumenttypen zu extrahieren. Mit dem NLP-betriebenen Dokument AI können nicht-technische Teams schnell auf Informationen zugreifen, die in Dokumenten versteckt sind, z. B. Anwälte, Wirtschaftsanalysten und Buchhalter.[30]
Grammatikfehlerkorrektur
Die Erkennung und Korrektur der grammatikalischen Fehler beinhaltet eine große Bandbreite von Problemen auf allen Ebenen der sprachlichen Analyse (Phonologie/Orthographie, Morphologie, Syntax, Semantik, Pragmatik). Die grammatikalische Fehlerkorrektur ist wirkungsvoll, da sie Hunderte von Millionen Menschen betrifft, die Englisch als zweite Sprache verwenden oder erwerben. Seit 2011 unterliegt es eine Reihe gemeinsamer Aufgaben.[31][32][33] In Bezug auf Orthographie sind Morphologie, Syntax und bestimmte Aspekte der Semantik und aufgrund der Entwicklung mächtiger Modelle mit neuronaler Sprache wie z. GPT-2Dies kann jetzt (2019) als weitgehend gelöstes Problem angesehen werden und wird in verschiedenen kommerziellen Anwendungen vermarktet.
Maschinenübersetzung
Übersetzen Sie den Text automatisch von einer menschlichen Sprache in eine andere. Dies ist eines der schwierigsten Probleme und Mitglied einer Klasse von Problemen, die umgangssprachlich bezeichnet werden. "AI-Complete", d. H. Erfordert alle verschiedenen Arten von Wissen, die Menschen besitzen (Grammatik, Semantik, Fakten über die reale Welt usw.), um richtig zu lösen.
Natürliche Sprache Generation (NLG):
Umwandeln Sie Informationen aus Computerdatenbanken oder semantischen Absichten in eine lesbare menschliche Sprache.
Natürliches Sprachverständnis (NLU)
Umwandeln Sie Textbrocken in formalere Darstellungen wie z. Logik erster Ordnung Strukturen, die einfacher sind für Computer Programme zum Manipulieren. Das Verständnis der natürlichen Sprache beinhaltet die Identifizierung der beabsichtigten Semantik aus der mehreren möglichen Semantik, die aus einem natürlichen Sprachausdruck abgeleitet werden kann, der normalerweise die Form organisierter Notationen natürlicher Sprachkonzepte annimmt. Einführung und Schaffung von Sprachmetamodell und Ontologie sind effizient, jedoch empirische Lösungen. Eine explizite Formalisierung der semantischen Semantik der natürlichen Sprache ohne Verwirrung mit impliziten Annahmen wie z. Annahme der geschlossenen Welt (CWA) Vs. Annahme der offenen Weltoder subjektiv Ja/Nein vs. objektiv wahr/false wird für den Bau einer Basis der Formalisierung der Semantik erwartet.[34]
Frage Beantwortung
Bestimmen Sie angesichts einer menschlichsprachigen Frage ihre Antwort. Typische Fragen haben eine bestimmte richtige Antwort (z. B. "Was ist die Hauptstadt Kanadas?"), Aber manchmal werden auch offene Fragen berücksichtigt (z. B. "Was bedeutet das Leben?").
Text-to-Image-Generation
Generieren Sie bei einer Beschreibung eines Bildes ein Bild, das der Beschreibung entspricht.[35]
Text-to-Szene-Erzeugung
Erzeugen Sie eine Beschreibung einer Szene 3D-Modell der Szene.[36][37]

Allgemeine Tendenzen und (möglich) zukünftige Richtungen

Basierend auf langjährigen Trends im Feld ist es möglich, zukünftige Richtungen von NLP zu extrapolieren. Ab 2020 können drei Trends zu den Themen der langjährigen Reihe von Conll-gemeinsamen Aufgaben beobachtet werden:[38]

  • Interesse an zunehmend abstrakten, "kognitiven" Aspekten der Natural Language (1999-2001: Shallow Parsing, 2002-03: Named Entity Recognition, 2006-09/2017-18: Abhängigkeitssyntax, 2004-05/2008-09 Semantische Rollenkennzeichnung, 2011-12 Coreference, 2015-16: Diskurs Parsing, 2019: Semantisches Parsing).
  • Zunehmendes Interesse an mehrsprachiger und potenziell Multimodalität (Englisch seit 1999; Spanisch, Niederländisch seit 2002; Deutsch seit 2003; bulgarisch, dänisch, japanisch, portugiesisch, slowenisch, schwedisch, türkisch; Basken, Katalanisch, Chinesisch, Griechisch, Ungarisch , Italienisch, türkisch seit 2007; Tschechisch seit 2009; Arabisch seit 2012; 2017: 40+ Sprachen; 2018: 60+/100+ Sprachen)
  • Eliminierung symbolischer Darstellungen (regelbasiert über Überwachung von schwach überwachten Methoden, Repräsentationslernen und End-to-End-Systemen)

Kognition und NLP

Die meisten NLP-Anwendungen auf höherer Ebene beinhalten Aspekte, die intelligentes Verhalten und das offensichtliche Verständnis der natürlichen Sprache nachahmen. Im weiteren Sinne ist die technische Operationalisierung zunehmend fortgeschrittener Aspekte des kognitiven Verhaltens eine der Entwicklungsbahnen von NLP (siehe Trends zwischen den oben genannten Aufgaben mit gemeinsamen Aufgaben).

Erkenntnis bezieht sich auf "das mentale Handeln oder den Prozess des Erwerbs von Wissen und Verständnis durch Gedanken, Erfahrung und die Sinne".[39] Kognitionswissenschaft ist die interdisziplinäre, wissenschaftliche Untersuchung des Geistes und seiner Prozesse.[40] Kognitive Linguistik ist ein interdisziplinärer Zweig der Linguistik, der Wissen und Forschung sowohl aus Psychologie als auch der Linguistik kombiniert.[41] Vor allem im Zeitalter von Symbolischer NLPDer Bereich der rechnerischen Linguistik hielt starke Beziehungen zu kognitiven Studien auf.

Als Beispiel, George Lakoff Bietet eine Methodik zum Aufbau von NLP -Algorithmen (Natural Language Processing) durch die Perspektive von Kognitionswissenschaftzusammen mit den Erkenntnissen von Kognitive Linguistik,[42] mit zwei definierenden Aspekten:

  1. Anwenden die Theorie von konzeptionelle Metapher, erklärt von Lakoff als „das Verständnis einer Idee in Bezug auf eine andere“, die eine Vorstellung von der Absicht des Autors liefert.[43] Betrachten Sie zum Beispiel das englische Wort "groß". Bei Verwendung in einem Vergleich ("Das ist ein großer Baum"), die Absicht des Autors ist es, zu implizieren, dass der Baum ist "Physisch groß" relativ zu anderen Bäumen oder den Autoren erleben. Bei metaphorisch verwendet ("Morgen ist ein großer Tag"), die Absicht des Autors zu implizieren "Bedeutung". Die Absicht hinter anderen Verwendungen, wie in "Sie ist eine große Person" bleibt für eine Person und einen kognitiven NLP -Algorithmus gleichermaßen eindeutig, ohne zusätzliche Informationen.
  2. Weisen Sie einem Wort, einer Phrase, einem Satz oder einem Textstück, das auf den vorgestellten Informationen vor und nach dem zu analysierten Text analysiert wurden, relative Bedeutungsmaßnahmen zu, z. B. mittels a Probabilistische kontextfreie Grammatik (PCFG). Die mathematische Gleichung für solche Algorithmen wird in dargestellt US -Patent 9269353 :
Wo,
Rmm, ist das relative Maß der Bedeutung
Zeichen, ist ein beliebiger Textblock, Satz, Phrase oder Wort
N, ist die Anzahl der analysierten Token
PMM, ist das wahrscheinliche Maß für die Bedeutung, das auf einer Korpora basiert
d, ist der Ort des Tokens entlang der Abfolge von N-1 Token
Pf, ist die Wahrscheinlichkeitsfunktion, die für eine Sprache spezifisch ist

Die Beziehungen zur kognitiven Sprachwissenschaft sind Teil des historischen Erbes von NLP, wurden jedoch seit der statistischen Wendung in den neunziger Jahren seltener angesprochen. Dennoch wurden Ansätze zur Entwicklung kognitiver Modelle für technisch operationalisierbare Rahmenbedingungen im Kontext verschiedener Rahmenbedingungen, z. B. der kognitiven Grammatik, verfolgt.[44] funktionelle Grammatik,[45] Baugeschäftsgrammatik,[46] Computerpsycholinguistik und kognitive Neurowissenschaften (z. B.,,, ACT-R) mit begrenzter Aufnahme im Mainstream -NLP (gemessen anhand der Hauptkonferenzen[47] des ACL). In jüngerer Zeit wurden Ideen der kognitiven NLP als Ansatz zur Erreichung wiederbelebt Erklärungz. B. unter dem Begriff "kognitiver KI".[48] Ebenso sind Vorstellungen von kognitivem NLP Neuralmodellen innewohnt multimodal NLP (obwohl selten explizit gemacht).[49]

Siehe auch

Verweise

  1. ^ Konger, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (27. bis 30. Oktober 2009). "Implementieren eines Online -Helpdesk -Systems basierend auf dem Konversationsagenten". Proceedings der Internationalen Konferenz zum Management von Emergent Digital ECO Systeme - Medes '09. Medes '09: Die internationale Konferenz zum Management von Emergent Digital Ecosystems. Frankreich: ACM. p. 450. doi:10.1145/1643823.1643908. ISBN 9781605588292.
  2. ^ Hutchins, J. (2005). "Die Geschichte der maschinellen Übersetzung auf den Punkt gebracht" (PDF).[selbstveröffentlichte Quelle]
  3. ^ Koskenniemi, Kimmo (1983), Zwei-Stufe Morphologie: Ein allgemeines Computermodell der Wortformerkennung und -produktion (PDF), Abteilung für allgemeine Linguistik, Universität von Helsinki
  4. ^ Joshi, A. K. & Weinstein, S. (1981, August). Kontrolle der Inferenz: Rolle einiger Aspekte des Diskursstruktur-zentrierten. Im Ijcai (S. 385-387).
  5. ^ Guida, G.; Mauri, G. (Juli 1986). "Bewertung von Verarbeitungssystemen für natürliche Sprache: Probleme und Ansätze". Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/proc.1986.13580. ISSN 1558-2256. S2CID 30688575.
  6. ^ Chomskyan Sprachwissenschaft fördert die Untersuchung von "Eckfälle"Das belastet die Grenzen seiner theoretischen Modelle (vergleichbar mit pathologisch Phänomene in Mathematik), die normalerweise mit Verwendung erstellt wurden Gedankenexperimenteund nicht die systematische Untersuchung typischer Phänomene, die in realen Daten auftreten, wie dies in der Fall ist Korpuslinguistik. Die Schöpfung und Verwendung solcher Korpora Daten von realen Daten sind ein grundlegender Bestandteil von Algorithmen für maschinelles Lernen für die Verarbeitung natürlicher Sprache. Darüber hinaus sind theoretische Grundlagen der Chomskyan-Linguistik wie den sogenannten "Armut des Stimulus"Argument beinhaltet, dass allgemeine Lernalgorithmen, wie es normalerweise im maschinellen Lernen verwendet wird, in der Sprachverarbeitung nicht erfolgreich sein kann. Infolgedessen hat das Chomskyan -Paradigma die Anwendung solcher Modelle auf die Sprachverarbeitung entmutigt.
  7. ^ Goldberg, Yoav (2016). "Eine Grundierung für neuronale Netzwerkmodelle für die Verarbeitung natürlicher Sprache". Journal of Artificial Intelligence Research. 57: 345–420. Arxiv:1807.10854. doi:10.1613/jair.4992. S2CID 8273530.
  8. ^ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Tiefes Lernen. MIT Press.
  9. ^ Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; SHAZEER, NOAM; Wu, Yonghui (2016). Erforschung der Grenzen der Sprachmodellierung. Arxiv:1602.02410. Bibcode:2016ArXIV160202410J.
  10. ^ Choe, kook; Charniak, Eugene. "Parsen als Sprachmodellierung". EMNLP 2016. Archiviert von das Original Am 2018-10-23. Abgerufen 2018-10-22.
  11. ^ Vinyals, Oriol; et al. (2014). "Grammatik als Fremdsprache" (PDF). NIPS2015. Arxiv:1412.7449. Bibcode:2014ArXIV1412.7449V.
  12. ^ Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "Verwenden von natürlicher Sprachverarbeitung zur Messung und Verbesserung der Qualität der Diabetesversorgung: eine systematische Überprüfung". Journal of Diabetes Science and Technology. 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
  13. ^ Winograd, Terry (1971). Verfahren als Darstellung für Daten in einem Computerprogramm zum Verständnis der natürlichen Sprache (These).
  14. ^ Schank, Roger C.; Abelson, Robert P. (1977). Skripte, Pläne, Ziele und Verständnis: Eine Untersuchung der menschlichen Wissensstrukturen. Hillsdale: Erlbaum. ISBN 0-470-99033-3.
  15. ^ Mark Johnson. Wie sich die statistische Revolution ändert (rechnerische) Linguistik. Proceedings of the EACL 2009 Workshop über die Interaktion zwischen Linguistik und Computersprungingistik.
  16. ^ Philip Resnik. Vier Revolutionen. Sprachprotokoll, 5. Februar 2011.
  17. ^ "Untersuchung der komplexen Wertdarstellung in NLP" (PDF).{{}}: CS1 Wartung: URL-Status (Link)
  18. ^ Trabelsi, Chiheb; Bilaniuk, Olexa; Zhang, Ying; SERDYUK, Dmitriy; Subramanisch, Sandeep; Santos, João Felipe; Mehri, Soroush; Rostamzadeh, Negar; Bengio, Yoshua; Pal, Christopher J. (2018-02-25). "Deep Complex Networks". Arxiv:1705.09792 [cs.ne].
  19. ^ Socker, Richard. "Deep Learning für NLP-ACL 2012 Tutorial". www.socher.org. Abgerufen 2020-08-17. Dies war ein frühes Tutorial für Deep Learning bei der ACL 2012 und war sowohl Interesse als auch (damals) Skepsis der meisten Teilnehmer. Bis dahin wurde das neuronale Lernen im Grunde genommen aufgrund seiner mangelnden statistischen Interpretierbarkeit abgelehnt. Bis 2015 hatte sich Deep Learning zu dem Hauptrahmen von NLP entwickelt.
  20. ^ Yi, Chucai; Tian, ​​Yingli (2012), "Assistenztextlesen aus komplexem Hintergrund für Blinde", Kamera-basierte Dokumentanalyse und Erkennung, Springer Berlin Heidelberg, S. 15–28, Citeseerx 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634
  21. ^ "Was ist natürliche Sprachverarbeitung? Intro zu NLP im maschinellen Lernen". Gyansetu!. 2020-12-06. Abgerufen 2021-01-09.
  22. ^ Kishorjit, N.; Vidya, Raj Rk.; Nirmal, y.; Sivaji, B. (2012). "Manipuri Morphem Identifikation" (PDF). Verfahren des 3. Workshops zur süd- und südostasiatischen Verarbeitung natürlicher Sprache (SANLP). Coling 2012, Mumbai, Dezember 2012: 95–108.{{}}: CS1 Wartung: Standort (Link)
  23. ^ Klein, Dan; Manning, Christopher D. (2002). "Grammatikinduktion für natürliche Sprache unter Verwendung eines Konstituenten-Kontext-Modells" (PDF). Fortschritte in den neuronalen Informationsverarbeitungssystemen.
  24. ^ Pascal erkennt Textual Egument Challenge (RTE-7) https://tac.nist.gov//2011/rte/
  25. ^ Lippi, Marco; Torroni, Paolo (2016-04-20). "Argumentation Mining: Stand der Kunst und aufkommende Trends". ACM -Transaktionen in der Internet -Technologie. 16 (2): 1–25. doi:10.1145/2850417. HDL:11585/523460. ISSN 1533-5399. S2CID 9561587.
  26. ^ "Argument Mining - IJCAI2016 Tutorial". www.i3s.unice.fr. Abgerufen 2021-03-09.
  27. ^ "NLP -Ansätze zur Berechnung der Argumentation - ACL 2016, Berlin". Abgerufen 2021-03-09.
  28. ^ "Du b u w e b :: racter". www.ubu.com. Abgerufen 2020-08-17.
  29. ^ Schriftsteller, Beta (2019). Lithium-Ionen-Batterien. doi:10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
  30. ^ "Dokumentverständnis KI auf Google Cloud (Cloud Next '19) - YouTube". www.youtube.com. Archiviert von das Original am 2021-10-30. Abgerufen 2021-01-11.
  31. ^ Verwaltung. "Zentrum für Sprachtechnologie (CLT)". Macquarie Universität. Abgerufen 2021-01-11.
  32. ^ "Gemeinsame Aufgabe: Grammatikfehlerkorrektur". www.comp.nus.edu.sg. Abgerufen 2021-01-11.
  33. ^ "Gemeinsame Aufgabe: Grammatikfehlerkorrektur". www.comp.nus.edu.sg. Abgerufen 2021-01-11.
  34. ^ Duan, Yucong; Cruz, Christophe (2011). "Formalisierung des Semantiks der natürlichen Sprache durch Konzeptualisierung aus der Existenz". Internationales Journal für Innovation, Management und Technologie. 2 (1): 37–42. Archiviert von das Original Am 2011-10-09.
  35. ^ Robertson, Adi (2022-04-06). "Openais Dall-e AI-Bildgenerator kann jetzt auch Bilder bearbeiten". Der Verge. Abgerufen 2022-06-07.
  36. ^ "Die Stanford Natural Language Processing Group". nlp.stanford.edu. Abgerufen 2022-06-07.
  37. ^ Coyne, Bob; Sproat, Richard (2001-08-01). "WORTSEYE: Ein automatisches Konvertierungssystem für Text zu Szene". Verfahren der 28. Jahreskonferenz zu Computergrafiken und interaktiven Techniken. Siggraph '01. New York, NY, USA: Vereinigung für Computermaschinen: 487–496. doi:10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
  38. ^ "Vorherige gemeinsame Aufgaben | conll". www.conll.org. Abgerufen 2021-01-11.
  39. ^ "Erkenntnis". Lexiko. Oxford University Press und Dictionary.com. Abgerufen 6. Mai 2020.
  40. ^ "Fragen Sie den kognitiven Wissenschaftler". Amerikanische Föderation der Lehrer. 8. August 2014. Kognitive Wissenschaft ist ein interdisziplinäres Gebiet von Forschern aus Linguistik, Psychologie, Neurowissenschaften, Philosophie, Informatik und Anthropologie, die den Geist verstehen wollen.
  41. ^ Robinson, Peter (2008). Handbuch für kognitive Linguistik und Zweitspracherwerb. Routledge. S. 3–8. ISBN 978-0-805-85352-0.
  42. ^ Lakoff, George (1999). Philosophie im Fleisch: Der verkörperte Geist und seine Herausforderung an die westliche Philosophie; Anhang: Die neuronale Theorie des Sprachparadigmas. New York Basic Books. S. 569–583. ISBN 978-0-465-05674-3.
  43. ^ Strauss, Claudia (1999). Eine kognitive Theorie der kulturellen Bedeutung. Cambridge University Press. S. 156–164. ISBN 978-0-521-59541-4.
  44. ^ "Universelle konzeptionelle kognitive Annotation (UCCA)". Universelle konzeptuelle kognitive Annotation (UCCA). Abgerufen 2021-01-11.
  45. ^ Rodríguez, F. C. & Mairal-USón, R. (2016). Aufbau einer RRG -Computergrammatik. Onomazein, (34), 86-117.
  46. ^ "Flüssigkeitsbaugrammatik - Ein voll funktionsfähiges Verarbeitungssystem für Konstruktionsgrammatiken". Abgerufen 2021-01-11.
  47. ^ "ACL -Mitgliedsportal | Der Association for Computational Linguistics Mitgliedsportal". www.aclweb.org. Abgerufen 2021-01-11.
  48. ^ "Teile und Regeln". www.w3.org. Abgerufen 2021-01-11.
  49. ^ Socker, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; NG, Andrew Y. (2014). "Geerdete Kompositionssemantik zum Auffinden und Beschreiben von Bildern mit Sätzen". Transaktionen des Assoziation für Computer -Linguistik. 2: 207–218. doi:10.1162/tacl_a_00177. S2CID 2317858.

Weitere Lektüre

  • Bates, M (1995). "Modelle des Verständnisses der natürlichen Sprache". Verfahren der Nationalen Akademie der Wissenschaften der Vereinigten Staaten von Amerika. 92 (22): 9977–9982. Bibcode:1995pnas ... 92.9977b. doi:10.1073/pnas.92.22.9977. PMC 40721. PMID 7479812.
  • Steven Bird, Ewan Klein und Edward Loper (2009). Verarbeitung natürlicher Sprache mit Python. O'Reilly Media. ISBN978-0-596-51649-9.
  • Daniel Jurafsky und James H. Martin (2008). Sprach- und Sprachverarbeitung, 2. Auflage. Pearson Prentice Hall. ISBN978-0-13-187321-6.
  • Mohamed Zakaria Kurdi (2016). Verarbeitung der natürlichen Sprache und Computersprachling: Sprache, Morphologie und Syntax, Volumen 1. ite-wiley. ISBN978-1848218482.
  • Mohamed Zakaria Kurdi (2017). Verarbeitung der natürlichen Sprache und Computersprachlerin: Semantik, Diskurs und Anwendungen, Band 2. Iste-wiley. ISBN978-1848219212.
  • Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze (2008). Einführung zum Informationsabruf. Cambridge University Press. ISBN978-0-521-86571-5. Offizielle HTML- und PDF -Versionen ohne Anklage erhältlich.
  • Christopher D. Manning und Hinrich Schütze (1999). Grundlagen der statistischen Verarbeitung natürlicher Sprache. Die MIT -Presse. ISBN978-0-262-13360-9.
  • David M. W. Powers und Christopher C. R. Turk (1989). Maschinelles Lernen der natürlichen Sprache. Springer-Verlag. ISBN978-0-387-19557-5.

Externe Links

  • Medien im Zusammenhang mit der Verarbeitung natürlicher Sprache bei Wikimedia Commons