Baum analysieren

Baum nach Saab analysieren

A Baum analysieren oder Baum analysieren[1] oder Ableitungsbaum oder Betonsyntaxbaum ist ein geordnetes, verwurzeltes Wurzeln Baum das repräsentiert die syntaktisch Struktur von a Saite nach einigen Kontextfreie Grammatik. Der Begriff Baum analysieren selbst wird hauptsächlich in verwendet Computerlinguistik; In theoretischer Syntax der Begriff Syntaxbaum ist häufiger.

Betonsyntaxbäume reflektieren die Syntax der Eingabestand und unterscheiden sich von der Abstrakte Syntaxbäume verwendet in der Computerprogrammierung. Im Gegensatz zu Reed-Kellogg Satzdiagramme Zum Unterrichten von Grammatik verwenden analysende Bäume keine unterschiedlichen Symbolformen für verschiedene Arten von Bestandteile.

Analyse von Bäumen werden normalerweise basierend auf der Wahlkreisbeziehung von Wahlkreisgrammatiken konstruiert (Grammatiken des Wahlkreises (Phrase Struktur -Grammatiken) oder die Abhängigkeitsbeziehung von Abhängigkeitsgrammatiken. Bäume analysieren können für erzeugt werden für Sätze in natürliche Sprachen (sehen Verarbeitung natürlicher Sprache) sowie während wird bearbeitet von Computersprachen, wie z. Programmiersprachen.

Ein verwandtes Konzept ist das von Phrasenmarker oder P-Marker, wie verwendet in Transformationsgenerative Grammatik. Ein Phrasenmarker ist eine sprachliche Expression, die in Bezug auf seine Phrasenstruktur gekennzeichnet ist. Dies kann in Form eines Baumes oder als klammernder Ausdruck dargestellt werden. Phrasenmarker werden durch Bewerbung erzeugt Phrasenstrukturregelnund selbst unterliegen weiteren Transformationsregeln.[2] Eine Reihe möglicher analysierter Bäume für a syntaktisch mehrdeutig Der Satz wird als "Parse Forest" bezeichnet.[3]

Nomenklatur

Ein einfacher Parse Tree

Ein Parse -Baum besteht aus Knoten und Zweigen.[4] Auf dem Bild ist der Parse -Baum die gesamte Struktur, beginnend von S und endet in jedem Blattknoten (John, Ball, der, Hit). In einem Parsebaum ist jeder Knoten entweder a Wurzel Knoten, a Zweig Knoten oder a Blatt Knoten. Im obigen Beispiel ist S ein Wurzelknoten, NP und VP sind Zweigknoten, während John, Ball, der und Hit alle Blattknoten sind.

Knoten können auch als übergeordnete Knoten und Kinderknoten bezeichnet werden. EIN Elternteil Der Knoten ist einer, der mindestens einen anderen Knoten hat, der von einem Zweig darunter verknüpft ist. In dem Beispiel ist S ein Elternteil sowohl von NP als auch von VP. EIN Kind Der Knoten ist einer, der mindestens einen Knoten direkt darüber hat, an den er durch einen Zweig des Baumes verknüpft ist. Wieder aus unserem Beispiel ist Hit ein Kinderknoten von V.

A Nicht terminale Funktion ist eine Funktion (Knoten), die entweder eine Wurzel oder ein Zweig in diesem Baum ist, während a Terminalfunktion ist eine Funktion (Knoten) in einem Parse -Baum, der ein Blatt ist.

Bestandteile basiert analysiert Bäume

Die konstituellbasierten Parse-Bäume von Wahlkreisgrammatiken (Phrase Struktur -Grammatiken) Unterscheiden Sie zwischen terminalen und nicht terminalen Knoten. Das Innenknoten werden von Nicht terminal Kategorien der Grammatik, während die Blattknoten werden von Terminal Kategorien. Das Bild unten stellt einen konstituellbasierten Parse Tree dar; Es zeigt die syntaktische Struktur der Englisch Satz John schlug den Ball:

Parse tree PSG

Der Parse -Baum ist die gesamte Struktur, beginnend von S und endet in jedem Blattknoten (John, Schlag, das, Ball). Die folgenden Abkürzungen werden im Baum verwendet:

  • S für Satz, die obere Struktur in diesem Beispiel
  • NP für Substantivphrase. Das erste (links) NP, ein einzelnes Substantiv "John", dient als die als die Thema des Satzes. Der zweite ist der Objekt des Satzes.

Jeder Knoten im Baum ist entweder a Wurzel Knoten, a Zweig Knoten oder a Blatt Knoten.[5] Ein Stammknoten ist ein Knoten, der keine Zweige darüber hat. Innerhalb eines Satzes gibt es immer nur einen Wurzelknoten. Ein Zweigknoten ist ein übergeordneter Knoten, der mit zwei oder mehr untergeordneten Knoten verbunden ist. Ein Blattknoten ist jedoch ein terminaler Knoten, der andere Knoten im Baum nicht dominiert. S ist der Stammknoten, NP und VP sind Zweigknoten, und John (N), Schlag (V), das (D) und Ball (N) sind alle Blattknoten. Die Blätter sind die lexikalischen Token des Satzes.[6][Seite benötigt] Ein übergeordneter Knoten ist einer, der mindestens einen anderen Knoten hat, der von einem Zweig darunter verknüpft ist. In dem Beispiel ist S ein Elternteil sowohl von N als auch von VP. Ein untergeordneter Knoten ist einer, der mindestens einen Knoten direkt darüber hat, an den er durch einen Zweig eines Baumes verknüpft ist. Aus dem Beispiel, Schlag ist ein Kinderknoten von V. Die Begriffe Mutter und Tochter werden manchmal auch für diese Beziehung verwendet.

Abhängigen Bäume basieren

Die abhängig basierten analysenden Bäume von Abhängigkeitsgrammatiken[7] Sehen Sie alle Knoten als Terminal an, was bedeutet, dass sie die Unterscheidung zwischen terminalen und nicht terminalen Kategorien nicht anerkennen. Sie sind im Durchschnitt einfacher als auf Bestandteile basierende Parse-Bäume, da sie weniger Knoten enthalten. Der abhängig basierte Parse-Baum für den obigen Beispielsatz ist wie folgt:

Parse tree DG

In diesem Parse-Baum fehlt die Phrasalkategorien (S, VP und NP), die im oben genannten Wahlkreisbasis-Gegenstück zu sehen sind. Wie der basierte Baum, basiert, Bestandteil Struktur wird anerkannt. Jeder vollständige Unterbaum des Baumes ist ein Bestandteil. Somit erkennt dieser abhängig basierte Parse-Baum das Subjekt-Substantiv an John und das Objektnomenphrase der Ball als Wähler wie der konstituellbasierte Parse Tree.

Der Wahlkreis gegen Abhängigkeit ist weitreichend. Ob die zusätzliche syntaktische Struktur, die mit konstituellbasierten Parsebäumen verbunden ist, notwendig oder vorteilhaft ist, ist eine Frage der Debatte.

Phrasenmarker

Phrasenmarker oder P-Marker wurden früh eingeführt Transformationsgenerative Grammatik, wie entwickelt von Noam Chomsky und andere. Ein Phrasenmarker, der die darstellt tiefe Struktur eines Satzes wird durch Bewerbung erzeugt Phrasenstrukturregeln. Dann kann diese Anwendung weitere Transformationen erfahren.

Phrasenmarker können in Form von vorgestellt werden Bäume (wie im obigen Abschnitt auf Bestandteile basiert analysiert Bäume), werden aber oft stattdessen in Form von "Klammern" verabreicht, die weniger Raum im Gedächtnis einnehmen. Beispielsweise kann ein klammernder Ausdruck, der dem oben angegebenen Bestandteil der Bestandteile entspricht, so etwas wie folgt:

Wie bei Bäumen kann die genaue Konstruktion solcher Ausdrücke und die Anzahl der dargestellten Details davon abhängen, dass die Theorie angewendet wird, und von den Punkten, die der Anfrageautor veranschaulichen möchte.

Siehe auch

Anmerkungen

  1. ^ Siehe Chiswell und Hodges 2007: 34.
  2. ^ Noam Chomsky (26. Dezember 2014). Aspekte der Theorie der Syntax. MIT Press. ISBN 978-0-262-52740-8.
  3. ^ Billot, Sylvie und Bernard Lang. "Die Struktur gemeinsamer Wälder bei mehrdeutiger Parsen. "
  4. ^ "Das Parsetree -Paket zum Zeichnen von Bäumen in Latex". www1.estex.ac.uk.
  5. ^ Siehe Carnie (2013: 118ff.) Für eine Einführung in die grundlegenden Konzepte von Syntaxbäumen (z. B. Wurzelknoten, terminaler Knoten, nicht terminaler Knoten usw.).
  6. ^ Siehe Aho et al. 1986.
  7. ^ Siehe zum Beispiel Ágel et al. 2003/2006.

Verweise

Externe Links