Textkorpus

Im Linguistik, a Korpus (Plural Korpora) oder Textkorpus ist ein Sprachressource bestehend aus einem großen und strukturierten Satz von Texten (heutzutage normalerweise elektronisch gespeichert und verarbeitet). Im Korpuslinguistiksie werden verwendet, um statistische Analysen durchzuführen und HypothesentestÜberprüfung des Vorkommens oder zur Validierung von sprachlichen Regeln in einem bestimmten Sprachgebiet.

Im SuchtechnologieEin Korpus ist die Sammlung von Dokumenten, die durchsucht werden.

Überblick

Ein Korpus kann Texte in einer einzigen Sprache enthalten (einsprachiger Korpus) oder Textdaten in mehreren Sprachen (Mehrsprachiger Korpus).

Um die Korpora nützlicher für sprachliche Forschung zu gestalten, werden sie häufig einem Prozess unterzogen, der als bekannt ist Anmerkung. Ein Beispiel für die Annotation eines Korpus ist SPEC-STAGGGING, oder Pos-magging, in welchen Informationen über die Sprache jedes Wortes (Verb, Substantiv, Adjektiv usw.) dem Korpus in Form von hinzugefügt werden Stichworte. Ein weiteres Beispiel ist das Zeugnis des Lemma (Basis) Form jedes Wortes. Wenn die Sprache des Korpus keine Arbeitssprache der Forscher ist, die sie verwenden, Interlineares Glanz wird verwendet, um die Annotation zweisprachig zu machen.

Einige Korpora haben weiter strukturiert Analyseebenen angewendet. Insbesondere können kleinere Korpora vollständig sein analysiert. Solche Korpora werden normalerweise genannt Baumbanks oder Parsenkorpora. Die Schwierigkeit, sicherzustellen, dass das gesamte Korpus vollständig und konsequent kommentiert ist, bedeutet, dass diese Korpora normalerweise kleiner sind und etwa ein bis drei Millionen Wörter enthalten. Andere Ebenen sprachlicher strukturierter Analyse sind möglich, einschließlich Anmerkungen für Morphologie, Semantik und Pragmatik.

Anwendungen

Korpora sind die Hauptwissensbasis in Korpuslinguistik. Andere bemerkenswerte Anwendungsbereiche umfassen:

  • Maschinenübersetzung
    • Mehrsprachige Korpora, die speziell für den nebeneinanderfolgenden Vergleich formatiert wurden, werden genannt ausgerichtete parallele Korpora. Es gibt zwei Hauptarten von Parallele Korpora die Texte in zwei Sprachen enthalten. In einem ÜbersetzungskorpusDie Texte in einer Sprache sind Übersetzungen von Texten in der anderen Sprache. In einem Vergleichbarer KorpusDie Texte sind von der gleichen Art und decken den gleichen Inhalt ab, aber sie sind keine Übersetzungen voneinander.[2] Um einen parallelen Text auszunutzen, ist eine Art von Textausrichtung, die äquivalente Textsegmente (Phrasen oder Sätze) identifiziert, eine Voraussetzung für die Analyse. Maschinenübersetzung Algorithmen zur Übersetzung zwischen zwei Sprachen werden häufig unter Verwendung paralleler Fragmente geschult, die einen First-Language-Korpus und einen zweitsprachigen Korpus umfassen, was eine Element-für-Element-Übersetzung des Korpus der ersten Sprache ist.[3]
  • Philologien
    • Textkorpora werden auch in der Studie von verwendet Historische Dokumentezum Beispiel in Versuchen zu entziffern alte Skripte oder in Bibelwissenschaft. Einige archäologische Korpora können so kurz sein, dass sie rechtzeitig einen Schnappschuss bieten. Eine der kürzesten Korpora in der Zeit kann das 15 bis 30 Jahre sein Amarna -Buchstaben Texte (1350 v. Chr). Das Korpus einer alten Stadt (zum Beispiel die "Kültepe Texte "der Türkei) können eine Reihe von Korpora durchlaufen, die durch ihre Fund -Standortdaten bestimmt werden.

Einige bemerkenswerte Textkorpora

Siehe auch

Verweise

  1. ^ Yoon, H. & Hirvela, A. (2004). ESL -Studenteneinstellungen zur Verwendung von Korpus im L2 -Schreiben. Journal of Second Language Writing, 13(4), 257–283. Abgerufen am 21. März 2012.
  2. ^ Wołk, K.; Marasek, K. (7. April 2014). "Eine sätze bedeutungsbasierte Ausrichtungsmethode für die Vorbereitung des parallelen Textkorporas". Fortschritte in intelligenten Systemen und Computing. Springer. 275: 107–114. Arxiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
  3. ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned und GPU-beschleunigtes paralleles Data Mining aus vergleichbarer Korpora". In Král, Pavel; Matousek, Václav (Hrsg.). Text, Sprache und Dialog - 18. Internationale Konferenz, TSD 2015, Pilsen, Tschechische Republik, 14. bis 17. September 2015, Proceedings. Vorlesungsnotizen in Informatik. Vol. 9302. Springer. S. 32–40. Arxiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.

Externe Links