Textkorpus
Im Linguistik, a Korpus (Plural Korpora) oder Textkorpus ist ein Sprachressource bestehend aus einem großen und strukturierten Satz von Texten (heutzutage normalerweise elektronisch gespeichert und verarbeitet). Im Korpuslinguistiksie werden verwendet, um statistische Analysen durchzuführen und HypothesentestÜberprüfung des Vorkommens oder zur Validierung von sprachlichen Regeln in einem bestimmten Sprachgebiet.
Im SuchtechnologieEin Korpus ist die Sammlung von Dokumenten, die durchsucht werden.
Überblick
Ein Korpus kann Texte in einer einzigen Sprache enthalten (einsprachiger Korpus) oder Textdaten in mehreren Sprachen (Mehrsprachiger Korpus).
Um die Korpora nützlicher für sprachliche Forschung zu gestalten, werden sie häufig einem Prozess unterzogen, der als bekannt ist Anmerkung. Ein Beispiel für die Annotation eines Korpus ist SPEC-STAGGGING, oder Pos-magging, in welchen Informationen über die Sprache jedes Wortes (Verb, Substantiv, Adjektiv usw.) dem Korpus in Form von hinzugefügt werden Stichworte. Ein weiteres Beispiel ist das Zeugnis des Lemma (Basis) Form jedes Wortes. Wenn die Sprache des Korpus keine Arbeitssprache der Forscher ist, die sie verwenden, Interlineares Glanz wird verwendet, um die Annotation zweisprachig zu machen.
Einige Korpora haben weiter strukturiert Analyseebenen angewendet. Insbesondere können kleinere Korpora vollständig sein analysiert. Solche Korpora werden normalerweise genannt Baumbanks oder Parsenkorpora. Die Schwierigkeit, sicherzustellen, dass das gesamte Korpus vollständig und konsequent kommentiert ist, bedeutet, dass diese Korpora normalerweise kleiner sind und etwa ein bis drei Millionen Wörter enthalten. Andere Ebenen sprachlicher strukturierter Analyse sind möglich, einschließlich Anmerkungen für Morphologie, Semantik und Pragmatik.
Anwendungen
Korpora sind die Hauptwissensbasis in Korpuslinguistik. Andere bemerkenswerte Anwendungsbereiche umfassen:
- Sprachtechnologie, Verarbeitung natürlicher Sprache, Computerlinguistik
- Die Analyse und Verarbeitung verschiedener Arten von Korpora ist auch Gegenstand vieler Arbeit in Computerlinguistik, Spracherkennung und Maschinenübersetzung, wo sie oft verwendet werden, um zu erschaffen Versteckte Markov -Modelle für einen Teil des Sprachverzeichnisses und andere Zwecke. Korpora und Frequenzlisten Von ihnen abgeleitet sind nützlich für Sprache lehren. Korpora kann als eine Art von Art von betrachtet werden Fremdsprachenschreibhilfe Da das kontextualisierte grammatikalische Wissen, das von nicht einheimischen Sprachnutzern erfasst wurde, durch die Exposition gegenüber authentischen Texten in Korpora ermöglicht, können die Lernenden die Art der Satzbildung in der Zielsprache erfassen und ein effektives Schreiben ermöglichen.[1]
- Maschinenübersetzung
- Mehrsprachige Korpora, die speziell für den nebeneinanderfolgenden Vergleich formatiert wurden, werden genannt ausgerichtete parallele Korpora. Es gibt zwei Hauptarten von Parallele Korpora die Texte in zwei Sprachen enthalten. In einem ÜbersetzungskorpusDie Texte in einer Sprache sind Übersetzungen von Texten in der anderen Sprache. In einem Vergleichbarer KorpusDie Texte sind von der gleichen Art und decken den gleichen Inhalt ab, aber sie sind keine Übersetzungen voneinander.[2] Um einen parallelen Text auszunutzen, ist eine Art von Textausrichtung, die äquivalente Textsegmente (Phrasen oder Sätze) identifiziert, eine Voraussetzung für die Analyse. Maschinenübersetzung Algorithmen zur Übersetzung zwischen zwei Sprachen werden häufig unter Verwendung paralleler Fragmente geschult, die einen First-Language-Korpus und einen zweitsprachigen Korpus umfassen, was eine Element-für-Element-Übersetzung des Korpus der ersten Sprache ist.[3]
- Philologien
- Textkorpora werden auch in der Studie von verwendet Historische Dokumentezum Beispiel in Versuchen zu entziffern alte Skripte oder in Bibelwissenschaft. Einige archäologische Korpora können so kurz sein, dass sie rechtzeitig einen Schnappschuss bieten. Eine der kürzesten Korpora in der Zeit kann das 15 bis 30 Jahre sein Amarna -Buchstaben Texte (1350 v. Chr). Das Korpus einer alten Stadt (zum Beispiel die "Kültepe Texte "der Türkei) können eine Reihe von Korpora durchlaufen, die durch ihre Fund -Standortdaten bestimmt werden.
Einige bemerkenswerte Textkorpora
Siehe auch
- Konkordanz
- Korpuslinguistik
- Verteilungs -Relational -Datenbank
- Sprachdatenkonsortium
- Verarbeitung natürlicher Sprache
- Natürliches Sprach -Toolkit
- Parallele Textausrichtung
- Suchmaschinen: Sie greifen auf den "Web Corpus" zu.
- Sprachkorpus
- Übersetzungsgedächtnis
- Baumbank
- Zipf -Gesetz
Verweise
- ^ Yoon, H. & Hirvela, A. (2004). ESL -Studenteneinstellungen zur Verwendung von Korpus im L2 -Schreiben. Journal of Second Language Writing, 13(4), 257–283. Abgerufen am 21. März 2012.
- ^ Wołk, K.; Marasek, K. (7. April 2014). "Eine sätze bedeutungsbasierte Ausrichtungsmethode für die Vorbereitung des parallelen Textkorporas". Fortschritte in intelligenten Systemen und Computing. Springer. 275: 107–114. Arxiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ^ Wolk, Krzysztof; Marasek, Krzysztof (2015). "Tuned und GPU-beschleunigtes paralleles Data Mining aus vergleichbarer Korpora". In Král, Pavel; Matousek, Václav (Hrsg.). Text, Sprache und Dialog - 18. Internationale Konferenz, TSD 2015, Pilsen, Tschechische Republik, 14. bis 17. September 2015, Proceedings. Vorlesungsnotizen in Informatik. Vol. 9302. Springer. S. 32–40. Arxiv:1509.08639. doi:10.1007/978-3-319-24033-6_4.
Externe Links
- ACL Siglex -Ressource Links: Textkorpora Archiviert 2013-08-13 bei der Wayback -Maschine
- Entwicklung sprachlicher Korpora: Ein Leitfaden für gute Praxis
- Kostenlose Muster (nicht kostenlos), webbasierte Korpora (jeweils 45-425 Millionen Wörter): Amerikaner (Coca, Coha, Zeit), British (BNC), Spanisch, Portugiesisch
- Intercorp Bauen synchrone parallele Korpora der Sprachen, die an der Fakultät für Künste der Charles University unterrichtet wurden.
- Sketch Engine: Corpora mit kostenlosem Zugang öffnen
- TS Corpus - Ein türkischer Korpus frei für die akademische Forschung.
- Türkischer Nationalkorpus-ein allgemeiner Korpus für zeitgenössische türkische
- Korpus politischer Reden, Freien Zugang zu politischen Reden von amerikanischen und chinesischen Politikern, entwickelt von der Hong Kong Baptist University Library
- Russischer Nationalkorpus