Wortliste

EIN Wortliste (oder Lexikon) ist eine Liste der Sprache einer Sprache Lexikon (Im Allgemeinen sortiert nach Häufigkeit des Auftretens entweder nach Ebenen oder als Rangliste) innerhalb einiger gegebener Textkorpusden Zweck des Zwecks von Wortschatzerwerb. Ein von der Frequenz sortierter Lexikon "bietet eine rationale Grundlage dafür, dass die Lernenden die beste Rendite für ihren Wortschatzerlernbemühungen erzielen" (Nation 1997), ist aber hauptsächlich für Kursschreiber bestimmt, nicht direkt für Lernende. Frequenzlisten werden auch für lexikografische Zwecke erstellt, die als eine Art Art von dienen Checkliste Um sicherzustellen, dass gemeinsame Wörter nicht ausgelassen werden. Einige wichtige Fallstricke sind der Korpusgehalt, der Korpus registrierenund die Definition von "Wort". Während die Wortzählung tausend Jahre alt ist, mit immer noch gigantischer Analyse von Hand Mitte des 20. Jahrhunderts, Elektronische Verarbeitung natürlicher Sprache Von großen Korpora wie Filmuntertiteln (Subtlex Megastudy) hat das Forschungsfeld beschleunigt.

Im Computerlinguistik, a Frequenzliste ist eine sortierte Liste von Wörter (Worttypen) zusammen mit ihren Frequenz, wo die Häufigkeit hier normalerweise die Anzahl der Vorkommen in einem gegebenen Ereignis bedeutet Korpus, von welchem ​​Rang als Position in der Liste abgeleitet werden kann.

Typ Vorkommen Rang
das 3.789.654 1
er 2.098.762 2.
[...]
König 57.897 1,356
Junge 56.975 1,357.
[...]
Stringyfy 5 34.589
[...]
Transducionalify 1 123.567

Methodik

Faktoren

Nation (Nation 1997) Die unglaubliche Hilfe durch Berechnungsfunktionen, die die Korpusanalyse erheblich erleichtern. Er zitierte mehrere Schlüsselprobleme, die die Konstruktion von Frequenzlisten beeinflussen:

  • Korpus -Repräsentativität
  • Worthäufigkeit und Reichweite
  • Behandlung von Wortfamilien
  • Behandlung von Redewendungen und festen Ausdrücken
  • Informationsbereich
  • Verschiedene andere Kriterien

Korpora

Traditioneller geschriebener Korpus

Die meisten derzeit verfügbaren Studien basieren auf schriftlich Textkorpus, leichter verfügbar und einfach zu verarbeiten.

Subtile Bewegung

Jedoch, New et al. 2007 Vorgeschlagen, um die große Anzahl von Untertiteln zu nutzen, die online verfügbar sind, um eine große Anzahl von Reden zu analysieren. Brysbaert & New 2009 Eine lange kritische Bewertung dieses traditionellen Ansatzes für Textanalysen und unterstützt einen Schritt in Richtung Sprachanalyse und Analyse von Online -verfügbaren Filmuntertiteln. Dies wurde kürzlich von einer Handvoll Follow-up-Studien gefolgt.[1] Bereitstellung einer wertvollen Analyse der Häufigkeitszahl für verschiedene Sprachen. In der Tat absolvierte die subtile Bewegung in fünf Jahren vollständige Studien für Französisch (New et al. 2007), Amerikanisches Englisch (Brysbaert & New 2009; Brysbaert, New & Keulers 2012), Niederländisch (Keulers & New 2010), Chinesisch (Cai & Brysbaert 2010), Spanisch (Cuetos et al. 2011), Griechisch (Dimitropoulou et al. 2010), Vietnamesisch (Pham, Bolger & Baayen 2011), Brasilien Portugiesisch (Tang 2012) und Portugal Portugiesisch (Soares et al. 2015), Albaner (Avdyli & Cuetos 2013), Polieren (Mandera et al. 2014) und Katalanisch (2019[2]). Subtlex-IT (2015) liefert nur Rohdaten.[1]

Lexikaleinheit

In jedem Fall sollte die grundlegende "Wort" -Einheit definiert werden. Für lateinische Skripte sind Wörter normalerweise ein oder mehrere Zeichen, die entweder durch Leerzeichen oder Zeichensetzung getrennt sind. Aber Ausnahmen können entstehen, wie Englisch "nicht", französisch "aujourd'hui" oder Redewendungen. Es kann auch vorzuziehen sein, Wörter von a zu gruppieren Wortfamilie unter der Darstellung seiner Grundwort. Daher, möglich, unmöglich, Möglichkeit sind Wörter derselben Wortfamilie, dargestellt durch das Basiswort *possib*. Für statistische Zwecke werden alle diese Wörter unter der Basiswortform *possib *zusammengefasst, die das Ranking eines Konzepts und eines Auftretens ermöglichen. Darüber hinaus können andere Sprachen spezifische Schwierigkeiten darstellen. Dies ist der Fall von Chinesen, bei dem keine Räume zwischen Wörtern verwendet werden und bei denen eine bestimmte Kette mehrerer Zeichen entweder als Phrase von Wörtern für eindeutige Zeichen oder als Multi-Charakter-Wort interpretiert werden kann.

Statistiken

Es scheint, dass Zipf -Gesetz Gilt für Frequenzlisten aus längeren Texten jeder natürlichen Sprache. Frequenzlisten sind ein nützliches Werkzeug beim Erstellen eines elektronischen Wörterbuchs, das eine Voraussetzung für eine Vielzahl von Anwendungen in ist Computerlinguistik.

Deutsche Linguisten definieren die Häufigkeitklasse (Frequenzklasse) eines Elements in der Liste mit dem Basis 2 Logarithmus des Verhältnisses zwischen seiner Frequenz und der Frequenz des häufigsten Elements. Das häufigste Element gehört zur Frequenzklasse 0 (Null) und jedem Element, das ungefähr halb so häufig ist übereinstimmend hat ein Verhältnis von 76/3789654 und gehört in Klasse 16.

wo ist der Bodenfunktion.

Frequenzlisten zusammen mit Semantische Netzwerkewerden verwendet, um die am wenigsten häufigen, spezialisierten Begriffe zu identifizieren, die durch ihre ersetzt werden sollen Hypernyme in einem Prozess von Semantische Komprimierung.

Pädagogik

Diese Listen sollen nicht direkt an die Schüler vergeben werden, sondern als Richtlinie für Lehrer und Lehrbuchautoren (Autoren des LehrbuchsNation 1997). Paul Nation'S Modern Sprachunterrichtszusammenfassung ermutigt zuerst, "vom Vokabular mit hoher Frequenz- und besonderer Zwecke [thematischer] Vokabular zu niedriger Häufigkeitsvokabular zu wechseln und dann Lernende Strategien zur Aufrechterhaltung des autonomen Vokabulars zu lehren" ((Expansion des autonomen Vokabels "((Expansion" ((Expansion "((Expansion" ((Expansion "((Expansion" ((Expansion "((" (Expansion des autonomen Vokabels "(lehrt es den Lernenden" ("(Expansion" ((Nation 2006).

Auswirkungen der Wörter Frequenz

Es ist bekannt, dass Wortfrequenz verschiedene Effekte hat (Brysbaert et al. 2011; Rudell 1993). Das Auswendiglernen wird positiv durch eine höhere Worthäufigkeit beeinflusst, wahrscheinlich weil der Lernende mehr Expositionen unterliegt (Lober 1997). Der lexikalische Zugang wird positiv durch eine hohe Wortfrequenz beeinflusst, ein Phänomen genannt Wortfrequenzeffekt (Segui et al.). Die Wirkung der Wortfrequenz hängt mit der Wirkung von zusammen Akquisitionalter, das Alter, in dem das Wort gelernt wurde.

Sprachen

Nachfolgend finden Sie eine Überprüfung der verfügbaren Ressourcen.

Englisch

Wortzähldaten zurück zu Hellenistisch Zeit. Thorndike & Lorge, unterstützt von ihren Kollegen, zählte 18.000.000 laufende Wörter, um 1944 die erste großen Frequenzliste bereitzustellen, bevor moderne Computer solche Projekte weitaus einfacher machten (Nation 1997).

Traditionelle Listen

Diese alle leiden unter ihrem Alter. Insbesondere Wörter in Bezug auf Technologie wie "Blog" waren 2014 #7665 in der Frequenz[3] im Korpus des zeitgenössischen amerikanischen Englisch,[4] wurde erstmals 1999 bestätigt,[5][6][7] und erscheint in keiner dieser drei Listen.

Das Lehrer -Wortbuch mit 30.000 Wörtern (Thorndike und Lorge, 1944)

Der TWB enthält 30.000 Lemmas oder ~ 13.000 Wortfamilien (Goulden, Nation and Read, 1990). Ein Korpus von 18 Millionen geschriebenen Wörtern wurde hand analysiert. Die Größe seines Quellkorpus hat seine Nützlichkeit erhöht, aber sein Alter und die Sprachänderungen haben seine Anwendbarkeit verringert (Nation 1997).

Das Allgemeine Dienstliste (West, 1953)

Die GSL enthält 2.000 Headwörter, die in zwei Sätze von 1.000 Wörtern unterteilt sind. In den 1940er Jahren wurde ein Korpus von 5 Millionen geschriebenen Wörtern analysiert. Die Auftrittsrate (%) für unterschiedliche Bedeutungen und Teile der Sprache des Headwords wird bereitgestellt. Verschiedene Kriterien außer Häufigkeit und Bereich wurden sorgfältig auf den Korpus angewendet. Trotz seines Alters, einigen Fehlern und seinem Korpus, der vollständig geschriebenen Text ist, ist es immer noch eine hervorragende Datenbank mit Worthäufigkeit, Bedeutungen und Reduzierung von Rauschen (RauschenNation 1997). Diese Liste wurde 2013 von Dr. Charles Browne, Dr. Brent Culligan und Joseph Phillips als der aktualisiert Neue allgemeine Dienstliste.

Das American Heritage Word Frequenzbuch (Carroll, Davies und Richman, 1971)

Ein Korpus von 5 Millionen laufenden Wörtern aus schriftlichen Texten, die in den Schulen der Vereinigten Staaten verwendet werden (verschiedene Klassen, verschiedene Fachbereiche). Sein Wert liegt in seinem Fokus auf Schulunterrichtsmaterialien und das Markieren von Wörtern durch die Häufigkeit jedes Wortes, in jeder Schulnote und in jedem der Fachbereiche (Nation 1997).

Die Brown (Francis und Kucera, 1982) Lob und verwandte Korpora

Diese enthalten jetzt 1 Million Wörter aus einem geschriebenen Korpus, das verschiedene Englischdialekte darstellt. Diese Quellen werden verwendet, um Frequenzlisten zu erstellen (Nation 1997).

Französisch

Traditionelle Datensätze

Eine Überprüfung wurde von gemacht von New & Pallier. In den 1950er bis 60er Jahren wurde ein Versuch unternommen, mit dem Français -Kanzer. Es enthält die Liste der F.F.1 mit 1.500 Hochfrequenzwörtern, die von einer späteren F.F.2-Liste mit 1.700 Midfrequenzwörtern und den am häufigsten verwendeten Syntaxregeln ausgeführt werden.[8] Es wird behauptet, dass 70 grammatikalische Wörter 50% der Kommunikationsstrafe ausmachen.[9] während 3.680 Wörter ungefähr 95 ~ 98% der Abdeckung machen.[10] Eine Liste von 3.000 häufigen Wörtern ist verfügbar.[11]

Das französische Bildungsministerium bietet auch eine Rangliste der 1.500 häufigsten Wortfamilien, bereitgestellt vom Lexikogen Étienne Brunet.[12] Jean Baudot machte eine Studie über das Modell der amerikanischen Brown -Studie mit dem Titel "Fréquences d'Antutation des Mots en Français Écrit Contemporain".[13]

In jüngerer Zeit liefert das Projekt Lexique3 142.000 französische Wörter mit Orthographie, phonetisch, Silbe, Teil der Rede, Geschlecht, Anzahl des Auftretens im Quellkorpus, Frequenzrang, zugeordneter Lexemeusw., unter einer offenen Lizenz erhältlich Cc-by-sa4.0.[14]

Subtil

Dieser Lexique3 ist eine kontinuierliche Studie, aus der das stammt Subtile Bewegung Oben zitiert. New et al. 2007 machte eine völlig neue Zählung basierend auf Online -Filmuntertiteln.

Spanisch

Es gab mehrere Studien zur spanischen Worthäufigkeit (Cuetos et al. 2011).[15]

Chinesisch

Chinesische Korpora wurden seit langem aus der Perspektive von Frequenzlisten untersucht. Die historische Art, das chinesische Vokabular zu lernen, basiert auf der Frequenz der Charaktere (Allanic 2003). Amerikanischer Sinologe John Defrancis erwähnte seine Bedeutung für Chinesisch als Fremdsprachenlernen und Lehre in Warum Johnny kein Chinesisch lesen kann (DeFrancis 1966). Als Frequenz -Toolkit, DA (DA 1998) und das taiwanesische Bildungsministerium (Bildungsministerium (TME 1997) bereitete große Datenbanken mit Frequenzrängen für Zeichen und Wörter. Das HSK Liste von 8.848 hohen und mittleren Frequenzwörtern in der Volksrepublik China, und die Republik China (Taiwan)'s OBEN Liste der etwa 8.600 gängigen traditionellen chinesischen Wörter sind zwei weitere Listen mit allgemeinen chinesischen Wörtern und Zeichen. Folgt der subtilen Bewegung, Cai & Brysbaert 2010 Kürzlich machte eine reiche Untersuchung des chinesischen Wortes und der Charakterfrequenzen.

Sonstiges

Am häufigsten verwendete Wörter in verschiedenen Sprachen, die auf Wikipedia oder kombinierten Korpora basieren.[16]

Siehe auch

Anmerkungen

  1. ^ a b "CRR» Untertitel Wortfrequenzen ".
  2. ^ Boada, Roger; Guasch, Marc; Haro, Juan; Demestre, Josep; Ferré, Pilar (1. Februar 2020). "Subtlex-cat: Untertitel Wortfrequenzen und kontextbezogene Vielfalt für Katalanisch". Verhaltensforschungsmethoden. 52 (1): 360–375. doi:10.3758/S13428-019-01233-1. ISSN 1554-3528.
  3. ^ "Wörter und Phrasen: Frequenz, Genres, Kollokate, Konkordanzen, Synonyme und WordNet".
  4. ^ "Korpus des zeitgenössischen amerikanischen Englisch (Coca)".
  5. ^ "Es sind die Links, dumm". Der Ökonom. 20. April 2006. Abgerufen 2008-06-05.
  6. ^ Merholz, Peter (1999). "Peterme.com". Internetarchiv. Archiviert von das Original Am 1999-10-13. Abgerufen 2008-06-05.
  7. ^ Kottke, Jason (26. August 2003). "kottke.org". Abgerufen 2008-06-05.
  8. ^ "Le Français liebend". Archiviert von das Original Am 2010-07-04.
  9. ^ Ouzoulias, André (2004), Comprendre et Aider Les enfants en schwarzeé scolaire: le vocabulaire fondamental, 70 mots Essentiels (PDF), Retz - Zitieren von V.A.C Henmon
  10. ^ "Allgemeinheiten".
  11. ^ "PDF 3000 Französische Wörter".
  12. ^ "Maitrise de la Langue à l'École: Vocabulaire". Ministère de l'éducation nationale.
  13. ^ Baudot, J. (1992), Fréquences d'Antutation des Mots en français Écrit Contemporain, Presses de l'iversité, ISBN 978-2-7606-1563-2
  14. ^ "Lexique".
  15. ^ "Spanische Wortfrequenzlisten". Vokabularwiki.pbworks.com.
  16. ^ Am häufigsten verwendete Wörter in verschiedenen Sprachen, Ezglot

Verweise

Theoretische Konzepte

Schriftliche Texte basierende Datenbanken

Subtile Bewegung