Wortliste
EIN Wortliste (oder Lexikon) ist eine Liste der Sprache einer Sprache Lexikon (Im Allgemeinen sortiert nach Häufigkeit des Auftretens entweder nach Ebenen oder als Rangliste) innerhalb einiger gegebener Textkorpusden Zweck des Zwecks von Wortschatzerwerb. Ein von der Frequenz sortierter Lexikon "bietet eine rationale Grundlage dafür, dass die Lernenden die beste Rendite für ihren Wortschatzerlernbemühungen erzielen" (Nation 1997), ist aber hauptsächlich für Kursschreiber bestimmt, nicht direkt für Lernende. Frequenzlisten werden auch für lexikografische Zwecke erstellt, die als eine Art Art von dienen Checkliste Um sicherzustellen, dass gemeinsame Wörter nicht ausgelassen werden. Einige wichtige Fallstricke sind der Korpusgehalt, der Korpus registrierenund die Definition von "Wort". Während die Wortzählung tausend Jahre alt ist, mit immer noch gigantischer Analyse von Hand Mitte des 20. Jahrhunderts, Elektronische Verarbeitung natürlicher Sprache Von großen Korpora wie Filmuntertiteln (Subtlex Megastudy) hat das Forschungsfeld beschleunigt.
Im Computerlinguistik, a Frequenzliste ist eine sortierte Liste von Wörter (Worttypen) zusammen mit ihren Frequenz, wo die Häufigkeit hier normalerweise die Anzahl der Vorkommen in einem gegebenen Ereignis bedeutet Korpus, von welchem Rang als Position in der Liste abgeleitet werden kann.
Typ | Vorkommen | Rang |
---|---|---|
das | 3.789.654 | 1 |
er | 2.098.762 | 2. |
[...] | ||
König | 57.897 | 1,356 |
Junge | 56.975 | 1,357. |
[...] | ||
Stringyfy | 5 | 34.589 |
[...] | ||
Transducionalify | 1 | 123.567 |
Methodik
Faktoren
Nation (Nation 1997) Die unglaubliche Hilfe durch Berechnungsfunktionen, die die Korpusanalyse erheblich erleichtern. Er zitierte mehrere Schlüsselprobleme, die die Konstruktion von Frequenzlisten beeinflussen:
- Korpus -Repräsentativität
- Worthäufigkeit und Reichweite
- Behandlung von Wortfamilien
- Behandlung von Redewendungen und festen Ausdrücken
- Informationsbereich
- Verschiedene andere Kriterien
Korpora
Traditioneller geschriebener Korpus

Die meisten derzeit verfügbaren Studien basieren auf schriftlich Textkorpus, leichter verfügbar und einfach zu verarbeiten.
Subtile Bewegung
Jedoch, New et al. 2007 Vorgeschlagen, um die große Anzahl von Untertiteln zu nutzen, die online verfügbar sind, um eine große Anzahl von Reden zu analysieren. Brysbaert & New 2009 Eine lange kritische Bewertung dieses traditionellen Ansatzes für Textanalysen und unterstützt einen Schritt in Richtung Sprachanalyse und Analyse von Online -verfügbaren Filmuntertiteln. Dies wurde kürzlich von einer Handvoll Follow-up-Studien gefolgt.[1] Bereitstellung einer wertvollen Analyse der Häufigkeitszahl für verschiedene Sprachen. In der Tat absolvierte die subtile Bewegung in fünf Jahren vollständige Studien für Französisch (New et al. 2007), Amerikanisches Englisch (Brysbaert & New 2009; Brysbaert, New & Keulers 2012), Niederländisch (Keulers & New 2010), Chinesisch (Cai & Brysbaert 2010), Spanisch (Cuetos et al. 2011), Griechisch (Dimitropoulou et al. 2010), Vietnamesisch (Pham, Bolger & Baayen 2011), Brasilien Portugiesisch (Tang 2012) und Portugal Portugiesisch (Soares et al. 2015), Albaner (Avdyli & Cuetos 2013), Polieren (Mandera et al. 2014) und Katalanisch (2019[2]). Subtlex-IT (2015) liefert nur Rohdaten.[1]
Lexikaleinheit
In jedem Fall sollte die grundlegende "Wort" -Einheit definiert werden. Für lateinische Skripte sind Wörter normalerweise ein oder mehrere Zeichen, die entweder durch Leerzeichen oder Zeichensetzung getrennt sind. Aber Ausnahmen können entstehen, wie Englisch "nicht", französisch "aujourd'hui" oder Redewendungen. Es kann auch vorzuziehen sein, Wörter von a zu gruppieren Wortfamilie unter der Darstellung seiner Grundwort. Daher, möglich, unmöglich, Möglichkeit sind Wörter derselben Wortfamilie, dargestellt durch das Basiswort *possib*. Für statistische Zwecke werden alle diese Wörter unter der Basiswortform *possib *zusammengefasst, die das Ranking eines Konzepts und eines Auftretens ermöglichen. Darüber hinaus können andere Sprachen spezifische Schwierigkeiten darstellen. Dies ist der Fall von Chinesen, bei dem keine Räume zwischen Wörtern verwendet werden und bei denen eine bestimmte Kette mehrerer Zeichen entweder als Phrase von Wörtern für eindeutige Zeichen oder als Multi-Charakter-Wort interpretiert werden kann.
Statistiken
Es scheint, dass Zipf -Gesetz Gilt für Frequenzlisten aus längeren Texten jeder natürlichen Sprache. Frequenzlisten sind ein nützliches Werkzeug beim Erstellen eines elektronischen Wörterbuchs, das eine Voraussetzung für eine Vielzahl von Anwendungen in ist Computerlinguistik.
Deutsche Linguisten definieren die Häufigkeitklasse (Frequenzklasse) eines Elements in der Liste mit dem Basis 2 Logarithmus des Verhältnisses zwischen seiner Frequenz und der Frequenz des häufigsten Elements. Das häufigste Element gehört zur Frequenzklasse 0 (Null) und jedem Element, das ungefähr halb so häufig ist übereinstimmend hat ein Verhältnis von 76/3789654 und gehört in Klasse 16.
wo ist der Bodenfunktion.
Frequenzlisten zusammen mit Semantische Netzwerkewerden verwendet, um die am wenigsten häufigen, spezialisierten Begriffe zu identifizieren, die durch ihre ersetzt werden sollen Hypernyme in einem Prozess von Semantische Komprimierung.
Pädagogik
Diese Listen sollen nicht direkt an die Schüler vergeben werden, sondern als Richtlinie für Lehrer und Lehrbuchautoren (Autoren des LehrbuchsNation 1997). Paul Nation'S Modern Sprachunterrichtszusammenfassung ermutigt zuerst, "vom Vokabular mit hoher Frequenz- und besonderer Zwecke [thematischer] Vokabular zu niedriger Häufigkeitsvokabular zu wechseln und dann Lernende Strategien zur Aufrechterhaltung des autonomen Vokabulars zu lehren" ((Expansion des autonomen Vokabels "((Expansion" ((Expansion "((Expansion" ((Expansion "((Expansion" ((Expansion "((" (Expansion des autonomen Vokabels "(lehrt es den Lernenden" ("(Expansion" ((Nation 2006).
Auswirkungen der Wörter Frequenz
Es ist bekannt, dass Wortfrequenz verschiedene Effekte hat (Brysbaert et al. 2011; Rudell 1993). Das Auswendiglernen wird positiv durch eine höhere Worthäufigkeit beeinflusst, wahrscheinlich weil der Lernende mehr Expositionen unterliegt (Lober 1997). Der lexikalische Zugang wird positiv durch eine hohe Wortfrequenz beeinflusst, ein Phänomen genannt Wortfrequenzeffekt (Segui et al.). Die Wirkung der Wortfrequenz hängt mit der Wirkung von zusammen Akquisitionalter, das Alter, in dem das Wort gelernt wurde.
Sprachen
Nachfolgend finden Sie eine Überprüfung der verfügbaren Ressourcen.
Englisch
Wortzähldaten zurück zu Hellenistisch Zeit. Thorndike & Lorge, unterstützt von ihren Kollegen, zählte 18.000.000 laufende Wörter, um 1944 die erste großen Frequenzliste bereitzustellen, bevor moderne Computer solche Projekte weitaus einfacher machten (Nation 1997).
Traditionelle Listen
Diese alle leiden unter ihrem Alter. Insbesondere Wörter in Bezug auf Technologie wie "Blog" waren 2014 #7665 in der Frequenz[3] im Korpus des zeitgenössischen amerikanischen Englisch,[4] wurde erstmals 1999 bestätigt,[5][6][7] und erscheint in keiner dieser drei Listen.
- Das Lehrer -Wortbuch mit 30.000 Wörtern (Thorndike und Lorge, 1944)
Der TWB enthält 30.000 Lemmas oder ~ 13.000 Wortfamilien (Goulden, Nation and Read, 1990). Ein Korpus von 18 Millionen geschriebenen Wörtern wurde hand analysiert. Die Größe seines Quellkorpus hat seine Nützlichkeit erhöht, aber sein Alter und die Sprachänderungen haben seine Anwendbarkeit verringert (Nation 1997).
- Das Allgemeine Dienstliste (West, 1953)
Die GSL enthält 2.000 Headwörter, die in zwei Sätze von 1.000 Wörtern unterteilt sind. In den 1940er Jahren wurde ein Korpus von 5 Millionen geschriebenen Wörtern analysiert. Die Auftrittsrate (%) für unterschiedliche Bedeutungen und Teile der Sprache des Headwords wird bereitgestellt. Verschiedene Kriterien außer Häufigkeit und Bereich wurden sorgfältig auf den Korpus angewendet. Trotz seines Alters, einigen Fehlern und seinem Korpus, der vollständig geschriebenen Text ist, ist es immer noch eine hervorragende Datenbank mit Worthäufigkeit, Bedeutungen und Reduzierung von Rauschen (RauschenNation 1997). Diese Liste wurde 2013 von Dr. Charles Browne, Dr. Brent Culligan und Joseph Phillips als der aktualisiert Neue allgemeine Dienstliste.
- Das American Heritage Word Frequenzbuch (Carroll, Davies und Richman, 1971)
Ein Korpus von 5 Millionen laufenden Wörtern aus schriftlichen Texten, die in den Schulen der Vereinigten Staaten verwendet werden (verschiedene Klassen, verschiedene Fachbereiche). Sein Wert liegt in seinem Fokus auf Schulunterrichtsmaterialien und das Markieren von Wörtern durch die Häufigkeit jedes Wortes, in jeder Schulnote und in jedem der Fachbereiche (Nation 1997).
- Die Brown (Francis und Kucera, 1982) Lob und verwandte Korpora
Diese enthalten jetzt 1 Million Wörter aus einem geschriebenen Korpus, das verschiedene Englischdialekte darstellt. Diese Quellen werden verwendet, um Frequenzlisten zu erstellen (Nation 1997).
Französisch
- Traditionelle Datensätze
Eine Überprüfung wurde von gemacht von New & Pallier. In den 1950er bis 60er Jahren wurde ein Versuch unternommen, mit dem Français -Kanzer. Es enthält die Liste der F.F.1 mit 1.500 Hochfrequenzwörtern, die von einer späteren F.F.2-Liste mit 1.700 Midfrequenzwörtern und den am häufigsten verwendeten Syntaxregeln ausgeführt werden.[8] Es wird behauptet, dass 70 grammatikalische Wörter 50% der Kommunikationsstrafe ausmachen.[9] während 3.680 Wörter ungefähr 95 ~ 98% der Abdeckung machen.[10] Eine Liste von 3.000 häufigen Wörtern ist verfügbar.[11]
Das französische Bildungsministerium bietet auch eine Rangliste der 1.500 häufigsten Wortfamilien, bereitgestellt vom Lexikogen Étienne Brunet.[12] Jean Baudot machte eine Studie über das Modell der amerikanischen Brown -Studie mit dem Titel "Fréquences d'Antutation des Mots en Français Écrit Contemporain".[13]
In jüngerer Zeit liefert das Projekt Lexique3 142.000 französische Wörter mit Orthographie, phonetisch, Silbe, Teil der Rede, Geschlecht, Anzahl des Auftretens im Quellkorpus, Frequenzrang, zugeordneter Lexemeusw., unter einer offenen Lizenz erhältlich Cc-by-sa4.0.[14]
- Subtil
Dieser Lexique3 ist eine kontinuierliche Studie, aus der das stammt Subtile Bewegung Oben zitiert. New et al. 2007 machte eine völlig neue Zählung basierend auf Online -Filmuntertiteln.
Spanisch
Es gab mehrere Studien zur spanischen Worthäufigkeit (Cuetos et al. 2011).[15]
Chinesisch
Chinesische Korpora wurden seit langem aus der Perspektive von Frequenzlisten untersucht. Die historische Art, das chinesische Vokabular zu lernen, basiert auf der Frequenz der Charaktere (Allanic 2003). Amerikanischer Sinologe John Defrancis erwähnte seine Bedeutung für Chinesisch als Fremdsprachenlernen und Lehre in Warum Johnny kein Chinesisch lesen kann (DeFrancis 1966). Als Frequenz -Toolkit, DA (DA 1998) und das taiwanesische Bildungsministerium (Bildungsministerium (TME 1997) bereitete große Datenbanken mit Frequenzrängen für Zeichen und Wörter. Das HSK Liste von 8.848 hohen und mittleren Frequenzwörtern in der Volksrepublik China, und die Republik China (Taiwan)'s OBEN Liste der etwa 8.600 gängigen traditionellen chinesischen Wörter sind zwei weitere Listen mit allgemeinen chinesischen Wörtern und Zeichen. Folgt der subtilen Bewegung, Cai & Brysbaert 2010 Kürzlich machte eine reiche Untersuchung des chinesischen Wortes und der Charakterfrequenzen.
Sonstiges
Am häufigsten verwendete Wörter in verschiedenen Sprachen, die auf Wikipedia oder kombinierten Korpora basieren.[16]
Siehe auch
- Brieffrequenz
- Am häufigsten auf Englisch gebräuchliche Wörter
- Langen Schwanz
- Google Ngram Viewer - zeigt Änderungen in der Wort-/Phrasenfrequenz (und der relativen Frequenz) im Laufe der Zeit
Anmerkungen
- ^ a b "CRR» Untertitel Wortfrequenzen ".
- ^ Boada, Roger; Guasch, Marc; Haro, Juan; Demestre, Josep; Ferré, Pilar (1. Februar 2020). "Subtlex-cat: Untertitel Wortfrequenzen und kontextbezogene Vielfalt für Katalanisch". Verhaltensforschungsmethoden. 52 (1): 360–375. doi:10.3758/S13428-019-01233-1. ISSN 1554-3528.
- ^ "Wörter und Phrasen: Frequenz, Genres, Kollokate, Konkordanzen, Synonyme und WordNet".
- ^ "Korpus des zeitgenössischen amerikanischen Englisch (Coca)".
- ^ "Es sind die Links, dumm". Der Ökonom. 20. April 2006. Abgerufen 2008-06-05.
- ^ Merholz, Peter (1999). "Peterme.com". Internetarchiv. Archiviert von das Original Am 1999-10-13. Abgerufen 2008-06-05.
- ^ Kottke, Jason (26. August 2003). "kottke.org". Abgerufen 2008-06-05.
- ^ "Le Français liebend". Archiviert von das Original Am 2010-07-04.
- ^ Ouzoulias, André (2004), Comprendre et Aider Les enfants en schwarzeé scolaire: le vocabulaire fondamental, 70 mots Essentiels (PDF), Retz - Zitieren von V.A.C Henmon
- ^ "Allgemeinheiten".
- ^ "PDF 3000 Französische Wörter".
- ^ "Maitrise de la Langue à l'École: Vocabulaire". Ministère de l'éducation nationale.
- ^ Baudot, J. (1992), Fréquences d'Antutation des Mots en français Écrit Contemporain, Presses de l'iversité, ISBN 978-2-7606-1563-2
- ^ "Lexique".
- ^ "Spanische Wortfrequenzlisten". Vokabularwiki.pbworks.com.
- ^ Am häufigsten verwendete Wörter in verschiedenen Sprachen, Ezglot
Verweise
Theoretische Konzepte
- Nation, P. (1997), "Vokabulargröße, Textabdeckung und Wortlisten"in schmitt; McCarthy (Hrsg.), Wortschatz: Beschreibung, Akquisition und Pädagogik, Cambridge: Cambridge University Press, S. 6–19, ISBN 978-0-521-58551-4
- Dauer, B. (1997), "Was ist in einem Wort, das es schwierig oder einfach macht? Einige intralexische Faktoren, die das Lernen von Wörtern beeinflussen.", Wortschatz: Beschreibung, Akquisition und Pädagogik, Cambridge: Cambridge University Press, S. 140–155, ISBN 9780521585514
- Nation, P. (2006), "Sprachbildung - Vokabular", Enzyklopädie der Sprach- und Linguistik, Oxford: 494–499, doi:10.1016/b0-08-044854-2/00678-7, ISBN 9780080448541.
- Brysbaert, Marc; Buchmeier, Matthias; Conrad, Markus; Jacobs, Arthur M.; Bölte, Jens; Böhl, Andrea (2011). "Der Wortfrequenzeffekt: Eine Überprüfung der jüngsten Entwicklungen und Auswirkungen auf die Auswahl der Frequenzschätzungen auf Deutsch". Experimentelle Psychologie. 58 (5): 412–424. doi:10.1027/1618-3169/A000123. PMID 21768069. Datenbank
- Rudell, A. P. (1993), "Häufigkeit der Wortnutzung und wahrgenommener Wortschwierigkeit: Bewertungen von Kucera und Francis Wörtern", Die meisten, vol. 25, S. 455–463
- Segui, J.; Mehler, Jacques; Frauenfelder, Uli; Morton, John (1982), "Der Wortfrequenzeffekt und der lexikalische Zugang", Neuropsychologie, 20 (6): 615–627, doi:10.1016/0028-3932 (82) 90061-6, PMID 7162585, S2CID 39694258
- Meier, Helmut (1967), Deutsche Sprachstatistik, Hildesheim: OLMS (Frequenzliste der deutschen Wörter)
- DeFrancis, John (1966), Warum Johnny kein Chinesisch lesen kann (PDF)
- Allanic, Bernard (2003), Der Korpus der Charaktere und ihr pädagogischer Aspekt im alten und zeitgenössischen China (Fr: Les Corpus de Caractères et Leur Dimension Pédagogique Dans la Chine Ancienne et Contemporine) (Diese de Doktorat), Paris: Inalco
Schriftliche Texte basierende Datenbanken
- DA, Jun (1998), Jun Da: Chinese Text Computing, abgerufen 2010-08-21.
- Taiwan -Bildungsministerium (1997), 八十六 年 常用 語詞 調查 報告書 報告書, abgerufen 2010-08-21.
- Neu, Boris; Pallier, Christophe, Manuel de Lexique 3 (in Französisch) (3.01 ed.).
- Gimenes, Manuel; New, Boris (2016), "Worldlex: Twitter- und Blog -Wortfrequenzen für 66 Sprachen", Verhaltensforschungsmethoden, 48 (3): 963–972, doi:10.3758/S13428-015-0621-0, ISSN 1554-3528, PMID 26170053.
Subtile Bewegung
- Neu, b.; Brysbaert, M.; Veronis, J.; Pallier, C. (2007). "Subtlex-FR: Die Verwendung von Filmuntertiteln zur Schätzung der Wortfrequenzen" (PDF). Angewandte Psycholinguistik. 28 (4): 661. doi:10.1017/s014271640707035X. HDL:1854/LU-599589. S2CID 145366468. Archiviert von das Original (PDF) am 2016-10-24.
- Brysbaert, Marc; Neu, Boris (2009), "Über Kucera und Francis hinausgehen: Eine kritische Bewertung der aktuellen Wortfrequenznormen und die Einführung eines neuen und verbesserten Wortfrequenzmaßes für amerikanisches Englisch" (PDF), Verhaltensforschungsmethoden, 41 (4): 977–990, doi:10.3758/brm.41.4.977, PMID 19897807, S2CID 4792474
- Keulers, E, M, B.; New, B. (2010), "Subtlex-NL: Eine neue Maßnahme für die niederländische Wortfrequenz basierend auf Filmuntertiteln", Verhaltensforschungsmethoden, 42 (3): 643–650, doi:10.3758/brm.42.3.643, PMID 20805586
- Cai, Q.; Brysbaert, M. (2010), "subtilex-ch: chinesische Wort- und Charakterfrequenzen basierend auf Filmuntertiteln", PLUS EINS, 5 (6): 8, Bibcode:2010ploso ... 510729c, doi:10.1371/journal.pone.0010729, PMC 2880003, PMID 20532192
- Cuetos, F.; Glez-Nosti, Maria; Barbón, Analía; Brysbaert, Marc (2011), "Subtlex-ESP: Spanische Wortfrequenzen basierend auf Filmuntertiteln" (PDF), PSICOLógica, 32: 133–143
- Dimitropoulou, M.; Duñabeitia, Jon Andoni; Avilés, Alberto; Corral, José; Carreiras, Manuel (2010), "subtilex-gr: Untertitelbasierte Wortfrequenzen als beste Schätzung des Leseverhaltens: Der Fall des Griechischen", Grenzen in der Psychologie, 1 (Dezember): 12, doi:10.3389/fpsyg.2010.00218, PMC 3153823, PMID 21833273
- Pham, H.; Bolger, P.; Baayen, R. H. (2011), "Subtlex-Vie: Eine Maßnahme für vietnamesische Wort- und Charakterfrequenzen für Filmuntertitel", Acol
- Brysbaert, M.; Neu, Boris; Keulers, E. (2012), "Subtlex-US: Hinzufügen von Sprachinformationen zu den subtilen Wortfrequenzen" (PDF), Verhaltensforschungsmethoden: 1–22 (Datenbanken)
- Mandera, P.; Keulers, E.; Wodniecka, Z.; Brysbaert, M. (2014). "Subtlex-PL: Untertitelbasierte Wortfrequenzschätzungen für Politur" (PDF). Verhaltensmethoden. 47 (2): 471–483. doi:10.3758/s13428-014-0489-4. PMID 24942246. S2CID 2334688.
- Tang, K. (2012), "Ein 61 -Millionen -Word -Korpus brasilianischer portugiesischer Filmuntertitel als Ressource für sprachliche Forschung", UCL -Arbeit PAP Linguist (24): 208–214
- Avdyli, Rrezarta; Cuetos, Fernando (Juni 2013), "Subtilexal: Albanische Wortfrequenzen basierend auf Filmuntertiteln", Iliria International Review, 3 (1): 285–292, doi:10.21113/iir.v3i1.112, ISSN 2365-8592
- Soares, Ana Paula; Machado, João; Costa, Ana; Iriarte, Álvaro; Simões, Alberto; de Almeida, José João; Comesaña, Montserrat; Perea, Manuel (April 2015), "Über die Vorteile von Worthäufigkeit und kontextbezogenen Diversitätsmaßnahmen, die aus Untertiteln extrahiert wurden: Der Fall von Portugiesisch", Das Quarterly Journal of Experimental Psychology, 68 (4): 680–696, doi:10.1080/17470218.2014.964271, PMID 25263599, S2CID 5376519