ZNS 11643

ZNS 11643
Alias ​​(e) CSIC (chinesischer Standard -Austauschcode)
Sprachen) Traditionelles Chinesisch
Standard ZNS 11643
Einstufung ISO 2022, DBCs, CJK -Codierung
Codierungsformate
Andere verwandte Kodierungen (en) Die großen 5, CCCII

Das ZNS 11643 Charakter -Set (chinesischer Nationalstandard 11643), auch offiziell als die bekannt als die Chinesischer Standard -Austauschcode oder CSIC[1] (Chinesisch: 中文標準交換碼), ist offiziell der Standardzeichensatz von Taiwan (Republik China). In der Praxis Varianten der Verwandten Die großen 5 Zeichensatz sind de facto Standard.

ZNS 11643 ist so konzipiert, dass sie sich anpassen können ISO 2022. Es enthält 16 Flugzeuge, so dass die maximal mögliche Anzahl codierbarer Zeichen 16 × 94 × 94 = 141376 beträgt. Flugzeuge 1 bis 7 werden durch den Standard definiert; Seit 2007 wurden auch Flugzeuge 10 bis 15 vom Standard definiert.[2]: 115–122 Zuvor wurden die Flugzeuge 12 bis 15 (35344 Codepunkte) speziell für benutzerdefinierte Zeichen benannt. nicht wie CCCIIDie Codierung von Variantenzeichen in ZNS 11643 ist nicht miteinander verbunden.

EUC-TW ist eine codierte Darstellung von ZNS 11643 und ASCII in Extended Unix Code (EUC) Form. Andere Codierungen, die bestimmte CSIC -Ebenen darstellen können ISO-2022-CN (Flugzeuge 1 und 2) und ISO-2022-CN-EXT (Flugzeuge 1 bis 7).

Geschichte

Die erste Ausgabe des Standards wurde 1986 veröffentlicht und umfasste die Ebenen 1 und 2, die sich aus den Stufen 1 und 2 von abgeben Die großen 5mit einigen Nachbestellungen aufgrund korrigierter Schlaganfallzahlen, zwei doppelten Zeichen, die weggelassen werden, und die Zugabe von 213 klassisch Radikale. Anschließend wurden 1988 (6319 Zeichen, Besetzungsebene 14) und 1990 (7169 Zeichen, Besetzungsebene 15) veröffentlicht.[2]: 115–122

Unicode 1.0.0, obwohl es noch nicht beinhaltete Hanzi, enthalten Zeichen für die Kompatibilität mit ZNS 11643: die CJK -Kompatibilitätsformulare Block wurde in Unicode 1.0.0 den Titel "CNS 11643 Kompatibilität".[3] Wenn der Unicode CJK Unified Ideographs Das SET wurde für Unicode 1.0.1 zusammengestellt, die nationalen Stellen haben die Zeichensets für die Sets eingereicht CJK Joint Research Group für die Aufnahme. Die Version von CNS 11643 eingereichter enthielt die Erweiterung der Ebene 14 zusätzlich zu den weiteren gewünschten Zeichen, die an die Ebene 14 angehängt wurden (nach 68-21, dem zuletzt verwendeten Codepunkt in der Standardversion der Erweiterung).[2]: 179–180

In der zweiten Ausgabe von The Standard, veröffentlicht 1992 eine viel größere Sammlung von Hanzi wurde in sieben Flugzeugen definiert. Eine Teilmenge der Erweiterung der Ebene 14 von 1988, einschließlich des 6148 Codepunkte 01-01 bis 66-38 wurde Ebene 3 (mit den verbleibenden 171 Zeichen, Codepunkte 66-39 bis 68-21, stattdessen auf Ebene 4 verteilt). Die Erweiterung der Ebene 15 wurde nicht enthalten, obwohl 338 ihrer Zeichen in die Flugzeuge 4 bis 7 enthalten waren.[2]: 115–122

Die dritte Ausgabe des Standards, die 2007 veröffentlicht wurde, fügte die hinzu Eurozeichen, ideografische Null, Kana und Erweiterungen zum bestehenden Bopomofo und Roman Alphabet Unterstützung für Ebene 1. Die Flugzeuge 10 bis 14 wurden zusätzliche Hanzi eingeführt und die vorhandene Erweiterung der Ebene 15 in den Standard selbst einbezogen (mit Lücken, bei denen die Zeichen bereits in den Flugzeugen 4 bis 7 existierten). Außerdem wurden 128 weitere Hanzi in das Flugzeug 3 angeführt, beginnend am Codepunkt 68-40.[2]: 115–122

Ab 2017Es gibt mehrere tausend ZNS 11643 Zeichen ohne entsprechende Unicode -Zeichen, hauptsächlich in den Flugzeugen 10 bis 14; Diese werden dem Unicode zugeordnet Ergänzende private Nutzungsfläche.[4]

Beziehung zu Big5

Level 1 und 2 der Die großen 5 Die Codierung entspricht hauptsächlich ZNS 11643 -Flugzeugen 1 bzw. 2, mit gelegentlichen Unterschieden in der Reihenfolge und mit zwei doppelten Hanzi, die in Big5 existieren, jedoch nicht in ZNS 11643. Sie können mit einer Liste von Reichweiten abgebildet werden.[5][6] Die 213 klassischen Radikale in ZNS 11643 -Ebene 1 sind jedoch zusätzlich zu den in Big5 verfügbaren Zeichen, und weitere zusätzliche Zeichen wurden 2007 zu ZNS 11643 -Ebene 1 hinzugefügt.[2]: 115–122 Das Big5-2003 Die Variante von Big5 wird als teilweise Codierung von ZNS 11643 definiert.

Innerhalb des Big5 -Hanzi -Repertoires wird nur ein Charakter von den ersten beiden ZNS 11643 -Flugzeugen herkömmlich zu Unicode zugeordnet. Verwandte Variante bei u+5f5e (彞).[7] Einige Varianten -Zuordnungen für Big5, wie einige von definierten durch IBMschließen u+5f5e anstelle u+5f5d ein.[8]

Verweise

  1. ^ ECMA (1993-01-21). Chinesischer Standard -Austauschcode (CSIC) - Set 1 (PDF). Itcj/Ipsj. ISO-IR-171.
  2. ^ a b c d e f Lunde, Ken (2008). "3. Charakter -Set -Standards". CJKV -Informationsverarbeitung (2. Aufl.). O'Reilly Media. ISBN 9780596514471.
  3. ^ "3.8: Block-by-Block-Diagramme" (PDF). Der Unicode -Standard.Version 1.0. Unicode -Konsortium.
  4. ^ "ZNS 11643 im Bereich der zusätzlichen privaten Nutzung von Unicode". [Chinesischer MAC]. Rat für ostasiatische Studien an der Yale University.
  5. ^ Lunde, Ken (1995-12-18). "4.3: CJK -Charakter -Kompatibilitätsprobleme - Chinesisch (Taiwan)". Cjk.inf Version 1.9.
  6. ^ Zhu, Hf.; Hu, Dy.; Wang, Zg.; Kao, TC.; Chang, Wch.; Crispin, M. (1996). "RFC 1922: Chinesische Charakter -Codierung für Internetnachrichten". Anfragen nach Kommentaren. Ietf.
  7. ^ Lunde, Ken (2018-02-15). "Erforschen iicore - Teil 4". CJK -Blog. Adobe Inc.
  8. ^ "IBM-950_P110-1999 (Lead Byte 0xc2)". Internationale Komponenten für Unicode Konverter Explorer. Unicode -Konsortium.

Externe Links