GBK (Charaktercodierung)
Mime / Iana | GBK |
---|---|
Alias (e) | CP936, MS936, Windows-936, CSGBK |
Sprachen) | Webbrowser, dekodieren als GB 18030und unterstützt alle Sprachen, während die Codierung (und andere Softwaredecoder) hauptsächlich für verwendet wird Vereinfachtes Chinesisch, aber auch unterstützt Traditionelles Chinesisch, japanisch, Englisch, Russisch und (teilweise) griechisch. |
Standard | GBK 1.0 |
Einstufung | Erweiterte ASCII,[a] Codierung der variablen Breite, CJK -Codierung |
Erweitert | EUC-CN |
Vorausgegangen von | GB 2312 |
gefolgt von | GB 18030 |
| |
GBK ist eine Erweiterung der GB 2312 Zeichensatz zum Vereinfachte chinesische Charaktere, verwendet in der Volksrepublik China. Es enthält alle einheitlichen Unified CJK -Charaktere gefunden in GB 13000.1-93, d.h. ISO/IEC 10646: 1993, oder Unicode 1.1. Seit seiner ersten Veröffentlichung im Jahr 1993 wurde GBK von Microsoft in erweitert Code Seite 936/1386, was dann erweitert wurde in GBK 1.0. GBK ist auch der IANA-registrierte Internetname für die Microsoft-Mapping,[1] was sich von anderen Implementierungen hauptsächlich von der Single-Byte unterscheidet Eurozeichen bei 0x80.
Gb Abkürzes Guojia Biaozhun, was bedeutet Nationaler Standard auf Chinesisch während K steht für Verlängerung (扩展 Kuòzhǎn). GBK erweiterte nicht nur den alten Standard GB 2312 mit traditionellen chinesischen Charakteren, aber auch mit chinesischen Charakteren, die nach der Gründung von vereinfacht wurden GB 2312 1981. Mit der Ankunft von GBK bestimmte Namen mit Charakteren, die früher nicht darstellbar waren, wie das 镕 (镕 (Róng) Charakter im ehemaligen chinesischen Premier Zhu Rongjis Name sind jetzt dargestellt.[2]
Ab März 2022[aktualisieren], GBK ist die zweitbeste chinesische Kodierung (nach der Teilmenge GB 2312) mit 2,3% der Webseiten aus China und Gebieten erklären es.[3] und 0,1% aller Webseiten weltweit,[4] Als solche markiert, aber alle wichtigen Webbrowser dekodieren Dokumente, die als z. "GB 2312" oder "GB2312"Als ob sie" GBK "markiert wären (während nicht alle für Seiten mit" GB_2312 "markiert wären),[5] und GBK und die Untergruppe Codierung GB 2312 haben einen gemeinsamen Anteil von 7,7% (oder weniger als 0,2% weltweit).
Geschichte
1993 die Unicode 1.1 Standard wurde veröffentlicht, einschließlich 20.902 Zeichen in verwendet in Festland China, Taiwan, Japan und Korea. Anschließend veröffentlichte China frei GB 13000.1-93, das Guobiao Standard Äquivalent von Unicode 1.1.
Das GBK Der Charaktersatz wurde 1993 als Erweiterung von definiert GB 2312-80, während auch die Zeichen von GB 13000.1-93 über die nicht verwendeten CodePoints in GB 2312 enthält. Daher ist GBK mit GB 2312 rückwärts kompatibel.
Microsoft implementierte GBK in Windows 95 und Windows NT 3.51 wie Code Seite 936. Während GBK nie ein offizieller Standard war, führte die weit verbreitete Verwendung von Windows 95 dazu, dass GBK der wurde de facto Standard. Während GBK alle in Unicode 1.1 und GB 13000.1-93 definierten chinesischen Zeichen enthielt, verwendeten diese Standards verschiedene Code-Tabellen. Der Hauptgrund für seine Existenz war einfach, die Lücke zwischen GB 2312-80 und GB 13000,1-93 zu überbrücken.
Im Jahr 1995 legte der technische Komitee der National Information Technology Standardisierung die chinesische interne Code -Erweiterungsspezifikation fest (Chinesisch: 汉字内码扩展规范 (GBK); Pinyin: Hànzì Nèimǎ Kuòzhǎn Guīfàn (GBK)), Version 1.0, bekannt als GBK 1.0, was eine leichte Erweiterung von Codepage 936 ist. Pua Codepunkte.[6]: 534
Microsoft fügte später hinzu Eurozeichen zu Code Seite 936 und zugewiesen den Code 0x80 ihm. Dies ist kein gültiger Codepunkt in GBK 1.0.
Im Jahr 2000 die GB 18030-2000 Standard wurde freigegeben und die Kompatibilität mit GBK 1.0 aufrechterhalten. Es erhöhte die Anzahl der Definitionen chinesischer Zeichen und erweiterte die Anzahl der möglichen Zeichen durch die Implementierung von Vier-Byte-Charakterräumen. Die Teilmenge von GB 18030, die aus One-Byte- und Zwei-Byte-Zeichen besteht GBK. Die Zuordnung zu Unicode wurde jedoch geringfügig geändert, da einige Zeichen jetzt in Unicode definiert sind. In der aktuellsten Form des Standards, GB 18030-2005, nur 24[7] Charaktere werden immer noch auf Unicode pua abgebildet (siehe GB 18030#Pua.))
In 2002, GBK wurde als Iana Charset registriert; Die Registrierung verwendet Code Seite 936 Mapping sowie CP936/MS936 -Aliase, bezieht sich jedoch auf die GBK 1.0 -Spezifikation.[1] W3cDie im Jahr 2015 veröffentlichte technische Empfehlung[8] definiert a GBK Encoder Als GB 18030-Encoder mit einem Single-Byte-Euro-Zeichen und ohne vier Byte-Sequenzen (während W3Cs GBK Decoder Die Spezifikation hat keine solche Einschränkung, Decodes als GB 18030, d. h. mit dem gleichen Buchstabenbereich wie alle von Unicode).
Codierung
Ein Zeichen wird als 1 oder 2 Bytes codiert. Ein Byte im Bereich 00
–7f
ist ein einzelnes Byte, das das Gleiche bedeutet wie in ASCII. Streng genommen gibt es 95 Zeichen und 33 Kontrollcodes in diesem Bereich.
Ein Byte mit dem hohen Bit -Set zeigt an, dass es das erste von 2 Bytes ist. Das erste Byte liegt locker gesagt im Bereich 81
–Fe
(Das heißt, niemals 80
oder Ff
), und das zweite Byte ist 40
–A0
außer 7f
für einige Bereiche und A1
–Fe
für andere.
Insbesondere werden die folgenden Bereiche von Bytes definiert:
Angebot | Byte 1 | Byte 2 | Codepunkte | Figuren | |||
---|---|---|---|---|---|---|---|
GB 18030 | GBK 1.0 | Codepage 936 | GB 2312 | ||||
Stufe GBK/1 | A1 –A9 | A1 –Fe | 846 | 718[6]: 8–10 | 717 | 715 | 682 |
Stufe GBK/2 | B0 –F7 | A1 –Fe | 6,768 | 6,763 | 6,763 | 6,763 | |
Stufe GBK/3 | 81 –A0 | 40 –Fe außer 7f | 6.080 | 6.080 | 6.080 | ||
Stufe GBK/4 | Aa –Fe | 40 –A0 außer 7f | 8,160 | 8,160 | 8.080 | ||
Stufe GBK/5 | A8 –A9 | 40 –A0 außer 7f | 192 | 166 | 153 | ||
Benutzerdefiniert 1[6] | Aa –Af | A1 –Fe | 564 | ||||
Benutzerdefiniert 2 | F8 –Fe | A1 –Fe | 658 | ||||
Benutzerdefiniert 3 | A1 –A7 | 40 –A0 außer 7f | 672 | ||||
gesamt: | 23.940 | 21.887 | 21.886 | 21.791 | 7.445 |
Layout -Diagramm
In grafischer Form zeigt die folgende Abbildung den Raum aller 64K möglichen 2-Byte-Codes. Grün- und gelbe Bereiche werden GBK-CodePoints zugewiesen, rot für benutzerdefinierte Zeichen. Die unpolfenen Bereiche sind ungültige Byte -Kombinationen.
Beziehung zu anderen Codierungen
Die im vorherigen Abschnitt als GBK/1 und GBK/2 angegebenen Bereiche sind einfach einfach GB 2312-80 In seiner üblichen Kodierung ist GBK/1 die Nicht-Hanzi-Region und GBK/2 der Hanzi-Region. GB 2312 oder die EUC-CN-Codierung davon nimmt ein Paar Bytes aus dem Bereich A1
–Fe
, wie jeder 94² ISO-2022-Zeichen, das in gr geladen ist. Dies entspricht dem unteren rechts-Viertel der obigen Abbildung. GB 2312 weist den Zeilen jedoch keine Codepunkte zu Aa
–B0
und F8
–Fe
obwohl es das Territorium herausgegeben hatte. GBK fügte diesen Zeilen Erweiterungen hinzu. Sie können sehen, dass die beiden Lücken mit benutzerdefinierten Bereichen gefüllt wurden.
Noch wichtiger war, dass GBK den Bereich der Bytes erweiterte. Zwei-Byte-Zeichen im ISO-2022 g Range ergibt eine Grenze von 94² = 8.836 Möglichkeiten. Aufgrund des ISO-2022-Modells strenger Regionen für Grafik- und Steuerzeichen, aber das Merkmal von niedrigen Bytes 1-Byte-Zeichen und Paare von hohen Bytes, die einen Charakter bezeichnen, können Sie möglicherweise 128² = 16.384 Positionen haben. GBK nimmt daran teil und erweitert den Bereich von A1
–Fe
(94 Auswahlmöglichkeiten für jedes Byte) zu 81
–Fe
(126 Entscheidungen) für das erste Byte und 40
–Fe
(191 Auswahl) für das zweite Byte für insgesamt 24.066 Positionen.
Microsoft Code Seite 936 wird allgemein als GBK angesehen.[1] Allerdings die 95 PUA -Charaktere In GBK 1.0 sind in Code Seite 936 nicht enthalten. Code Seite 936 hat auch eine Einzelbyte Eurozeichen bei 0x80, welches GBK 1.0 nicht hat.[9]
GBKs Nachfolger, GB 18030-2000, verwendet den verbleibenden Bereich, der dem zweiten Byte verfügbar ist (30
–39
) Um die Anzahl der Möglichkeiten weiter zu erweitern, während GBK als Untergruppe beibehalten wird.
Verweise
- ^ a b c "Charaktersätze". Abgerufen 3. Oktober 2016.
- ^ "Code Seite 936 - PRC GBK (XGB)". Microsoft. Archiviert von das Original Am 2002-10-01. Conversion -Karte zwischen Codepage 936 und Unicode. Brauchen manuell auszuwählen GB 18030 oder GBK im Browser, um es richtig anzuzeigen.
- ^ "Verbreitung von Charaktercodierungen auf Websites, die China und Territorien nutzen". w3techs.com. Abgerufen 2022-03-30.
- ^ "Historische Trends in den Nutzungsstatistiken von Charaktercodierungen für Websites, Oktober 2021". w3techs.com. Abgerufen 2021-03-30.
- ^ "Codierung: zusammengefasste Testergebnisse". www.w3.org. Abgerufen 2019-11-15.
- ^ a b c Standardisierungsverwaltung Chinas (SAC) (2005-11-18). GB 18030-2005: Informationstechnologie-Chinesen codierter Charaktersatz.
- ^ GB 18030-2005 Standard S.9, 79
- ^ "Codierungsstandard # GBK-CODOCER". W3c. Abgerufen 2016-10-02.
- ^ Scherer, Markus (4. Januar 2002). "Re: Spaß mit GBK & GB2312". Unicode Mail -Listenarchiv. Abgerufen 4. März 2020.
Anmerkungen
Externe Links
- Die maßgebliche GBK -Mapping der ICU in der ICU - Teil von GB18030 -Daten
- Microsoft -Referenzseite für GBK
- Zuordnung von GBK zu Unicode N.B.: Dies ist Microsoft Code Seite 936, das Einträge für 21791 Doppel-Byte-Codepunkte, 96 Single-Byte-Grafikzeichen und 33 Steuerzeichen enthält. Dies ist nicht genau das gleiche wie GBK, das 21886 Zeichen hat.
- GBK -Code -Tabelle N.b. Diese GBK-kodierte Seite zeigt den verfügbaren Codierungsraum, der mit bis auf 2 Plätzen vollständig besiedelt ist, für insgesamt 32256 Glyphen (32352 mit den implizierten Einzelbyte-ASCII-Codes, die nicht dargestellt sind), was mehr als 23940 oder 21886 ist. Hängt vom GBK -Decoder Ihres Browsers ab.