GB 2312
Mime / Iana | GB_2312-80 (GB2312 für die übliche EUC -Form) |
---|---|
Alias (e) | ISO-IR-58, Chinesisch, CSGB2312, CSISO58GB231280 |
Sprachen) | Vereinfachtes Chinesisch, Englisch Teilunterstützung: Traditionelles Chinesisch, Russisch, bulgarisch, griechisch, japanisch, Italienisch, irisch, Māori |
Standard | GB/T 2312-1980 |
Einstufung | ISO-2022-kompatibel DBCs, CJK Codierung |
Erweiterungen | ISO-IR-165 |
Codierungsformate | EUC-CN (GB2312 ),Hz-GB-2312 |
Vorausgegangen von | Chinesischer Telegraphencode |
gefolgt von | GBK, GB 18030 |
Andere verwandte Kodierungen (en) | Jis x 0208, KS x 1001 |
GB/T 2312-1980 ist ein wichtiger Beamter Zeichensatz des Volksrepublik China, benutzt für Vereinfachte chinesische Charaktere. GB2312 ist der registrierte Internetname für EUC-CN, was seine übliche codierte Form ist. Gb bezieht sich auf Guobiao Standards (国家 标准), während die T Suffix (推荐; tuījiàn; 'Empfehlung') bezeichnet einen nicht wesentlichen Standard.[1]
GB/T 2312-1980 war ursprünglich ein obligatorischer nationaler Standard bezeichnet GB 2312-1980. Nach einem nationalen Standard -Bulletin der Volksrepublik China Im Jahr 2017 ist GB 2312 nicht mehr obligatorisch und sein Standardcode wird geändert GB/T 2312-1980.[2] GB/T 2312-1980 wurde von abgelöst von GBK und GB 18030, einschließlich zusätzlicher Charaktere, aber GB/T 2312 bleibt in der weit verbreiteten Verwendung als Teilmenge dieser Codierungen.
Ab November 2021[aktualisieren], GB2312 ist die beliebteste, chinesisch-spezifische Kodierung im Internet, wobei 6,9% der Webseiten aus China und Territorien es erklärt haben.[3] und 0,1% aller Webseiten weltweit, ein Rückgang von 3,5% im Januar 2010.[4] Beachten Sie jedoch, dass alle wichtigen Webbrowser Dokumente dekodieren, die als z. "GB2312" oder "GB 2312"(zwar nicht alle für" gb_2312 ") als ob es markiert wäre"GBK",",[5] Welches ist eine Superset -Codierung und GB 2312 und GBK haben einen kombinierten Anteil von 9,1% (oder weniger als 0,2% weltweit).
Es gibt einen analogen Zeichensatz, der als bekannt ist als GB/T 12345eng mit GB/T 2312 verwandt, aber mit traditionell Zeichenformen, die vereinfachte Formulare ersetzen, und einige zusätzliche 62 ergänzende Zeichen.[6][7] GB-kodierte Schriftarten kommen häufig paarweise zu einer Paarung, eines mit dem Zeichensatz von GB/T 2312 (vereinfacht) und der andere mit dem Zeichen GB/T 12345 (traditioneller) Zeichensatz.
Charakterbereich in Reihen
Während GB/T 2312 über 99,99% zeitgenössischer chinesischer Textnutzung abdeckt,[8] Historische Texte und viele Namen bleiben aus dem Zielfernrohr. Alt GB 2312 Der Standard umfasst 6.763 chinesische Zeichen (auf zwei Ebenen: Der erste wird durch Lesen angeordnet, die zweite nach Radikale dann Anzahl der Schlaganfälle) zusammen mit Symbolen und Interpunktion Japanisch Kana, das griechisch und Kyrillische Alphabete, Zhuyinund ein Doppelbyte-Satz von Pinyin Briefe mit Tonmarken. In der späteren Version GB/T 2312-1980 gibt es 7.445 Buchstaben.
Die Zeichen in GB/T 2312 sind in einem 94 × 94 -Gitter angeordnet (wie in ISO 2022), und der Zwei-Byte-Codepunkt jedes Zeichens wird in der ausgedrückt Kuten (oder qūwèi, 区位) Form, die eine Reihe spezifiziert (Ku oder qū , 区) und die Position des Zeichens innerhalb der Reihe (Zelle, Zelle, zehn oder wèi , 位). Zum Beispiel befindet sich das Zeichen "外" (bedeutet: Fremd) in Reihe 45 Position 66,[9] So ist es Kuten Code ist 45-66.
Die Zeilen (nummeriert von 1 bis 94) enthalten Zeichen wie folgt:
- 01–09, umfassend Interpunktion und andere Sonderzeichen; Auch Hiragana, Katakana, griechisch, kyrillisch, Pinyin, Bopomofo
- 16–55, die erste Ebene von chinesische Charaktere, arrangiert nach Pinyin. (3755 Zeichen).
- 56–87, die zweite Ebene der chinesischen Zeichen, angeordnet nach Radikal und Striche. (3008 Zeichen).
Die Zeilen 10–15 und 88–94 sind nicht zugewiesen.
Für GB/T 2312-1980 enthält es 682 Zeichen und 6763 chinesische Zeichen.
Codierungen von GB/T 2312
EUC-CN
EUC-CN wird oft als die verwendet Zeichenkodierung (d. H. Für externe Speicherung) in Programmen, die sich mit GB/T 2312 befassen, und somit die Kompatibilität beibehalten ASCII. Zwei Bytes werden verwendet, um jeden in nicht gefundenen Charakter darzustellen ASCII. Der Wert des ersten Byte stammt von 0xa1–0xf7
(161–247), während der Wert des zweiten Byte von stammt 0xa1–0xfe
(161–254). Da alle diese Bereiche wie UTF-8 jenseits von ASCII liegen, ist es möglich zu überprüfen, ob ein Byte bei der Verwendung von EUC-CN Teil eines Multi-Byte-Konstrukts ist, aber nicht, ob ein Byte an erster oder zuletzt ist.
Verglichen mit UTF-8, GB/T 2312 (ob nativ oder in EUC-CN codiert) ist speichereffizienter: UTF-8 verwendet drei Bytes[a] pro CJK -Ideograf, GB/T 2312 verwendet nur zwei. GB/T 2312 deckt jedoch nicht so viele Ideografien wie Unicode ab.
Um die zu kartieren Kuten Codepunkte auf EUC -Bytes addieren Sie 160 (0xa0
) an beide Zeilennummer (Ku oder qū, 区) und Zell/Säulennummer (Säulennummer (zehn oder wèi , 位). Das Ergebnis der Zugabe der Zeilennummer des Codespunkts bildet das hohe Byte, und das Ergebnis der Zugabe der Zellnummer des Codepunkts bildet das niedrige Byte.
Zum Beispiel, um das Zeichen "外" bei zu codieren Kuten Zelle 45-66, das hohe Byte verwendet die Zeilenzahl 45: 45+160 = 205 =0xcd
und das niedrige Byte stammt aus der Zellnummer 66: 66+160 = 212 =0xe2
. Die volle Kodierung ist also
.[10][11]
ISO-2022-CN
ISO-2022-CN ist eine weitere Codierungsform von GB/T 2312, die auch die in der offizielle Dokumentation angegebene Codierung ist. Dies bezieht sich auf die ISO-2022 Standard, der auch zwei Bytes verwendet, um Zeichen zu codieren, die nicht in ASCII gefunden wurden. Anstatt den erweiterten Bereich von ASCII zu verwenden, verwendet ISO-2022 den gleichen Bytebereich wie ASCII: Der Wert des ersten Byte stammt aus 0x21–0x77
(33–119), während der Wert des zweiten Byte von stammt 0x21–0x7e
(33–126). Da sich der Bytebereich ASCII erheblich überlappt, sind Sonderzeichen erforderlich, um anzuzeigen, ob sich ein Zeichen im ASCII-Bereich befindet oder Teil der Zwei-Byte-Sequenz der erweiterten Region ist, nämlich die Verschieben und sich verschieben und sich verschieben Funktionen. Dies stellt ein Risiko für Missbrauchsgeräte dar, da eine unsachgemäße Handhabung von Text zu fehlenden Informationen führen kann.
Um die zu kartieren Kuten Codepunkte auf ISO-2022-Bytes fügen 32 hinzu (0x20
) an beide Zeilennummer (Ku oder qū, 区) und Zell/Säulennummer (Säulennummer (zehn oder wèi , 位). Das Ergebnis der Zugabe der Zeilennummer des Codespunkts bildet das hohe Byte, und das Ergebnis der Zugabe der Zellnummer des Codepunkts bildet das niedrige Byte ähnlich wie die EUC -Codierung.
Zum Beispiel, um das Zeichen "外" bei zu codieren Kuten Zelle 45-66, das hohe Byte verwendet die Zeilenzahl 45: 45+32 = 77 =0x4d
und das niedrige Byte stammt aus der Zellnummer 66: 66+32 = 98 =0x62
. Die volle Kodierung ist also <4D 62>
.[11]
Hz
Hz ist eine weitere Codierung von GB/T 2312, die hauptsächlich für verwendet wird Usenet Postings; Zeichen werden mit denselben Bytepaaren wie in ISO-2022-CN dargestellt, aber die Byte-Sequenzen, die den Beginn und das Ende eines Bereichs von GB 2312-Text bezeichnen, unterscheiden sich.
Codediagramme
In den folgenden Tabellen, wobei ein Paar Hexadezimalzahlen für ein Präfix -Byte oder ein Codierungsbyte angegeben ist, wird das kleinere (mit dem achten Bit uneingeschränkt oder nicht verfügbar) verwendet, wenn sie über GL codiert (über GL (0x21-0x7e) wie in ISO-2022-CN oder Hz-GB-2312und das größere (mit dem achten Bit-Set) wird in dem typischeren Fall verwendet, in dem es über GR (0xa1-0xfe) codiert wird, wie in EUC-CN, GBK oder GB 18030. Qūwèi Zahlen sind in Dezimalzahl angegeben.
Wenn GB/T 2312 über GR codiert ist, haben beide Bytes das achte Bit -Set (d. H. größer als 0x7f). GBK und GB 18030 verwenden auch Zwei-Byte-Codes, bei denen nur das erste Byte das achte Bit für Erweiterungszwecke eingestellt hat: Solche Codes befinden sich außerhalb der GB/T 2312-Ebene und sind hier nicht tabellarisch.
Lead -Byte
In diesem Diagramm wird das Gesamtlayout der Hauptebene des von Lead Byte festgelegten GB/T 2312 -Zeichens beschrieben. Für Lead -Bytes, die für andere Zeichen als als Zeichen verwendet werden Hanzi, Links werden für Diagramme auf dieser Seite bereitgestellt, in denen die unter dieser Lead -Byte codierten Zeichen aufgeführt sind. Für Lead -Bytes, die für Hanzi verwendet werden, werden Links zum entsprechenden Abschnitt von bereitgestellt WiktionärHanzi Index.
GB 2312 (Lead -Bytes) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | Sp[b] | 1-_ | 2-_ | 3-_ | 4 -_ | 5 -_ | 6 -_ | 7-_ | 8 -_ | 9 -_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | fünfzehn-_ |
3x/bx | 16-_ | 17-_ | 18-_ | 19-_ | 20-_ | 21-_ | 22-_ | 23-_ | 24 -_ | 25 -_ | 26-_ | 27-_ | 28-_ | 29-_ | 30-_ | 31-_ |
4x/cx | 32-_ | 33 -_ | 34 -_ | 35-_ | 36 -_ | 37-_ | 38 -_ | 39-_ | 40-_ | 41-_ | 42-_ | 43-_ | 44 -_ | 45-_ | 46 -_ | 47-_ |
5x/dx | 48 -_ | 49-_ | 50-_ | 51-_ | 52-_ | 53-_ | 54 -_ | 55-_ | 56 -_ | 57-_ | 58 -_ | 59-_ | 60-_ | 61-_ | 62-_ | 63-_ |
6x/ex | 64-_ | 65-_ | 66-_ | 67-_ | 68-_ | 69-_ | 70-_ | 71-_ | 72-_ | 73-_ | 74-_ | 75-_ | 76 -_ | 77-_ | 78 -_ | 79-_ |
7x/fx | 80-_ | 81-_ | 82-_ | 83-_ | 84-_ | 85-_ | 86-_ | 87-_ | 88 -_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | Del[b] |
Lead -Byte Unbenutzte Blei Byte |
Non-Hanzi-Reihen
In den folgenden Diagrammen werden die Nichts aufgelistetHanzi Zeichen erhältlich in GB/T 2312, in GB/T 12345 und in Doppelbyte-Region 1 von GB 18030 (was ungefähr der Nicht-Hanzi-Region von GB/T 2312 entspricht). Notizen werden dort gemacht, wo sich diese unterscheiden und wo GB 6345.1 und ISO-IR-165 unterscheiden sich von diesen. Für den Vergleich werden Kreuzversicherungen zu Artikeln zu anderen CJK-Nationalcharakter-Sets gemacht.
Zwei Implementierungen von GB2312
EUC-CN | GBK/GB18030 -Teilmenge | Gb2312.txt | Charaktername[12]: 3 |
---|---|---|---|
A1a4 | U+00B7 · Mittelpunkt | U+30fb ・ Katakana Middle Dot | 间隔点; ''Trennzeichen'' |
A1aa | U+2014 — EM DASH | U+2015 ― HORIZONTALE LINIE | 破折号; ''EM Dash'' |
Unicode -Zuordnungen der Interpunkt (Chinesisch: 间隔点; zündete. 'Separator Dot') und EM Dash (Chinesisch: 破折号) in der Untergruppe von GBK und GB 18030 entsprechend GB/T 2312 ( U+00B7 · Mittelpunkt und U+2014 — EM DASH) unterscheiden sich von denen, die in GB2312.TXT aufgeführt sind ( U+30fb ・ Katakana Middle Dot und U+2015 ― HORIZONTALE LINIE), eine Datendatei, die zuvor von der bereitgestellt wurde Unicode -Konsortium,[13] Obwohl es seit August 2011 als veraltet bezeichnet wird[14] und wird nicht mehr im September 2016 veranstaltet.
Ab 2015 folgt Microsoft .NET Framework GB 18030 -Zuordnungen bei der Zuordnung dieser beiden Zeichen in Daten mit der Bezeichnung gb2312
, wohingegen ICU,[15] iConv-1.14,[16] PHP-5.6, ActivePerl-5.20, Java 1.7 und Python 3.4[17] Folgen Sie GB2312.txt als Antwort auf die gb2312
Etikett. Ruby 2.2 ist mit beiden Implementierungen kompatibel. Es konvertiert intern die Konfliktcharaktere in die Subset von GB 18030. Das W3c/Waswg Technische Empfehlung für die Verwendung mit HTML5 Gibt eine GBK -Codierung an, die für beschriftete Streams abgeleitet werden soll GB2312
, was wiederum einen GB18030 -Decoder verwendet.[18]
Andere unterschiedliche Zuordnungen wurden von einzelnen Anbietern definiert und verwendet.[13] einschließlich eines von Apfel.[19]
Zeichensatz 0x21/0xa1 (Zeile 1: Interpunktion und Symbole)
Diese Zeile enthält Interpunktion, mathematische Operatoren und andere Symbole. Die folgende Tabelle zeigt die Mappings GB 18030[20] Für diese GB/T 2312 -Zeichen zuerst, gefolgt von anderen dokumentierten Zuordnungen.
GB 2312 (vorangestellt mit 0x21/0xa1) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | IDSP | 、 3001 | 。 3002 | ·/・ | ˉ 02c9 | ˇ 02c7 | ¨ 00A8 | 〃 3003 | 々 3005 | —/― | ~/〜 | ‖/∥ | …/⋯ | ‘ 2018 | ’ 2019 | |
3x/bx | “ 201c | ” 201d | 〔 3014 | 〕 3015 | 〈 3008 | 〉 3009 | 《 300a | 》 300b | 「 300c | 」 300d | 『 300E | 』 300f | 〖 3016 | 〗 3017 | 【 3010 | 】 3011 |
4x/cx | ± 00B1 | × 00d7 | ÷ 00f7 | ∶ 2236 | ∧ 2227 | ∨ 2228 | ∑ 2211 | ∏ 220f | ∪ 222a | ∩ 2229 | ∈ 2208 | ∷ 2237 | √ 221a | ⊥ 22a5 | ∥ 2225 | ∠ 2220 |
5x/dx | ⌒ 2312 | ⊙ 2299 | ∫ 222b | ∮ 222e | ≡ 2261 | ≌ 224c | ≈ 2248 | ∽ 223d | ∝ 221d | ≠ 2260 | ≮ 226e | ≯ 226f | ≤ 2264 | ≥ 2265 | ∞ 221e | ∵ 2235 |
6x/ex | ∴ 2234 | ♂ 2642 | ♀ 2640 | ° 00B0 | ′ 2032 | ″ 2033 | ℃ 2103 | $ FF04 | ¤ 00A4 | ¢/¢ | £/£ | ‰ 2030 | § 00A7 | № 2116 | ☆ 2606 | ★ 2605 |
7x/fx | ○ 25cb | ● 25cf | ◎ 25ce | ◇ 25c7 | ◆ 25c6 | □ 25a1 | ■ 25A0 | △ 25b3 | ▲ 25b2 | ※ 203b | → 2192 | ← 2190 | ↑ 2191 | ↓ 2193 | 〓 3013 |
Zeichensatz 0x22/0xa2 (Zeile 2: Listenmarkierungen)
Diese Zeile enthält verschiedene Arten von Listenmarker. Kleinbuchstaben der römischen Ziffern wurden nicht in das ursprüngliche GB/T 2312 enthalten[21] Noch in GB/T 12345,,[6] sind aber in beiden enthalten Windows -Code Seite 936[22] und GB 18030.[20] A Eurozeichen wurde auch von GB 18030 hinzugefügt.[20]
GB 2312 (vorangestellt mit 0x22/0xa2) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ⅰ 2170 | ⅱ 2171 | ⅲ 2172 | ⅳ 2173 | ⅴ 2174 | ⅵ 2175 | ⅶ 2176 | ⅷ 2177 | ⅸ 2178 | ⅹ 2179 | ||||||
3x/bx | ⒈ 2488 | ⒉ 2489 | ⒊ 248a | ⒋ 248b | ⒌ 248c | ⒍ 248d | ⒎ 248e | ⒏ 248f | ⒐ 2490 | ⒑ 2491 | ⒒ 2492 | ⒓ 2493 | ⒔ 2494 | ⒕ 2495 | ⒖ 2496 | |
4x/cx | ⒗ 2497 | ⒘ 2498 | ⒙ 2499 | ⒚ 249a | ⒛ 249b | ⑴ 2474 | ⑵ 2475 | ⑶ 2476 | ⑷ 2477 | ⑸ 2478 | ⑹ 2479 | ⑺ 247a | ⑻ 247b | ⑼ 247c | ⑽ 247d | ⑾ 247e |
5x/dx | ⑿ 247f | ⒀ 2480 | ⒁ 2481 | ⒂ 2482 | ⒃ 2483 | ⒄ 2484 | ⒅ 2485 | ⒆ 2486 | ⒇ 2487 | ① 2460 | ② 2461 | ③ 2462 | ④ 2463 | ⑤ 2464 | ⑥ 2465 | ⑦ 2466 |
6x/ex | ⑧ 2467 | ⑨ 2468 | ⑩ 2469 | € 20AC | ㈠ 3220 | ㈡ 3221 | ㈢ 3222 | ㈣ 3223 | ㈤ 3224 | ㈥ 3225 | ㈦ 3226 | ㈧ 3227 | ㈨ 3228 | ㈩ 3229 | ||
7x/fx | Ⅰ 2160 | Ⅱ 2161 | Ⅲ 2162 | Ⅳ 2163 | Ⅴ 2164 | Ⅵ 2165 | Ⅶ 2166 | Ⅷ 2167 | Ⅸ 2168 | Ⅹ 2169 | Ⅺ 216a | Ⅻ 216b |
Zeichensatz 0x23/0xa3 (Zeile 3: ISO 646-CN)
Diese Reihe enthält ISO 646-CN (GB/T 1988-80), ein nationales Gegenstück zu ASCII. Vergleichen Reihe 3 von KS x 1001, was dasselbe mit SüdkoreaISO 646 Version und Reihe 3 von JIS x 0208 und von KPS 9566, einschließlich nur die alphanumerische Teilmenge, jedoch in demselben Layout. Die folgende Tabelle listet ISO 646-CN auf.
ISO 646-CN; Nicht-vollständige Mappings | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ! 0021 | " 0022 | # 0023 | ¥ 00A5 | % 0025 | & 0026 | ' 0027 | ( 0028 | ) 0029 | * 002a | + 002b | , 002c | - 002d | . 002e | / 002f | |
3x/bx | 0 0030 | 1 0031 | 2 0032 | 3 0033 | 4 0034 | 5 0035 | 6 0036 | 7 0037 | 8 0038 | 9 0039 | : 003a | ; 003b | < 003c | = 003d | > 003e | ? 003f |
4x/cx | @ 0040 | A 0041 | B 0042 | C 0043 | D 0044 | E 0045 | F 0046 | G 0047 | H 0048 | I 0049 | J 004a | K 004b | L 004c | M 004d | N 004e | O 004f |
5x/dx | P 0050 | Q 0051 | R 0052 | S 0053 | T 0054 | U 0055 | V 0056 | W 0057 | X 0058 | Y 0059 | Z 005a | [ 005b | \ 005c | ] 005d | ^ 005e | _ 005f |
6x/ex | ` 0060 | a 0061 | b 0062 | c 0063 | d 0064 | e 0065 | f 0066 | g 0067 | h 0068 | i 0069 | j 006a | k 006b | l 006c | m 006d | n 006e | o 006f |
7x/fx | p 0070 | q 0071 | r 0072 | s 0073 | t 0074 | u 0075 | v 0076 | w 0077 | x 0078 | y 0079 | z 007a | { 007b | | 007c | } 007d | ‾ 203e |
Bei Verwendung in einer Codierung, die eine Kombination mit ASCII ermöglicht wie z. EUC-CN (und sein Superset GB 18030) Diese Zeichen werden normalerweise als implementiert als Gesamtbreite Charaktere, daher zu den Zuordnungen an die Halbbreiten- und Vollbreitenformen Block werden wie unten gezeigt verwendet. GB 6345.1 Geht diese Zeile auch als Fullwidth ab und fügt die Halbwidth -Formen (wie oben) als Zeile 10 hinzu.[1] Apple ordnet diese Zeile hauptsächlich auf Fullwidth-Codepunkte wie unten zu, verwendet jedoch nicht-ful-Width-Zuordnungen für die Überlinie und verwendet Yuan Zeichen wie oben.[19]
GB 2312 (vorangestellt mit 0x23/0xa3); Vollbreiten -Mappings | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ! FF01 | " FF02 | # Ff03 | ¥ Ffe5 | % FF05 | & FF06 | ' FF07 | ( FF08 | ) FF09 | * Ff0a | + Ff0b | , Ff0c | - Ff0d | . Ff0e | / Ff0f | |
3x/bx | 0 FF10 | 1 Ff11 | 2 Ff12 | 3 Ff13 | 4 Ff14 | 5 Ff15 | 6 FF16 | 7 Ff17 | 8 Ff18 | 9 Ff19 | : Ff1a | ; Ff1b | < Ff1c | = Ff1d | > Ff1e | ? Ff1f |
4x/cx | @ Ff20 | A FF21 | B FF22 | C FF23 | D FF24 | E FF25 | F FF26 | G FF27 | H FF28 | I FF29 | J Ff2a | K Ff2b | L Ff2c | M Ff2d | N Ff2e | O Ff2f |
5x/dx | P FF30 | Q Ff31 | R Ff32 | S Ff33 | T Ff34 | U Ff35 | V Ff36 | W Ff37 | X Ff38 | Y Ff39 | Z Ff3a | [ Ff3b | \ Ff3c | ] Ff3d | ^ Ff3e | _ Ff3f |
6x/ex | ` FF40 | a Ff41 | b FF42 | c Ff43 | d Ff44 | e FF45 | f FF46 | g/ɡ[c] | h FF48 | i FF49 | j Ff4a | k Ff4b | l Ff4c | m Ff4d | n Ff4e | o Ff4f |
7x/fx | p FF50 | q FF51 | r FF52 | s FF53 | t FF54 | u FF55 | v FF56 | w FF57 | x Ff58 | y FF59 | z Ff5a | { Ff5b | | Ff5c | } Ff5d |  ̄ Ffe3 |
Zeichensatz 0x24/0xa4 (Zeile 4: Hiragana)
Dieser Satz enthält Hiragana für das Schreiben der japanische Sprache.
Vergleichen mit Reihe 4 von JIS x 0208, mit welcher Reihe übereinstimmt und mit denen Reihe 10 von KS x 1001 und von KPS 9566, die das gleiche Layout verwenden, aber in einer anderen Zeile.
GB 2312 (vorangestellt mit 0x24/0xa4) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ぁ 3041 | あ 3042 | ぃ 3043 | い 3044 | ぅ 3045 | う 3046 | ぇ 3047 | え 3048 | ぉ 3049 | お 304a | か 304b | が 304c | き 304d | ぎ 304e | く 304f | |
3x/bx | ぐ 3050 | け 3051 | げ 3052 | こ 3053 | ご 3054 | さ 3055 | ざ 3056 | し 3057 | じ 3058 | す 3059 | ず 305a | せ 305b | ぜ 305c | そ 305d | ぞ 305e | た 305f |
4x/cx | だ 3060 | ち 3061 | ぢ 3062 | っ 3063 | つ 3064 | づ 3065 | て 3066 | で 3067 | と 3068 | ど 3069 | な 306a | に 306b | ぬ 306c | ね 306d | の 306e | は 306f |
5x/dx | ば 3070 | ぱ 3071 | ひ 3072 | び 3073 | ぴ 3074 | ふ 3075 | ぶ 3076 | ぷ 3077 | へ 3078 | べ 3079 | ぺ 307a | ほ 307b | ぼ 307c | ぽ 307d | ま 307e | み 307f |
6x/ex | む 3080 | め 3081 | も 3082 | ゃ 3083 | や 3084 | ゅ 3085 | ゆ 3086 | ょ 3087 | よ 3088 | ら 3089 | り 308a | る 308b | れ 308c | ろ 308d | ゎ 308e | わ 308f |
7x/fx | ゐ 3090 | ゑ 3091 | を 3092 | ん 3093 |
Zeichensatz 0x25/0xa5 (Zeile 5: Katakana)
Dieser Satz enthält Katakana für das Schreiben der japanische Sprache. Allerdings die Japanische lange Vokalmarke, das in Katakana -Text verwendet und in Zeile 1 von enthalten ist Jis x 0208, ist nicht in GB/T 2312 enthalten, obwohl es in GBK und GB 18030 außerhalb der Hauptebene GB/T 2312 hinzugefügt wird.[24] bei 0xa960.[20]
Vergleichen mit Reihe 5 von JIS x 0208, mit welcher Reihe übereinstimmt und mit denen Reihe 11 von KS x 1001 und von KPS 9566, die das gleiche Layout verwenden, aber in einer anderen Zeile.
GB 2312 (vorangestellt mit 0x25/0xa5) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ァ 30a1 | ア 30a2 | ィ 30a3 | イ 30A4 | ゥ 30A5 | ウ 30a6 | ェ 30a7 | エ 30a8 | ォ 30a9 | オ 30aa | カ 30AB | ガ 30AC | キ 30ad | ギ 30a | ク 30af | |
3x/bx | グ 30b0 | ケ 30b1 | ゲ 30b2 | コ 30b3 | ゴ 30b4 | サ 30b5 | ザ 30b6 | シ 30b7 | ジ 30b8 | ス 30b9 | ズ 30ba | セ 30bb | ゼ 30BC | ソ 30bd | ゾ 30be | タ 30bf |
4x/cx | ダ 30c0 | チ 30c1 | ヂ 30c2 | ッ 30c3 | ツ 30c4 | ヅ 30c5 | テ 30c6 | デ 30c7 | ト 30c8 | ド 30c9 | ナ 30ca | ニ 30cb | ヌ 30cc | ネ 30cd | ノ 30ce | ハ 30cf |
5x/dx | バ 30d0 | パ 30d1 | ヒ 30d2 | ビ 30d3 | ピ 30d4 | フ 30d5 | ブ 30d6 | プ 30d7 | ヘ 30d8 | ベ 30d9 | ペ 30da | ホ 30 dB | ボ 30dc | ポ 30dd | マ 30de | ミ 30df |
6x/ex | ム 30e0 | メ 30e1 | モ 30e2 | ャ 30e3 | ヤ 30e4 | ュ 30e5 | ユ 30e6 | ョ 30e7 | ヨ 30e8 | ラ 30e9 | リ 30ea | ル 30EB | レ 30EC | ロ 30ed | ヮ 30ee | ワ 30ef |
7x/fx | ヰ 30f0 | ヱ 30f1 | ヲ 30f2 | ン 30f3 | ヴ 30f4 | ヵ 30f5 | ヶ 30f6 |
Zeichensatz 0x26/0xa6 (Zeile 6: griechische und vertikale Erweiterungen)
Diese Zeile enthält grundlegende Unterstützung für die Moderne griechisches Alphabet, ohne Diakritik oder die Final Sigma.
Die hervorgehobenen Zeichen sind Präsentationsformen von Interpunktionsmarken für vertikales Schreiben und sind nicht in GB/T 2312 enthalten, sondern sind in dieser Zeile von GB/T 12345 enthalten.[1][6] Windows -Code Seite 936,[22] Mac OS vereinfacht Chinesisch,[19] und GB 18030.[20] Sie werden als "Standardverlängerungen zu GB 2312" angesehen.[19] Umgekehrt, ISO-IR-165 Enthält gemustert semigraphisch Zeichen in dieser Zeile (hauptsächlich ohne genaue Gegenstücke in Unicode), die mit den Codepositionen kollidieren, die für die vertikalen Erweiterungen verwendet werden.[25]
Vergleichen mit Reihe 6 von JIS x 0208, was diese Zeile übereinstimmt, wenn die vertikalen Formen nicht enthalten sind und mit Reihe 6 von KPS 9566, einschließlich der gleichen griechischen Buchstaben in demselben Layout, fügt jedoch eher römische Ziffern als vertikale Formen hinzu. Kontrast Reihe 5 von KS x 1001, der die griechischen Buchstaben ausschüttet, um zuerst die römischen Ziffern einzuschließen.
GB 2312 (vorangestellt mit 0x26/0xa6) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | Α 0391 | Β 0392 | Γ 0393 | Δ 0394 | Ε 0395 | Ζ 0396 | Η 0397 | Θ 0398 | Ι 0399 | Κ 039a | Λ 039b | Μ 039c | Ν 039d | Ξ 039e | Ο 039f | |
3x/bx | Π 03a0 | Ρ 03A1 | Σ 03a3 | Τ 03A4 | Υ 03A5 | Φ 03A6 | Χ 03a7 | Ψ 03a8 | Ω 03a9 | |||||||
4x/cx | α 03b1 | β 03b2 | γ 03b3 | δ 03b4 | ε 03b5 | ζ 03b6 | η 03b7 | θ 03b8 | ι 03b9 | κ 03ba | λ 03BB | μ 03BC | ν 03BD | ξ 03be | ο 03bf | |
5x/dx | π 03c0 | ρ 03c1 | σ 03c3 | τ 03c4 | υ 03c5 | φ 03c6 | χ 03c7 | ψ 03c8 | ω 03c9 | ︐[d] Fe10 | ︒[d] Fe12 | ︑[d] Fe11 | ︓[d] Fe13 | ︔[d] Fe14 | ︕[d] Fe15 | ︖[d] Fe16 |
6x/ex | ︵ Fe35 | ︶ Fe36 | ︹ Fe39 | ︺ Fe3a | ︿ Fe3f | ﹀ Fe40 | ︽ Fe3d | ︾ Fe3e | ﹁ Fe41 | ﹂ Fe42 | ﹃ Fe43 | ﹄ Fe44 | ︗[d] Fe17 | ︘[d] Fe18 | ︻ Fe3b | ︼ Fe3c |
7x/fx | ︷ Fe37 | ︸ Fe38 | ︱ Fe31 | ︙[d] Fe19 | ︳ Fe33 | ︴ Fe34 |
Zeichensatz 0x27/0xa7 (Zeile 7: Cyrillic)
Dieser Satz enthält beide Fälle von 33 Buchstaben aus dem Cyrillic Drehbuch, ausreichend, um die Moderne zu schreiben Russisches Alphabet und Bulgarisches Alphabet, obwohl andere Formen von kyrillisch zusätzliche Buchstaben erfordern.[27]
Vergleichen mit Reihe 7 von JIS x 0208, mit welcher Reihe übereinstimmt und mit denen Reihe 12 von KS x 1001 und Reihe 5 von KPS 9566, die das gleiche Layout verwenden, aber in verschiedenen Reihen.
GB 2312 (vorangestellt mit 0x27/0xa7) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | А 0410 | Б 0411 | В 0412 | Г 0413 | Д 0414 | Е 0415 | Ё 0401 | Ж 0416 | З 0417 | И 0418 | Й 0419 | К 041a | Л 041b | М 041c | Н 041d | |
3x/bx | О 041e | П 041f | Р 0420 | С 0421 | Т 0422 | У 0423 | Ф 0424 | Х 0425 | Ц 0426 | Ч 0427 | Ш 0428 | Щ 0429 | Ъ 042a | Ы 042b | Ь 042c | Э 042d |
4x/cx | Ю 042e | Я 042f | ||||||||||||||
5x/dx | а 0430 | б 0431 | в 0432 | г 0433 | д 0434 | е 0435 | ё 0451 | ж 0436 | з 0437 | и 0438 | й 0439 | к 043a | л 043b | м 043c | н 043d | |
6x/ex | о 043e | п 043f | р 0440 | с 0441 | т 0442 | у 0443 | ф 0444 | х 0445 | ц 0446 | ч 0447 | ш 0448 | щ 0449 | ъ 044a | ы 044b | ь 044c | э 044d |
7x/fx | ю 044e | я 044f |
Zeichenset 0x28/0xa8 (Zeile 8: Zhuyin und Nonascii Pinyin)
Diese Reihe enthält Bopomofo und Pinyin Zeichen, mit Ausnahme von ASCII -Buchstaben (die in Zeile 3 sind). Die hervorgehobenen Zeichen sind solche, die sich nicht im Basis -GB 2312 -Set befinden, sondern von hinzugefügt werden von GB 6345.1,[19] und auch in GB/T 12345 enthalten,[1][6] Windows -Code Seite 936,[22] Mac OS vereinfacht Chinesisch[19] und GB 18030.[20] Sie werden als "Standardverlängerungen zu GB 2312" angesehen.[19]
GB 6345.1 behandelt den Pinyin in dieser Reihe als Vollbreiten und enthält die Halbbreitenkollegen als Reihe 11;[1] GB 18030 tut dies nicht.
GB 2312 (vorangestellt mit 0x28/0xa8) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ā 0101 | á 00e1 | ǎ 01ce | à 00e0 | ē 0113 | é 00E9 | ě 011b | è 00e8 | ī 012b | í 00ed | ǐ 01d0 | ì 00ec | ō 014d | ó 00F3 | ǒ 01d2 | |
3x/bx | ò 00F2 | ū 016b | ú 00fa | ǔ 01d4 | ù 00f9 | ǖ 01d6 | ǘ 01d8 | ǚ 01da | ǜ 01dc | ü 00FC | ê 00ea | ɑ 0251 | ḿ[e] 1e3f | ń 0144 | ň 0148 | ǹ[f] 01f9 |
4x/cx | ɡ/g[g] | ㄅ 3105 | ㄆ 3106 | ㄇ 3107 | ㄈ 3108 | ㄉ 3109 | ㄊ 310a | ㄋ 310b | ㄌ 310c | ㄍ 310d | ㄎ 310e | ㄏ 310f | ||||
5x/dx | ㄐ 3110 | ㄑ 3111 | ㄒ 3112 | ㄓ 3113 | ㄔ 3114 | ㄕ 3115 | ㄖ 3116 | ㄗ 3117 | ㄘ 3118 | ㄙ 3119 | ㄚ 311a | ㄛ 311b | ㄜ 311c | ㄝ 311d | ㄞ 311e | ㄟ 311f |
6x/ex | ㄠ 3120 | ㄡ 3121 | ㄢ 3122 | ㄣ 3123 | ㄤ 3124 | ㄥ 3125 | ㄦ 3126 | ㄧ 3127 | ㄨ 3128 | ㄩ 3129 | ||||||
7x/fx |
Zeichensatz 0x29/0xa9 (Zeile 9: Box Drawing)
GB 2312 (vorangestellt mit 0x29/0xa9) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x/ax | ─ 2500 | ━ 2501 | │ 2502 | ┃ 2503 | ┄ 2504 | ┅ 2505 | ┆ 2506 | ┇ 2507 | ┈ 2508 | ┉ 2509 | ┊ 250a | ┋ 250b | ||||
3x/bx | ┌ 250c | ┍ 250d | ┎ 250e | ┏ 250f | ┐ 2510 | ┑ 2511 | ┒ 2512 | ┓ 2513 | └ 2514 | ┕ 2515 | ┖ 2516 | ┗ 2517 | ┘ 2518 | ┙ 2519 | ┚ 251a | ┛ 251b |
4x/cx | ├ 251c | ┝ 251d | ┞ 251e | ┟ 251f | ┠ 2520 | ┡ 2521 | ┢ 2522 | ┣ 2523 | ┤ 2524 | ┥ 2525 | ┦ 2526 | ┧ 2527 | ┨ 2528 | ┩ 2529 | ┪ 252a | ┫ 252b |
5x/dx | ┬ 252c | ┭ 252d | ┮ 252e | ┯ 252f | ┰ 2530 | ┱ 2531 | ┲ 2532 | ┳ 2533 | ┴ 2534 | ┵ 2535 | ┶ 2536 | ┷ 2537 | ┸ 2538 | ┹ 2539 | ┺ 253a | ┻ 253b |
6x/ex | ┼ 253c | ┽ 253d | ┾ 253e | ┿ 253f | ╀ 2540 | ╁ 2541 | ╂ 2542 | ╃ 2543 | ╄ 2544 | ╅ 2545 | ╆ 2546 | ╇ 2547 | ╈ 2548 | ╉ 2549 | ╊ 254a | ╋ 254b |
7x/fx |
Hanzi -Reihen
Einbeziehung von nicht standardmäßigen vereinfachten chinesischen und traditionellen chinesischen Charakteren
GB/T 2312 umfasste 2 nicht standardmäßige Vereinfachte chinesische Charaktere:
- 渖 (68–41): vereinfacht von “审[審]", aber die Vollständige Liste der vereinfachten Zeichen (Chinesisch: 简化字总表; Pinyin: Jiǎnhuà Zì Zǒng Biǎo) hat zusammengeführt “瀋" mit "沈”. Alte Versionen von Xinhua Zidian (Chinesisch: 新华字典; Pinyin: Xīnhuá Zìdiǎn) hatte dieses Wort aufgenommen und als Saft bezeichnet (Chinesisch: 汁; Pinyin: zhì), neue Versionen haben dies abgesagt und zusammengeführt “渖" mit "沈”.
- 镟 (79–64): vereinfacht von “钅[釒]", aber die Vollständige Liste der vereinfachten Zeichen hat zusammengeführt “鏇" mit "旋”.
GB/T 2312 auch 3 enthalten 3 Traditionelle chinesische Charaktere:
- 鍾 (79–81): Das Originaldokument verwendete das Zeichen “鍾”Mit traditionellem Teil, aber der Vollständige Liste der vereinfachten Zeichen hat zusammengeführt “鍾" mit "鐘"Und vereinfacht zu"钟”, Spätere Vorlagen veränderten das Wort auf“锺”.[Anmerkung 1]
- 後 (65–65): Der Charakter wurde mit "zusammengeführt"后”(26-83) in der Vollständige Liste der vereinfachten Zeichenund hatte keine Notizen über unklare Verwendung, aber GB/T 2312 hatte diesen Charakter aufgenommen.
- 麴 (84–80): Das Originaldokument verwendete das Zeichen “麴”Mit traditionellem Teil, aber der Vollständige Liste der vereinfachten Zeichen hat das angegeben “麥"Sollte vereinfacht werden zu"麦”; der entsprechende vereinfachte chinesische Charakter “麹Wurde von Japan als Unicode als eingereicht Shinjitai “麹”. Obwohl sich GB 5007.1–85 geändert hat “麴" mit "麹”Die folgenden Änderungen (GB 5007.1–2001 und GB/T 5007.1–2010) halten jedoch das nicht festgelegte Formular. Tabelle allgemeiner Standard chinesischer Charaktere inbegriffen "麹”Am 2013: 7748.
Korrekturen
GB 5007.1-85 24x24 Bitmap Schriftart Satz chinesischer Zeichen für den Informationsaustausch (Chinesisch: 信息交换用汉字 24x24 点阵字模集) ist die früheste Schriftvorlage basierend auf GB/T 2312, die Korrekturen und Erweiterungen enthält, einschließlich:
- Ändern der Glyphenform von Lateinisches Alphabet "g"
- Hinzufügen 6 Hanyu Pinyin Figuren: ɑ, ḿ, ń, ň, ǹ, ɡ[Anmerkung 2]
- geändert "鍾" zu "锺”
- Inklusive 94 Halbbreite Glyphen in Zeile 10 (Halbbreite von Reihe 3, entspricht GB 1988–80
- Enthielt eine halbe Breite von 32 Hanyu Pinyin-Zeichen aus Zeile 8 in Zeile 11.
GB/T 2312 hatten keine Korrekturen, diese Korrekturen sind jedoch in Schriftarten enthalten, die auf GB/T 2312 einschließlich GB/T 12345 basieren. seine Supersets GBK und GB 18030 auch diese Korrekturen eingeschlossen. GB/T 2312 wird auch in verwendet ISO-IR-165.
Siehe auch
- Guobiao -Code
- CJK
- Chinesische Charaktercodierung
- Unicode
- Die großen 5- Standard in Taiwan und Hongkong verwendet
- GB 18030, was GB/T 2312-1980 ersetzt hat
- GB/T 12345-1990, traditionelles Gegenstück zu GB/T 2312-1980, ersetzt von GB18030
Verweise
- ^ a b c d e Lunde, Ken (2009). CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. S. 94–111. ISBN 978-0-596-51447-1.
- ^ "2017 年 第 7 号 中国 标准 公告 公告 (China National Standard Bulletin 2017 Nr. 7)". Standardisierungsverwaltung der Volksrepublik China. Abgerufen 3. Juli 2018.
- ^ "Verbreitung von Charaktercodierungen auf Websites, die China und Territorien nutzen". w3techs.com. Abgerufen 2021-11-21.
- ^ "Historische Trends bei der Verwendung von Charaktercodings, August 2021". w3techs.com. Abgerufen 2021-08-31.
- ^ "Codierung: zusammengefasste Testergebnisse". www.w3.org. Abgerufen 2019-11-15.
- ^ a b c d Lunde, Ken (1998). Anhang F: GB/T 12345 (PDF). CJKV -Informationsverarbeitung. O'Reilly Media. ISBN 9781565922242.
- ^ GB12345-80 an Unicode-Tabelle. Unicode -Konsortium. 1993-12-06. Archiviert von das Original Am 2004-06-17.
- ^ Hannas, William C. (1997). Orthografisches Dilemma Asiens. Universität von Hawai'i Press. p. 264. ISBN 9780824818920.
Das Set bietet besser als 99,99 Prozent aller Nutzungen. Trotzdem fanden es den Designer für notwendig, 14.276 "Spezialanwendungen" -Figuren hinzuzufügen, um Eventualitäten abzudecken!
- ^ "GB 2312-1980: Informationstechnologie-Chinese-Ideogramm-Coded-Zeichen für Informationsaustausch (Basic-Set)". Mai 1981.
- ^ "Unicode zu GB2312 oder GBK -Tabelle". cs.nyu.edu. Archiviert von das Original am 3. März 2016. Abgerufen 11. Januar 2022.
- ^ a b Lunde, Ken Roger (Dezember 2008). CJKV -Informationsverarbeitung (2. Aufl.). O'Reilly. ISBN 978-0-596-51447-1.
- ^ "GB 2312-1980: Informationstechnologie-Chinese-Ideogramm-Coded-Zeichen für Informationsaustausch (Basic-Set)". Mai 1981. Abgerufen 2. Oktober 2016.
- ^ a b Haible, Bruno. "GB2312 (Konvertierungstabellen)". Abgerufen 29. September 2016.
- ^ "Readme - Zuordnungen/veraltet/Eastasia". 9. August 2001. Abgerufen 29. September 2016.
- ^ "Java-EUC_CN-1.3_P.UCM". Abgerufen 29. September 2016.[Permanent Dead Link]
- ^ "libiconv: lib/gb2312.h". Gnu Savannah. Abgerufen 29. September 2016.
- ^ "Ausgabe 24036". Python Bug Tracker.
- ^ "Codierung § Namen und Etiketten". W3c. Abgerufen 29. September 2016.
- ^ a b c d e f g h i j "Karte (externe Version) von Mac OS Chinese vereinfachte Codierung zu Unicode 3.0 und später". Apple Inc.
- ^ a b c d e f g h i j Standardisierungsverwaltung Chinas (SAC) (2005-11-18). GB 18030-2005: Informationstechnologie-Chinesen codierter Charaktersatz.
- ^ China Association für Standardisierung. Chinesische codierte grafische Zeichen für den Informationsaustausch (PDF). Itcj/Ipsj. ISO-IR-58.
- ^ a b c d e f Microsoft. "Codepage 936: PRC GBK (XGB) - ANSI, OEM". Unicode -Konsortium.
- ^ a b Viswanadha, Raghuram (2000-08-30). "Unicode zu ISO-IR-165-Tabelle". Internationale Komponenten für Unicode. IBM.
- ^ Lunde, Ken (2009). "Anscheinend fehlende Charaktere". CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. p. 180. ISBN 978-0-596-51447-1.
- ^ a b Ccitt (1992-07-13). Codes des chinesischen Grafikzeichens für Kommunikation (PDF). Itcj/Ipsj. ISO-IR-165.
- ^ Lunde, Ken. "Wenn GB18030 überarbeitet wird, sollten Sie den Codierungsstandard ausrichten · Ausgabe Nr. 27 · Whatwg/Codierung". GitHub.
Außerdem ist die Unterstützung von PUA-Codepunkten im Kontext der Noto CJK- und Source Han-Schriftarten ein totaler Nichtstarter, vor allem, weil es sich um Pan-CJK-Schriftarten handelt, und die PUA-Verwendung ist in solchen Kontexten äußerst gefährlich. [...] einer von äußerst gefährlich. [...] einer von äußerst gefährlich. Meine Freunde von Cesi haben mir den Text vor ein paar Tagen mit mir aus dem letzten Entwurf geteilt. Dies bestätigte, dass die PUA -Anforderung für die 24 Zeichen aufgehoben wird.
- ^ Czyborra, Roman (1998-11-30) [1998-05-25]. "Die kyrillische Charset -Suppe". Archiviert vom Original am 2016-12-03. Abgerufen 2016-12-03.
- ^ "Unicode -Charakter -Codierungsstabilitätsrichtlinien". Unicode -Konsortium. 2017-06-23.
Anmerkungen
- ^ Nur für Ideografien, die von GB/T 2312 bedeckt sind, die alle in den Unicode BMP fallen
- ^ a b Als an ISO 2022 kompatibel 94n-Character set, die einfacher Raum und Charakter löschen sind als Single-Byte-Codes bei 0x20 bzw. 0x7f (nicht 0xa0 bzw. 0xff) erhältlich.
- ^ Wird für u+ff47 von den meisten Implementierungen basierend auf verwendet GB 6345.1, einschließlich Apples Implementierung und GB 18030 (die 8-32 für U+0261 verwenden),[20] aber für u+0261 von ISO-IR-165.[23]
- ^ a b c d e f g h i j Diese Charaktere stammen aus dem Vertikale Formen Block. Einige verwendete Zuordnungen wurden entwickelt, wenn die einzigen vertikalen Präsentationsformen, die in Unicode existierten CJK -Kompatibilitätsformulare Block. Insbesondere werden sie von Windows-936 und GB 18030 auf die abgebildet Privatnutzungsbereich, aber mit einer definierten Glyphe,[22][20] und von Apple zum regulären Vollbreitencharakter mit einem angehängten privaten Gebrauchzeichen U+F87E als Variationsmarker.[19] Entsprechend Ken LundeDer Entwurf einer neuen Überarbeitung von GB 18030 von 2018 wird diese privaten Gebietsgebietszuordnungen schließlich beseitigen.[26]
- ^ Auf die zugeordnet Privatnutzungsbereich U+E7C7 durch die erste (2000) Ausgabe von GB 18030und auch von Windows-936;[22] Dies wurde durch die Ausgabe 2005 von GB 18030 geändert.[20]
- ^ Dieser komponierte Zeichen wurde in Unicode 3.0 hinzugefügt. Zuvor wurde dieses Charakter seiner Zusammensetzungssequenz abgebildet (d.h. U+006E+0300) von Apple.[19] Diese Veränderung geht vor der Stabilisierung von Unicode -Normalisierung Formen, die in Unicode 3.1 eingeführt wurden.[28] Es ist dem zugeordnet Privatnutzungsbereich U+E7C8 von Windows-936.[22]
- ^ U+0261 in GB 18030 zugeordnet[20] und die meisten anderen Implementierungen basierend auf GB 6345.1[19] (die 3-71 für u+ff47 verwenden), aber für U+FF47 in ISO-IR-165.[23][25]
- ^ Liste der Charakterformen gemeinsamer chinesischer Charaktere zum Veröffentlichung (Chinesisch: 印刷通用汉字字形表; Pinyin: Yìnshuà Tōngyòng Hànzì Zìxíngbiǎo) 1964 bemerkte das 锺 kann in Namen und zitieren klassische chinesische Texte verwendet werden, Tabelle allgemeiner Standard chinesischer Charaktere (Chinesisch: 通用規範漢字表; Pinyin: Tōngyòng Guīfàn Hànzì Biǎo) 2013 hat akzeptiert 锺 (2013: 7679) in Namen verwendet werden.
- ^ ɑ (u+0251)
ḿ (u+1e3f; eingereicht in Unicode 3.0, somit CP936 habe diesen Charakter nicht einbezogen[1][Permanent Dead Link])
ń (u+0144)
ň (u+0148)
ǹ (U+01F9; Eingereicht in Unicode 3.0, also CP936 habe diesen Charakter nicht einbezogen[2][Permanent Dead Link])
ɡ (u+0261)
Weitere Lektüre
- Lunde, Ken (2009). "Chinesische Charakter -Standards - China". CJKV -Informationsverarbeitung (2. Aufl.). O'Reilly. ISBN 978-0-596-51447-1.
Externe Links
- Grafische Ansicht von GB2312 im Konverter -Explorer der Intensivstation
- Unicode zu GB2312 oder GBK -Tabelle
- Chinesische Charaktercodes
- Entwicklung von GBK und GB2312 in GB18030
- GB2312 -Zeichen für chinesische Zeichen festgelegt
- Codiertes chinesisches Grafikzeichen für Informationsaustausch ISO-IR 58
- C -Code generiert 6763 Basiszeichen mit Ausgabe
- GB2312-80 Standard auf China-Sprache.gov.cn