GB 2312

GB 2312
Mime / Iana GB_2312-80 (GB2312 für die übliche EUC -Form)
Alias ​​(e) ISO-IR-58, Chinesisch, CSGB2312, CSISO58GB231280
Sprachen) Vereinfachtes Chinesisch, Englisch
Teilunterstützung:
Traditionelles Chinesisch, Russisch, bulgarisch, griechisch, japanisch, Italienisch, irisch, Māori
Standard GB/T 2312-1980
Einstufung ISO-2022-kompatibel DBCs, CJK Codierung
Erweiterungen ISO-IR-165
Codierungsformate EUC-CN (GB2312),
Hz-GB-2312
Vorausgegangen von Chinesischer Telegraphencode
gefolgt von GBK, GB 18030
Andere verwandte Kodierungen (en) Jis x 0208, KS x 1001

GB/T 2312-1980 ist ein wichtiger Beamter Zeichensatz des Volksrepublik China, benutzt für Vereinfachte chinesische Charaktere. GB2312 ist der registrierte Internetname für EUC-CN, was seine übliche codierte Form ist. Gb bezieht sich auf Guobiao Standards (国家 标准), während die T Suffix (推荐; tuījiàn; 'Empfehlung') bezeichnet einen nicht wesentlichen Standard.[1]

GB/T 2312-1980 war ursprünglich ein obligatorischer nationaler Standard bezeichnet GB 2312-1980. Nach einem nationalen Standard -Bulletin der Volksrepublik China Im Jahr 2017 ist GB 2312 nicht mehr obligatorisch und sein Standardcode wird geändert GB/T 2312-1980.[2] GB/T 2312-1980 wurde von abgelöst von GBK und GB 18030, einschließlich zusätzlicher Charaktere, aber GB/T 2312 bleibt in der weit verbreiteten Verwendung als Teilmenge dieser Codierungen.

Ab November 2021, GB2312 ist die beliebteste, chinesisch-spezifische Kodierung im Internet, wobei 6,9% der Webseiten aus China und Territorien es erklärt haben.[3] und 0,1% aller Webseiten weltweit, ein Rückgang von 3,5% im Januar 2010.[4] Beachten Sie jedoch, dass alle wichtigen Webbrowser Dokumente dekodieren, die als z. "GB2312" oder "GB 2312"(zwar nicht alle für" gb_2312 ") als ob es markiert wäre"GBK",",[5] Welches ist eine Superset -Codierung und GB 2312 und GBK haben einen kombinierten Anteil von 9,1% (oder weniger als 0,2% weltweit).

Es gibt einen analogen Zeichensatz, der als bekannt ist als GB/T 12345eng mit GB/T 2312 verwandt, aber mit traditionell Zeichenformen, die vereinfachte Formulare ersetzen, und einige zusätzliche 62 ergänzende Zeichen.[6][7] GB-kodierte Schriftarten kommen häufig paarweise zu einer Paarung, eines mit dem Zeichensatz von GB/T 2312 (vereinfacht) und der andere mit dem Zeichen GB/T 12345 (traditioneller) Zeichensatz.

Charakterbereich in Reihen

Während GB/T 2312 über 99,99% zeitgenössischer chinesischer Textnutzung abdeckt,[8] Historische Texte und viele Namen bleiben aus dem Zielfernrohr. Alt GB 2312 Der Standard umfasst 6.763 chinesische Zeichen (auf zwei Ebenen: Der erste wird durch Lesen angeordnet, die zweite nach Radikale dann Anzahl der Schlaganfälle) zusammen mit Symbolen und Interpunktion Japanisch Kana, das griechisch und Kyrillische Alphabete, Zhuyinund ein Doppelbyte-Satz von Pinyin Briefe mit Tonmarken. In der späteren Version GB/T 2312-1980 gibt es 7.445 Buchstaben.

Die Zeichen in GB/T 2312 sind in einem 94 × 94 -Gitter angeordnet (wie in ISO 2022), und der Zwei-Byte-Codepunkt jedes Zeichens wird in der ausgedrückt Kuten (oder qūwèi, 区位) Form, die eine Reihe spezifiziert (Ku oder qū , 区) und die Position des Zeichens innerhalb der Reihe (Zelle, Zelle, zehn oder wèi , 位). Zum Beispiel befindet sich das Zeichen "外" (bedeutet: Fremd) in Reihe 45 Position 66,[9] So ist es Kuten Code ist 45-66.

Die Zeilen (nummeriert von 1 bis 94) enthalten Zeichen wie folgt:

Die Zeilen 10–15 und 88–94 sind nicht zugewiesen.

Für GB/T 2312-1980 enthält es 682 Zeichen und 6763 chinesische Zeichen.

Codierungen von GB/T 2312

EUC-CN

EUC-CN wird oft als die verwendet Zeichenkodierung (d. H. Für externe Speicherung) in Programmen, die sich mit GB/T 2312 befassen, und somit die Kompatibilität beibehalten ASCII. Zwei Bytes werden verwendet, um jeden in nicht gefundenen Charakter darzustellen ASCII. Der Wert des ersten Byte stammt von 0xa1–0xf7 (161–247), während der Wert des zweiten Byte von stammt 0xa1–0xfe (161–254). Da alle diese Bereiche wie UTF-8 jenseits von ASCII liegen, ist es möglich zu überprüfen, ob ein Byte bei der Verwendung von EUC-CN Teil eines Multi-Byte-Konstrukts ist, aber nicht, ob ein Byte an erster oder zuletzt ist.

Verglichen mit UTF-8, GB/T 2312 (ob nativ oder in EUC-CN codiert) ist speichereffizienter: UTF-8 verwendet drei Bytes[a] pro CJK -Ideograf, GB/T 2312 verwendet nur zwei. GB/T 2312 deckt jedoch nicht so viele Ideografien wie Unicode ab.

Um die zu kartieren Kuten Codepunkte auf EUC -Bytes addieren Sie 160 (0xa0) an beide Zeilennummer (Ku oder qū, 区) und Zell/Säulennummer (Säulennummer (zehn oder wèi , 位). Das Ergebnis der Zugabe der Zeilennummer des Codespunkts bildet das hohe Byte, und das Ergebnis der Zugabe der Zellnummer des Codepunkts bildet das niedrige Byte.

Zum Beispiel, um das Zeichen "外" bei zu codieren Kuten Zelle 45-66, das hohe Byte verwendet die Zeilenzahl 45: 45+160 = 205 =0xcdund das niedrige Byte stammt aus der Zellnummer 66: 66+160 = 212 =0xe2. Die volle Kodierung ist also .[10][11]

ISO-2022-CN

ISO-2022-CN ist eine weitere Codierungsform von GB/T 2312, die auch die in der offizielle Dokumentation angegebene Codierung ist. Dies bezieht sich auf die ISO-2022 Standard, der auch zwei Bytes verwendet, um Zeichen zu codieren, die nicht in ASCII gefunden wurden. Anstatt den erweiterten Bereich von ASCII zu verwenden, verwendet ISO-2022 den gleichen Bytebereich wie ASCII: Der Wert des ersten Byte stammt aus 0x21–0x77 (33–119), während der Wert des zweiten Byte von stammt 0x21–0x7e (33–126). Da sich der Bytebereich ASCII erheblich überlappt, sind Sonderzeichen erforderlich, um anzuzeigen, ob sich ein Zeichen im ASCII-Bereich befindet oder Teil der Zwei-Byte-Sequenz der erweiterten Region ist, nämlich die Verschieben und sich verschieben und sich verschieben Funktionen. Dies stellt ein Risiko für Missbrauchsgeräte dar, da eine unsachgemäße Handhabung von Text zu fehlenden Informationen führen kann.

Um die zu kartieren Kuten Codepunkte auf ISO-2022-Bytes fügen 32 hinzu (0x20) an beide Zeilennummer (Ku oder qū, 区) und Zell/Säulennummer (Säulennummer (zehn oder wèi , 位). Das Ergebnis der Zugabe der Zeilennummer des Codespunkts bildet das hohe Byte, und das Ergebnis der Zugabe der Zellnummer des Codepunkts bildet das niedrige Byte ähnlich wie die EUC -Codierung.

Zum Beispiel, um das Zeichen "外" bei zu codieren Kuten Zelle 45-66, das hohe Byte verwendet die Zeilenzahl 45: 45+32 = 77 =0x4dund das niedrige Byte stammt aus der Zellnummer 66: 66+32 = 98 =0x62. Die volle Kodierung ist also <4D 62>.[11]

Hz

Hz ist eine weitere Codierung von GB/T 2312, die hauptsächlich für verwendet wird Usenet Postings; Zeichen werden mit denselben Bytepaaren wie in ISO-2022-CN dargestellt, aber die Byte-Sequenzen, die den Beginn und das Ende eines Bereichs von GB 2312-Text bezeichnen, unterscheiden sich.

Codediagramme

In den folgenden Tabellen, wobei ein Paar Hexadezimalzahlen für ein Präfix -Byte oder ein Codierungsbyte angegeben ist, wird das kleinere (mit dem achten Bit uneingeschränkt oder nicht verfügbar) verwendet, wenn sie über GL codiert (über GL (0x21-0x7e) wie in ISO-2022-CN oder Hz-GB-2312und das größere (mit dem achten Bit-Set) wird in dem typischeren Fall verwendet, in dem es über GR (0xa1-0xfe) codiert wird, wie in EUC-CN, GBK oder GB 18030. Qūwèi Zahlen sind in Dezimalzahl angegeben.

Wenn GB/T 2312 über GR codiert ist, haben beide Bytes das achte Bit -Set (d. H. größer als 0x7f). GBK und GB 18030 verwenden auch Zwei-Byte-Codes, bei denen nur das erste Byte das achte Bit für Erweiterungszwecke eingestellt hat: Solche Codes befinden sich außerhalb der GB/T 2312-Ebene und sind hier nicht tabellarisch.

Lead -Byte

In diesem Diagramm wird das Gesamtlayout der Hauptebene des von Lead Byte festgelegten GB/T 2312 -Zeichens beschrieben. Für Lead -Bytes, die für andere Zeichen als als Zeichen verwendet werden Hanzi, Links werden für Diagramme auf dieser Seite bereitgestellt, in denen die unter dieser Lead -Byte codierten Zeichen aufgeführt sind. Für Lead -Bytes, die für Hanzi verwendet werden, werden Links zum entsprechenden Abschnitt von bereitgestellt WiktionärHanzi Index.

GB 2312 (Lead -Bytes)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax Sp[b] 1-_ 2-_ 3-_ 4 -_ 5 -_ 6 -_ 7-_ 8 -_ 9 -_ 10-_ 11-_ 12-_ 13-_ 14-_ fünfzehn-_
3x/bx 16-_ 17-_ 18-_ 19-_ 20-_ 21-_ 22-_ 23-_ 24 -_ 25 -_ 26-_ 27-_ 28-_ 29-_ 30-_ 31-_
4x/cx 32-_ 33 -_ 34 -_ 35-_ 36 -_ 37-_ 38 -_ 39-_ 40-_ 41-_ 42-_ 43-_ 44 -_ 45-_ 46 -_ 47-_
5x/dx 48 -_ 49-_ 50-_ 51-_ 52-_ 53-_ 54 -_ 55-_ 56 -_ 57-_ 58 -_ 59-_ 60-_ 61-_ 62-_ 63-_
6x/ex 64-_ 65-_ 66-_ 67-_ 68-_ 69-_ 70-_ 71-_ 72-_ 73-_ 74-_ 75-_ 76 -_ 77-_ 78 -_ 79-_
7x/fx 80-_ 81-_ 82-_ 83-_ 84-_ 85-_ 86-_ 87-_ 88 -_ 89-_ 90-_ 91-_ 92-_ 93-_ 94-_ Del[b]
 Lead -Byte
 Unbenutzte Blei Byte

Non-Hanzi-Reihen

In den folgenden Diagrammen werden die Nichts aufgelistetHanzi Zeichen erhältlich in GB/T 2312, in GB/T 12345 und in Doppelbyte-Region 1 von GB 18030 (was ungefähr der Nicht-Hanzi-Region von GB/T 2312 entspricht). Notizen werden dort gemacht, wo sich diese unterscheiden und wo GB 6345.1 und ISO-IR-165 unterscheiden sich von diesen. Für den Vergleich werden Kreuzversicherungen zu Artikeln zu anderen CJK-Nationalcharakter-Sets gemacht.

Zwei Implementierungen von GB2312

EUC-CN GBK/GB18030 -Teilmenge Gb2312.txt Charaktername[12]: 3
A1a4 U+00B7 · Mittelpunkt U+30fb Katakana Middle Dot 间隔点; ''Trennzeichen''
A1aa U+2014 EM DASH U+2015 HORIZONTALE LINIE 破折号; ''EM Dash''

Unicode -Zuordnungen der Interpunkt (Chinesisch: 间隔点; zündete. 'Separator Dot') und EM Dash (Chinesisch: 破折号) in der Untergruppe von GBK und GB 18030 entsprechend GB/T 2312 ( U+00B7 · Mittelpunkt und U+2014 EM DASH) unterscheiden sich von denen, die in GB2312.TXT aufgeführt sind ( U+30fb Katakana Middle Dot und U+2015 HORIZONTALE LINIE), eine Datendatei, die zuvor von der bereitgestellt wurde Unicode -Konsortium,[13] Obwohl es seit August 2011 als veraltet bezeichnet wird[14] und wird nicht mehr im September 2016 veranstaltet.

Ab 2015 folgt Microsoft .NET Framework GB 18030 -Zuordnungen bei der Zuordnung dieser beiden Zeichen in Daten mit der Bezeichnung gb2312, wohingegen ICU,[15] iConv-1.14,[16] PHP-5.6, ActivePerl-5.20, Java 1.7 und Python 3.4[17] Folgen Sie GB2312.txt als Antwort auf die gb2312 Etikett. Ruby 2.2 ist mit beiden Implementierungen kompatibel. Es konvertiert intern die Konfliktcharaktere in die Subset von GB 18030. Das W3c/Waswg Technische Empfehlung für die Verwendung mit HTML5 Gibt eine GBK -Codierung an, die für beschriftete Streams abgeleitet werden soll GB2312, was wiederum einen GB18030 -Decoder verwendet.[18]

Andere unterschiedliche Zuordnungen wurden von einzelnen Anbietern definiert und verwendet.[13] einschließlich eines von Apfel.[19]

Zeichensatz 0x21/0xa1 (Zeile 1: Interpunktion und Symbole)

Diese Zeile enthält Interpunktion, mathematische Operatoren und andere Symbole. Die folgende Tabelle zeigt die Mappings GB 18030[20] Für diese GB/T 2312 -Zeichen zuerst, gefolgt von anderen dokumentierten Zuordnungen.

GB 2312 (vorangestellt mit 0x21/0xa1)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax IDSP
3001

3002
·/ ˉ
02c9
ˇ
02c7
¨
00A8

3003

3005
/ / / /
2018

2019
3x/bx
201c

201d

3014

3015

3008

3009

300a

300b

300c

300d

300E

300f

3016

3017

3010

3011
4x/cx ±
00B1
×
00d7
÷
00f7

2236

2227

2228

2211

220f

222a

2229

2208

2237

221a

22a5

2225

2220
5x/dx
2312

2299

222b

222e

2261

224c

2248

223d

221d

2260

226e

226f

2264

2265

221e

2235
6x/ex
2234

2642

2640
°
00B0

2032

2033

2103

FF04
¤
00A4
/¢ /£
2030
§
00A7

2116

2606

2605
7x/fx
25cb

25cf

25ce

25c7

25c6

25a1

25A0

25b3

25b2

203b

2192

2190

2191

2193

3013

Zeichensatz 0x22/0xa2 (Zeile 2: Listenmarkierungen)

Diese Zeile enthält verschiedene Arten von Listenmarker. Kleinbuchstaben der römischen Ziffern wurden nicht in das ursprüngliche GB/T 2312 enthalten[21] Noch in GB/T 12345,,[6] sind aber in beiden enthalten Windows -Code Seite 936[22] und GB 18030.[20] A Eurozeichen wurde auch von GB 18030 hinzugefügt.[20]

GB 2312 (vorangestellt mit 0x22/0xa2)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
2170

2171

2172

2173

2174

2175

2176

2177

2178

2179
3x/bx
2488

2489

248a

248b

248c

248d

248e

248f

2490

2491

2492

2493

2494

2495

2496
4x/cx
2497

2498

2499

249a

249b

2474

2475

2476

2477

2478

2479

247a

247b

247c

247d

247e
5x/dx
247f

2480

2481

2482

2483

2484

2485

2486

2487

2460

2461

2462

2463

2464

2465

2466
6x/ex
2467

2468

2469

20AC

3220

3221

3222

3223

3224

3225

3226

3227

3228

3229
7x/fx
2160

2161

2162

2163

2164

2165

2166

2167

2168

2169

216a

216b

Zeichensatz 0x23/0xa3 (Zeile 3: ISO 646-CN)

Diese Reihe enthält ISO 646-CN (GB/T 1988-80), ein nationales Gegenstück zu ASCII. Vergleichen Reihe 3 von KS x 1001, was dasselbe mit SüdkoreaISO 646 Version und Reihe 3 von JIS x 0208 und von KPS 9566, einschließlich nur die alphanumerische Teilmenge, jedoch in demselben Layout. Die folgende Tabelle listet ISO 646-CN auf.

ISO 646-CN; Nicht-vollständige Mappings
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax !
0021
"
0022
#
0023
¥
00A5
%
0025
&
0026
'
0027
(
0028
)
0029
*
002a
+
002b
,
002c
-
002d
.
002e
/
002f
3x/bx 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003a
;
003b
<
003c
=
003d
>
003e
?
003f
4x/cx @
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004a
K
004b
L
004c
M
004d
N
004e
O
004f
5x/dx P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005a
[
005b
\
005c
]
005d
^
005e
_
005f
6x/ex `
0060
a
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
i
0069
j
006a
k
006b
l
006c
m
006d
n
006e
o
006f
7x/fx p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007a
{
007b
|
007c
}
007d

203e

Bei Verwendung in einer Codierung, die eine Kombination mit ASCII ermöglicht wie z. EUC-CN (und sein Superset GB 18030) Diese Zeichen werden normalerweise als implementiert als Gesamtbreite Charaktere, daher zu den Zuordnungen an die Halbbreiten- und Vollbreitenformen Block werden wie unten gezeigt verwendet. GB 6345.1 Geht diese Zeile auch als Fullwidth ab und fügt die Halbwidth -Formen (wie oben) als Zeile 10 hinzu.[1] Apple ordnet diese Zeile hauptsächlich auf Fullwidth-Codepunkte wie unten zu, verwendet jedoch nicht-ful-Width-Zuordnungen für die Überlinie und verwendet Yuan Zeichen wie oben.[19]

GB 2312 (vorangestellt mit 0x23/0xa3); Vollbreiten -Mappings
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
FF01

FF02

Ff03

Ffe5

FF05

FF06

FF07

FF08

FF09

Ff0a

Ff0b

Ff0c

Ff0d

Ff0e

Ff0f
3x/bx
FF10

Ff11

Ff12

Ff13

Ff14

Ff15

FF16

Ff17

Ff18

Ff19

Ff1a

Ff1b

Ff1c

Ff1d

Ff1e

Ff1f
4x/cx
Ff20

FF21

FF22

FF23

FF24

FF25

FF26

FF27

FF28

FF29

Ff2a

Ff2b

Ff2c

Ff2d

Ff2e

Ff2f
5x/dx
FF30

Ff31

Ff32

Ff33

Ff34

Ff35

Ff36

Ff37

Ff38

Ff39

Ff3a

Ff3b

Ff3c

Ff3d

Ff3e
_
Ff3f
6x/ex
FF40

Ff41

FF42

Ff43

Ff44

FF45

FF46
/ɡ[c]
FF48

FF49

Ff4a

Ff4b

Ff4c

Ff4d

Ff4e

Ff4f
7x/fx
FF50

FF51

FF52

FF53

FF54

FF55

FF56

FF57

Ff58

FF59

Ff5a

Ff5b

Ff5c

Ff5d

Ffe3

Zeichensatz 0x24/0xa4 (Zeile 4: Hiragana)

Dieser Satz enthält Hiragana für das Schreiben der japanische Sprache.

Vergleichen mit Reihe 4 von JIS x 0208, mit welcher Reihe übereinstimmt und mit denen Reihe 10 von KS x 1001 und von KPS 9566, die das gleiche Layout verwenden, aber in einer anderen Zeile.

GB 2312 (vorangestellt mit 0x24/0xa4)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3041

3042

3043

3044

3045

3046

3047

3048

3049

304a

304b

304c

304d

304e

304f
3x/bx
3050

3051

3052

3053

3054

3055

3056

3057

3058

3059

305a

305b

305c

305d

305e

305f
4x/cx
3060

3061

3062

3063

3064

3065

3066

3067

3068

3069

306a

306b

306c

306d

306e

306f
5x/dx
3070

3071

3072

3073

3074

3075

3076

3077

3078

3079

307a

307b

307c

307d

307e

307f
6x/ex
3080

3081

3082

3083

3084

3085

3086

3087

3088

3089

308a

308b

308c

308d

308e

308f
7x/fx
3090

3091

3092

3093

Zeichensatz 0x25/0xa5 (Zeile 5: Katakana)

Dieser Satz enthält Katakana für das Schreiben der japanische Sprache. Allerdings die Japanische lange Vokalmarke, das in Katakana -Text verwendet und in Zeile 1 von enthalten ist Jis x 0208, ist nicht in GB/T 2312 enthalten, obwohl es in GBK und GB 18030 außerhalb der Hauptebene GB/T 2312 hinzugefügt wird.[24] bei 0xa960.[20]

Vergleichen mit Reihe 5 von JIS x 0208, mit welcher Reihe übereinstimmt und mit denen Reihe 11 von KS x 1001 und von KPS 9566, die das gleiche Layout verwenden, aber in einer anderen Zeile.

GB 2312 (vorangestellt mit 0x25/0xa5)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
30a1

30a2

30a3

30A4

30A5

30a6

30a7

30a8

30a9

30aa

30AB

30AC

30ad

30a

30af
3x/bx
30b0

30b1

30b2

30b3

30b4

30b5

30b6

30b7

30b8

30b9

30ba

30bb

30BC

30bd

30be

30bf
4x/cx
30c0

30c1

30c2

30c3

30c4

30c5

30c6

30c7

30c8

30c9

30ca

30cb

30cc

30cd

30ce

30cf
5x/dx
30d0

30d1

30d2

30d3

30d4

30d5

30d6

30d7

30d8

30d9

30da

30 dB

30dc

30dd

30de

30df
6x/ex
30e0

30e1

30e2

30e3

30e4

30e5

30e6

30e7

30e8

30e9

30ea

30EB

30EC

30ed

30ee

30ef
7x/fx
30f0

30f1

30f2

30f3

30f4

30f5

30f6

Zeichensatz 0x26/0xa6 (Zeile 6: griechische und vertikale Erweiterungen)

Diese Zeile enthält grundlegende Unterstützung für die Moderne griechisches Alphabet, ohne Diakritik oder die Final Sigma.

Die hervorgehobenen Zeichen sind Präsentationsformen von Interpunktionsmarken für vertikales Schreiben und sind nicht in GB/T 2312 enthalten, sondern sind in dieser Zeile von GB/T 12345 enthalten.[1][6] Windows -Code Seite 936,[22] Mac OS vereinfacht Chinesisch,[19] und GB 18030.[20] Sie werden als "Standardverlängerungen zu GB 2312" angesehen.[19] Umgekehrt, ISO-IR-165 Enthält gemustert semigraphisch Zeichen in dieser Zeile (hauptsächlich ohne genaue Gegenstücke in Unicode), die mit den Codepositionen kollidieren, die für die vertikalen Erweiterungen verwendet werden.[25]

Vergleichen mit Reihe 6 von JIS x 0208, was diese Zeile übereinstimmt, wenn die vertikalen Formen nicht enthalten sind und mit Reihe 6 von KPS 9566, einschließlich der gleichen griechischen Buchstaben in demselben Layout, fügt jedoch eher römische Ziffern als vertikale Formen hinzu. Kontrast Reihe 5 von KS x 1001, der die griechischen Buchstaben ausschüttet, um zuerst die römischen Ziffern einzuschließen.

GB 2312 (vorangestellt mit 0x26/0xa6)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax Α
0391
Β
0392
Γ
0393
Δ
0394
Ε
0395
Ζ
0396
Η
0397
Θ
0398
Ι
0399
Κ
039a
Λ
039b
Μ
039c
Ν
039d
Ξ
039e
Ο
039f
3x/bx Π
03a0
Ρ
03A1
Σ
03a3
Τ
03A4
Υ
03A5
Φ
03A6
Χ
03a7
Ψ
03a8
Ω
03a9
4x/cx α
03b1
β
03b2
γ
03b3
δ
03b4
ε
03b5
ζ
03b6
η
03b7
θ
03b8
ι
03b9
κ
03ba
λ
03BB
μ
03BC
ν
03BD
ξ
03be
ο
03bf
5x/dx π
03c0
ρ
03c1
σ
03c3
τ
03c4
υ
03c5
φ
03c6
χ
03c7
ψ
03c8
ω
03c9
[d]
Fe10
[d]
Fe12
[d]
Fe11
[d]
Fe13
[d]
Fe14
[d]
Fe15
[d]
Fe16
6x/ex
Fe35

Fe36

Fe39

Fe3a
︿
Fe3f

Fe40

Fe3d

Fe3e

Fe41

Fe42

Fe43

Fe44
[d]
Fe17
[d]
Fe18

Fe3b

Fe3c
7x/fx
Fe37

Fe38

Fe31
[d]
Fe19

Fe33

Fe34

Zeichensatz 0x27/0xa7 (Zeile 7: Cyrillic)

Dieser Satz enthält beide Fälle von 33 Buchstaben aus dem Cyrillic Drehbuch, ausreichend, um die Moderne zu schreiben Russisches Alphabet und Bulgarisches Alphabet, obwohl andere Formen von kyrillisch zusätzliche Buchstaben erfordern.[27]

Vergleichen mit Reihe 7 von JIS x 0208, mit welcher Reihe übereinstimmt und mit denen Reihe 12 von KS x 1001 und Reihe 5 von KPS 9566, die das gleiche Layout verwenden, aber in verschiedenen Reihen.

GB 2312 (vorangestellt mit 0x27/0xa7)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax А
0410
Б
0411
В
0412
Г
0413
Д
0414
Е
0415
Ё
0401
Ж
0416
З
0417
И
0418
Й
0419
К
041a
Л
041b
М
041c
Н
041d
3x/bx О
041e
П
041f
Р
0420
С
0421
Т
0422
У
0423
Ф
0424
Х
0425
Ц
0426
Ч
0427
Ш
0428
Щ
0429
Ъ
042a
Ы
042b
Ь
042c
Э
042d
4x/cx Ю
042e
Я
042f
5x/dx а
0430
б
0431
в
0432
г
0433
д
0434
е
0435
ё
0451
ж
0436
з
0437
и
0438
й
0439
к
043a
л
043b
м
043c
н
043d
6x/ex о
043e
п
043f
р
0440
с
0441
т
0442
у
0443
ф
0444
х
0445
ц
0446
ч
0447
ш
0448
щ
0449
ъ
044a
ы
044b
ь
044c
э
044d
7x/fx ю
044e
я
044f

Zeichenset 0x28/0xa8 (Zeile 8: Zhuyin und Nonascii Pinyin)

Diese Reihe enthält Bopomofo und Pinyin Zeichen, mit Ausnahme von ASCII -Buchstaben (die in Zeile 3 sind). Die hervorgehobenen Zeichen sind solche, die sich nicht im Basis -GB 2312 -Set befinden, sondern von hinzugefügt werden von GB 6345.1,[19] und auch in GB/T 12345 enthalten,[1][6] Windows -Code Seite 936,[22] Mac OS vereinfacht Chinesisch[19] und GB 18030.[20] Sie werden als "Standardverlängerungen zu GB 2312" angesehen.[19]

GB 6345.1 behandelt den Pinyin in dieser Reihe als Vollbreiten und enthält die Halbbreitenkollegen als Reihe 11;[1] GB 18030 tut dies nicht.

GB 2312 (vorangestellt mit 0x28/0xa8)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax ā
0101
á
00e1
ǎ
01ce
à
00e0
ē
0113
é
00E9
ě
011b
è
00e8
ī
012b
í
00ed
ǐ
01d0
ì
00ec
ō
014d
ó
00F3
ǒ
01d2
3x/bx ò
00F2
ū
016b
ú
00fa
ǔ
01d4
ù
00f9
ǖ
01d6
ǘ
01d8
ǚ
01da
ǜ
01dc
ü
00FC
ê
00ea
ɑ
0251
ḿ[e]
1e3f
ń
0144
ň
0148
ǹ[f]
01f9
4x/cx ɡ/[g]
3105

3106

3107

3108

3109

310a

310b

310c

310d

310e

310f
5x/dx
3110

3111

3112

3113

3114

3115

3116

3117

3118

3119

311a

311b

311c

311d

311e

311f
6x/ex
3120

3121

3122

3123

3124

3125

3126

3127

3128

3129
7x/fx

Zeichensatz 0x29/0xa9 (Zeile 9: Box Drawing)

GB 2312 (vorangestellt mit 0x29/0xa9)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
2500

2501

2502

2503

2504

2505

2506

2507

2508

2509

250a

250b
3x/bx
250c

250d

250e

250f

2510

2511

2512

2513

2514

2515

2516

2517

2518

2519

251a

251b
4x/cx
251c

251d

251e

251f

2520

2521

2522

2523

2524

2525

2526

2527

2528

2529

252a

252b
5x/dx
252c

252d

252e

252f

2530

2531

2532

2533

2534

2535

2536

2537

2538

2539

253a

253b
6x/ex
253c

253d

253e

253f

2540

2541

2542

2543

2544

2545

2546

2547

2548

2549

254a

254b
7x/fx

Hanzi -Reihen

Einbeziehung von nicht standardmäßigen vereinfachten chinesischen und traditionellen chinesischen Charakteren

GB/T 2312 umfasste 2 nicht standardmäßige Vereinfachte chinesische Charaktere:

  • (68–41): vereinfacht von “审[審]", aber die Vollständige Liste der vereinfachten Zeichen (Chinesisch: 简化字总表; Pinyin: Jiǎnhuà Zì Zǒng Biǎo) hat zusammengeführt “" mit "”. Alte Versionen von Xinhua Zidian (Chinesisch: 新华字典; Pinyin: Xīnhuá Zìdiǎn) hatte dieses Wort aufgenommen und als Saft bezeichnet (Chinesisch: ; Pinyin: zhì), neue Versionen haben dies abgesagt und zusammengeführt “" mit "”.
  • (79–64): vereinfacht von “钅[釒]", aber die Vollständige Liste der vereinfachten Zeichen hat zusammengeführt “" mit "”.

GB/T 2312 auch 3 enthalten 3 Traditionelle chinesische Charaktere:

  • (79–81): Das Originaldokument verwendete das Zeichen “”Mit traditionellem Teil, aber der Vollständige Liste der vereinfachten Zeichen hat zusammengeführt “" mit ""Und vereinfacht zu"”, Spätere Vorlagen veränderten das Wort auf“”.[Anmerkung 1]
  • (65–65): Der Charakter wurde mit "zusammengeführt"”(26-83) in der Vollständige Liste der vereinfachten Zeichenund hatte keine Notizen über unklare Verwendung, aber GB/T 2312 hatte diesen Charakter aufgenommen.
  • (84–80): Das Originaldokument verwendete das Zeichen “”Mit traditionellem Teil, aber der Vollständige Liste der vereinfachten Zeichen hat das angegeben “"Sollte vereinfacht werden zu"”; der entsprechende vereinfachte chinesische Charakter “Wurde von Japan als Unicode als eingereicht Shinjitai”. Obwohl sich GB 5007.1–85 geändert hat “" mit "”Die folgenden Änderungen (GB 5007.1–2001 und GB/T 5007.1–2010) halten jedoch das nicht festgelegte Formular. Tabelle allgemeiner Standard chinesischer Charaktere inbegriffen "”Am 2013: 7748.

Korrekturen

GB 5007.1-85 24x24 Bitmap Schriftart Satz chinesischer Zeichen für den Informationsaustausch (Chinesisch: 信息交换用汉字 24x24 点阵字模集) ist die früheste Schriftvorlage basierend auf GB/T 2312, die Korrekturen und Erweiterungen enthält, einschließlich:

  • Ändern der Glyphenform von Lateinisches Alphabet "g"
  • Hinzufügen 6 Hanyu Pinyin Figuren: ɑ, ḿ, ń, ň, ǹ, ɡ[Anmerkung 2]
  • geändert "" zu "
  • Inklusive 94 Halbbreite Glyphen in Zeile 10 (Halbbreite von Reihe 3, entspricht GB 1988–80
  • Enthielt eine halbe Breite von 32 Hanyu Pinyin-Zeichen aus Zeile 8 in Zeile 11.

GB/T 2312 hatten keine Korrekturen, diese Korrekturen sind jedoch in Schriftarten enthalten, die auf GB/T 2312 einschließlich GB/T 12345 basieren. seine Supersets GBK und GB 18030 auch diese Korrekturen eingeschlossen. GB/T 2312 wird auch in verwendet ISO-IR-165.

Siehe auch

Verweise

  1. ^ a b c d e Lunde, Ken (2009). CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. S. 94–111. ISBN 978-0-596-51447-1.
  2. ^ "2017 年 第 7 号 中国 标准 公告 公告 (China National Standard Bulletin 2017 Nr. 7)". Standardisierungsverwaltung der Volksrepublik China. Abgerufen 3. Juli 2018.
  3. ^ "Verbreitung von Charaktercodierungen auf Websites, die China und Territorien nutzen". w3techs.com. Abgerufen 2021-11-21.
  4. ^ "Historische Trends bei der Verwendung von Charaktercodings, August 2021". w3techs.com. Abgerufen 2021-08-31.
  5. ^ "Codierung: zusammengefasste Testergebnisse". www.w3.org. Abgerufen 2019-11-15.
  6. ^ a b c d Lunde, Ken (1998). Anhang F: GB/T 12345 (PDF). CJKV -Informationsverarbeitung. O'Reilly Media. ISBN 9781565922242.
  7. ^ GB12345-80 an Unicode-Tabelle. Unicode -Konsortium. 1993-12-06. Archiviert von das Original Am 2004-06-17.
  8. ^ Hannas, William C. (1997). Orthografisches Dilemma Asiens. Universität von Hawai'i Press. p. 264. ISBN 9780824818920. Das Set bietet besser als 99,99 Prozent aller Nutzungen. Trotzdem fanden es den Designer für notwendig, 14.276 "Spezialanwendungen" -Figuren hinzuzufügen, um Eventualitäten abzudecken!
  9. ^ "GB 2312-1980: Informationstechnologie-Chinese-Ideogramm-Coded-Zeichen für Informationsaustausch (Basic-Set)". Mai 1981.
  10. ^ "Unicode zu GB2312 oder GBK -Tabelle". cs.nyu.edu. Archiviert von das Original am 3. März 2016. Abgerufen 11. Januar 2022.
  11. ^ a b Lunde, Ken Roger (Dezember 2008). CJKV -Informationsverarbeitung (2. Aufl.). O'Reilly. ISBN 978-0-596-51447-1.
  12. ^ "GB 2312-1980: Informationstechnologie-Chinese-Ideogramm-Coded-Zeichen für Informationsaustausch (Basic-Set)". Mai 1981. Abgerufen 2. Oktober 2016.
  13. ^ a b Haible, Bruno. "GB2312 (Konvertierungstabellen)". Abgerufen 29. September 2016.
  14. ^ "Readme - Zuordnungen/veraltet/Eastasia". 9. August 2001. Abgerufen 29. September 2016.
  15. ^ "Java-EUC_CN-1.3_P.UCM". Abgerufen 29. September 2016.[Permanent Dead Link]
  16. ^ "libiconv: lib/gb2312.h". Gnu Savannah. Abgerufen 29. September 2016.
  17. ^ "Ausgabe 24036". Python Bug Tracker.
  18. ^ "Codierung § Namen und Etiketten". W3c. Abgerufen 29. September 2016.
  19. ^ a b c d e f g h i j "Karte (externe Version) von Mac OS Chinese vereinfachte Codierung zu Unicode 3.0 und später". Apple Inc.
  20. ^ a b c d e f g h i j Standardisierungsverwaltung Chinas (SAC) (2005-11-18). GB 18030-2005: Informationstechnologie-Chinesen codierter Charaktersatz.
  21. ^ China Association für Standardisierung. Chinesische codierte grafische Zeichen für den Informationsaustausch (PDF). Itcj/Ipsj. ISO-IR-58.
  22. ^ a b c d e f Microsoft. "Codepage 936: PRC GBK (XGB) - ANSI, OEM". Unicode -Konsortium.
  23. ^ a b Viswanadha, Raghuram (2000-08-30). "Unicode zu ISO-IR-165-Tabelle". Internationale Komponenten für Unicode. IBM.
  24. ^ Lunde, Ken (2009). "Anscheinend fehlende Charaktere". CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. p. 180. ISBN 978-0-596-51447-1.
  25. ^ a b Ccitt (1992-07-13). Codes des chinesischen Grafikzeichens für Kommunikation (PDF). Itcj/Ipsj. ISO-IR-165.
  26. ^ Lunde, Ken. "Wenn GB18030 überarbeitet wird, sollten Sie den Codierungsstandard ausrichten · Ausgabe Nr. 27 · Whatwg/Codierung". GitHub. Außerdem ist die Unterstützung von PUA-Codepunkten im Kontext der Noto CJK- und Source Han-Schriftarten ein totaler Nichtstarter, vor allem, weil es sich um Pan-CJK-Schriftarten handelt, und die PUA-Verwendung ist in solchen Kontexten äußerst gefährlich. [...] einer von äußerst gefährlich. [...] einer von äußerst gefährlich. Meine Freunde von Cesi haben mir den Text vor ein paar Tagen mit mir aus dem letzten Entwurf geteilt. Dies bestätigte, dass die PUA -Anforderung für die 24 Zeichen aufgehoben wird.
  27. ^ Czyborra, Roman (1998-11-30) [1998-05-25]. "Die kyrillische Charset -Suppe". Archiviert vom Original am 2016-12-03. Abgerufen 2016-12-03.
  28. ^ "Unicode -Charakter -Codierungsstabilitätsrichtlinien". Unicode -Konsortium. 2017-06-23.

Anmerkungen

  1. ^ Nur für Ideografien, die von GB/T 2312 bedeckt sind, die alle in den Unicode BMP fallen
  2. ^ a b Als an ISO 2022 kompatibel 94n-Character set, die einfacher Raum und Charakter löschen sind als Single-Byte-Codes bei 0x20 bzw. 0x7f (nicht 0xa0 bzw. 0xff) erhältlich.
  3. ^ Wird für u+ff47 von den meisten Implementierungen basierend auf verwendet GB 6345.1, einschließlich Apples Implementierung und GB 18030 (die 8-32 für U+0261 verwenden),[20] aber für u+0261 von ISO-IR-165.[23]
  4. ^ a b c d e f g h i j Diese Charaktere stammen aus dem Vertikale Formen Block. Einige verwendete Zuordnungen wurden entwickelt, wenn die einzigen vertikalen Präsentationsformen, die in Unicode existierten CJK -Kompatibilitätsformulare Block. Insbesondere werden sie von Windows-936 und GB 18030 auf die abgebildet Privatnutzungsbereich, aber mit einer definierten Glyphe,[22][20] und von Apple zum regulären Vollbreitencharakter mit einem angehängten privaten Gebrauchzeichen U+F87E als Variationsmarker.[19] Entsprechend Ken LundeDer Entwurf einer neuen Überarbeitung von GB 18030 von 2018 wird diese privaten Gebietsgebietszuordnungen schließlich beseitigen.[26]
  5. ^ Auf die zugeordnet Privatnutzungsbereich U+E7C7 durch die erste (2000) Ausgabe von GB 18030und auch von Windows-936;[22] Dies wurde durch die Ausgabe 2005 von GB 18030 geändert.[20]
  6. ^ Dieser komponierte Zeichen wurde in Unicode 3.0 hinzugefügt. Zuvor wurde dieses Charakter seiner Zusammensetzungssequenz abgebildet (d.h. U+006E+0300) von Apple.[19] Diese Veränderung geht vor der Stabilisierung von Unicode -Normalisierung Formen, die in Unicode 3.1 eingeführt wurden.[28] Es ist dem zugeordnet Privatnutzungsbereich U+E7C8 von Windows-936.[22]
  7. ^ U+0261 in GB 18030 zugeordnet[20] und die meisten anderen Implementierungen basierend auf GB 6345.1[19] (die 3-71 für u+ff47 verwenden), aber für U+FF47 in ISO-IR-165.[23][25]
  1. ^ Liste der Charakterformen gemeinsamer chinesischer Charaktere zum Veröffentlichung (Chinesisch: 印刷通用汉字字形表; Pinyin: Yìnshuà Tōngyòng Hànzì Zìxíngbiǎo) 1964 bemerkte das kann in Namen und zitieren klassische chinesische Texte verwendet werden, Tabelle allgemeiner Standard chinesischer Charaktere (Chinesisch: 通用規範漢字表; Pinyin: Tōngyòng Guīfàn Hànzì Biǎo) 2013 hat akzeptiert (2013: 7679) in Namen verwendet werden.
  2. ^ ɑ (u+0251)
    ḿ (u+1e3f; eingereicht in Unicode 3.0, somit CP936 habe diesen Charakter nicht einbezogen[1][Permanent Dead Link])
    ń (u+0144)
    ň (u+0148)
    ǹ (U+01F9; Eingereicht in Unicode 3.0, also CP936 habe diesen Charakter nicht einbezogen[2][Permanent Dead Link])
    ɡ (u+0261)

Weitere Lektüre

Externe Links