Japanische Sprache in Ebcdic

Mehrere gegenseitig inkompatible Versionen des erweiterten binären dezimalen Austauschcode (Ebcdic) wurden verwendet, um die darzustellen japanische Sprache auf Computern, einschließlich Varianten definiert von Hitachi, Fujitsu, IBM und andere. Einige sind Codierungen der variablen Breite, Beschäftigung Verriegelungsschaltcodes Um zwischen Einzel- und Doppel-Byte-Modi zu wechseln.[1] Im Gegensatz zu anderen Ebcdic -Orten, der Kleinbuchstaben Grundlatein Briefe werden in ihren üblichen Orten oft nicht erhalten.[2]

Die Zeichen, die im japanischen Doppel-Byte Jis x 0208, beeinflusste auch die Anbieterverlängerungen in einigen nicht-ibcdic-Codierungen wie z. IBM-Code Seite 932 ("DBCS-PC") und Windows -Code Seite 932.[3]

Single-Byte-Codes

ähnlich zu Jis x 0201 (selbst integriert in Schicht jis), Japanische Ebcdic-Codiers enthalten häufig einen Satz von Single-Byte Katakana. Im japanischen Gebietsschema werden verschiedene Varianten des Single-Byte-Ebcdic-Code von verschiedenen Anbietern verwendet. Ein gegebener Anbieter kann auch zwei verschiedene Single-Byte-Codes definieren, von denen einer bevorzugt wird Halbbreite Katakana und einer bevorzugt für Lateinisches Skript. Varianten von Ebcdic, die von einem bestimmten Anbieter für die Verwendung für Katakana bevorzugt werden, werden manchmal als bezeichnet Ebcdik, steht für Erweiterter binär codierter Dezimalstauschkana-Code.[1][4]

Codeseiten mit Halbbreitenkana sind eine Ausnahme zum Ebcdic-invarianten Zeichensatz von IBM, der eine Reihe von Zeichen angibt, die normalerweise über alle EBCDIC-Codeseiten gleichermaßen codiert werden. Vor allem beinhalten sie manchmal Katakana -Zeichen an Codepunkten, die für verwendet werden Kleinbuchstaben Buchstaben der Grundlegendes lateinisches Alphabet im invarianten Set.[2] Codierung von Kleinbuchstaben, wenn Katakana -Charaktere an diesen Orten enthalten sind, und die Codierung von Katakana -Zeichen, wenn Kleinbuchstaben an ihren üblichen Orten aufbewahrt werden, können zwischen Anbietern variieren, wie unten gezeigt.

Microsoft Windows Implementiert zwei japanische Single-Byte-EBCDIC-Varianten, wobei Code-Seitenzahlen 20000 höher als die Code-Seitenzahlen von IBM für seine Varianten als Codeseiten 20290 (dokumentiert als dokumentiert als IBM290, "IBM Ebcdic Japaner Katakana erweitert")[5] und 21027 ("erweiterte/ext alpha -Kleinbuchstaben"). Code Seite 21027 wie in Windows implementiert ist eine unvollständige Implementierung, die zweiwege Abbildungen für mehrere Buchstaben und Kana fehlen.[6] und ist derzeit veraltet.[5]

Die Codeseiten von IBM wurden später aktualisiert, um die aufzunehmen Eurozeichen Bei 0xE1 behalten Sie ihre ursprünglichen CPGID -Nummern bei, werden jedoch neue CCSID -Nummern zugewiesen. Daher bezieht sich der CCSID 290 auf die Originalversion von Code Seite 290, während die Version von Code Seite 290 mit dem Euro -Zeichen auch als CCSID 8482 bezeichnet wird.[7] In ähnlicher Weise bezieht sich CCSID 1027 auf die Originalversion von Code Seite 1027, während die Version von CPGID 1027 mit dem Euro -Zeichen dem CCSID 5123 angegeben ist.[8]

Neben den Versionen der japanischen DBCS-Host-Code-Seite von IBM (CPGID 300, CCSID 300 oder 16684) als Doppel-Byte-Komponente wird IBM-Code Seite 290 als Single-Byte-Komponente der Multi-Byte-Code-Seite IBM- verwendet. 930[9][10] und (als Euro-Updated CCSID 8482) Die aktualisierte Version IBM-1390.[11][12] IBM-Code Seite 1027 wird als Single-Byte-Komponente der Multi-Byte-Code-Seite IBM-939 verwendet[13][14] und (als Euro-Updated CCSID 5123) Die aktualisierte Version IBM-1399.[15][16]

In der folgenden Tabelle ist die Konformität mit dem invarianten Satz mit Grün gekennzeichnet. Die Kollision mit dem invarianten Set ist rot markiert.

Single-Byte-Codes in japanischen EBCDIC-Varianten (ohne Kontrollcodes)
Hexadezimal Kleinbuchstaben an invarianten Orten, kana abwesend oder vertrieben Kleinbuchstaben abwesend oder vertrieben von Kana
Fujitsu Ebcdic[17] Hitachi Ebcdic[18] HP ebcdik[19] IBM 298[20] IBM 1027
[13][15][21][22]
IBM 1031[23] Fujitsu Ebcdik[17] Hitachi Ebcdik[18]
IBM 1136[24]
NEC Ebcdic[25][26] IBM 290
[9][11][27][28]
IBM 887[29] IBM 1030[30]
0x40 Sp Sp Sp Sp Sp Sp Sp Sp Sp Sp Sp Sp
0x41
0x42
0x43
0x44
0x45
0x46
0x47
0x48
0x49
0x4a £ [ ¢ ¢ ¢ £ [ [ £ £ £
0x4b . . . . . . . . . . . .
0x4c < < )) < < < < < < < < <
0x4d ( ( [ ( ( ( ( ( ( ( ( (
0x4e + + < + + + + + + + + +
0x4f | ! | | | | ! ! | | |
0x50 & & + & & & & & & & & &
0x51
0x52
0x53
0x54
0x55
0x56
0x57 a
0x58
0x59 a b
0x5a ! ] ! ! ! ! ] ] ! ! !
0x5b \ ¥ $ $ $ $ \ ¥ \ ¥ ¥ ¥
0x5c * * * * * * * * * * * *
0x5d )) )) ] )) )) )) )) )) )) )) )) ))
0x5e ; ; ; ; ; ; ; ; ; ; ; ;
0x5f ¬ ^ ¬ ¬ ¬ ¬ ^ ^ ¬ ¬ ¬
0x60 - - - - - - - - - - - -
0x61 / / / / / / / / / / / /
0x62 b c a a
0x63 c d b b
0x64 d e c c
0x65 e f d d
0x66 f g e e
0x67 g h f f
0x68 h ich g g
0x69 ich j h h
0x6a .... | | .... | |
0x6b Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend Anwesend
0x6c % % ( % % % % % % % % %
0x6d _ _ _ _ _ _ _ _ _ _ _ _
0x6e > > ¥ > > > > > > > > >
0x6f ? ? ? ? ? ? ? ? ? ? ?
0x70 j k [ [
0x71 k l ich ich
0x72 l m j j
0x73 m n k k
0x74 n Ö l l
0x75 ソ ソ ソ ソ ソ Ö p m m
0x76 p q n n
0x77 q r Ö Ö
0x78 r s p p
0x79 ` ` ` ` ` ` ` ` ` ` `
0x7a : : : : : : : : : : :
0x7b # # = # # # # # # # # #
0x7c @ @ '' @ @ @ @ @ @ @ @ @
0x7d '' '' : '' '' '' '' '' '' '' '' ''
0x7e = = > = = = = = = = = =
0x7f " " " " " " " " " " " "
0x80 s t ] ]
0x81 a a a a a a
0x82 b b b b b b
0x83 c c c c c c
0x84 d d d d d d
0x85 e e e e e e
0x86 f f f f f f
0x87 g g g g g g
0x88 h h h h h h
0x89 ich ich ich ich ich ich
0x8a
0x8b t u q q
0x8c
0x8d
0x8e
0x8f
0x90 ソ ソ ソ ソ ソ ソ
0x91 j j j j j j
0x92 k k k k k k
0x93 l l l l l l
0x94 m m m m m m
0x95 n n n n n n
0x96 Ö Ö Ö Ö Ö Ö
0x97 p p p p p p
0x98 q q q q q q
0x99 r r r r r r
0x9a
0x9b u v r r
0x9c v w
0x9d
0x9e
0x9f
0xa0 ¯ ¯ w x ~ ~
0xa1 ~ ~ ¯ ~ ~ ~ ~ ~ ~ ¯ ¯ ¯
0xa2 s s s s s s
0xa3 t t t t t t
0xa4 u u u u u u
0xa5 v v v v v v
0xa6 w w w w w w
0xa7 x x x x x x
0xa8 y y y y y y
0xa9 z z z z z z
0xaa
0xab x y s s
0xac
0xad [ [
0xae
0xaf
0xb0 ^ ^ y z ^ ^
0xb1 £ £ z ¢ ¢
0xb2 ¥ ¥ \ \
0xb3 t t
0xb4 u u
0xb5 v v
0xb6 w w
0xb7 x x
0xb8 y y
0xb9 z z
0xba
0xbb
0xbc
0xbd ] ]
0xbe
0xbf
0xc0 { { ? { { { { { { { {
0xc1 EIN EIN EIN EIN EIN EIN EIN EIN EIN EIN EIN EIN
0xc2 B B B B B B B B B B B B
0xc3 C C C C C C C C C C C C
0xc4 D D D D D D D D D D D D
0xc5 E E E E E E E E E E E E
0xc6 F F F F F F F F F F F F
0xc7 G G G G G G G G G G G G
0xc8 H H H H H H H H H H H H
0xc9 ich ich ich ich ich ich ich ich ich ich ich ich
0xca
0xCB
0xcc
0xcd
0xce
0xcf
0xd0 } } ! } } } } } } } }
0xd1 J J J J J J J J J J J J
0xd2 K K K K K K K K K K K K
0xd3 L L L L L L L L L L L L
0xd4 M M M M M M M M M M M M
0xd5 N N N N N N N N N N N N
0xd6 Ö Ö Ö Ö Ö Ö Ö Ö Ö Ö Ö Ö
0xd7 P P P P P P P P P P P P
0xd8 Q Q Q Q Q Q Q Q Q Q Q Q
0xd9 R R R R R R R R R R R R
0xda
0xdb °
0xdc ±
0xdd
0xde
0xdf
0xe0 $ $ ¥ \ \ $ $ $ $ $ $
0xe1
0xe2 S S S S S S S S S S S S
0xe3 T T T T T T T T T T T T
0xe4 U U U U U U U U U U U U
0xe5 V V V V V V V V V V V V
0xe6 W W W W W W W W W W W W
0xe7 X X X X X X X X X X X X
0xe8 Y Y Y Y Y Y Y Y Y Y Y Y
0xe9 Z Z Z Z Z Z Z Z Z Z Z Z
0xea
0xEB
0xec
0xed
0xee
0xef Ω
0xf0 0 0 0 0 0 0 0 0 0 0 0 0
0xf1 1 1 1 1 1 1 1 1 1 1 1 1
0xf2 2 2 2 2 2 2 2 2 2 2 2 2
0xf3 3 3 3 3 3 3 3 3 3 3 3 3
0xf4 4 4 4 4 4 4 4 4 4 4 4 4
0xf5 5 5 5 5 5 5 5 5 5 5 5 5
0xf6 6 6 6 6 6 6 6 6 6 6 6 6
0xf7 7 7 7 7 7 7 7 7 7 7 7 7
0xf8 8 8 8 8 8 8 8 8 8 8 8 8
0xf9 9 9 9 9 9 9 9 9 9 9 9 9
0xfa
0xfb
0xfc
0xfd µ
0xfe

Doppel-Byte-Codes

Es gibt drei Doppel-Byte-Zeichencodes, die für Japaner mit EBCDIC verwendet werden:[31][32][3] IBM-Code Seite 300 (auch IBM Kanji oder IBM Japaner DBCS-Host genannt) von IBM,[33] Keis von Hitachi,[31] und Jef von Fujitsu.[17] Dies sind DBCS-Host-Codierungen, bei denen verschiedene Umschaltcodes verwendet werden, um zwischen Single-Byte-EBCDIC- und Doppel-Byte-Modi zu wechseln.[1] Codes 0x41 bis 0xFe (die für Grafikzeichen in Ebcdic verwendet) werden paarweise verwendet, um Zeichen aus einem 190 × 190 -Gitter darzustellen. Code 0x40 (Platz in Ebcdic) wird als verdoppelt als ideografischer Raum, aber nicht als Teil eines anderen Doppel-Byte-Code.[1][33]

In der IBM-Version des DBCS-Host-Code des Code 0x0F Wechselt in den Single-Byte-Modus und den Code 0x0E Schaltet in den Doppel-Byte-Modus,[1][9][13][11][15] gemeinsam mit IBM Double-Byte Ebcdic Codes für andere CJK Sprachen,[1] wie die ebcdic -Version von Johab zum Koreanisch.[34] Im Gegensatz zu Keis und JEF hat das Layout von IBM -Code Seite 300 nicht miteinander zu tun Jis x 0208und die Umwandlung zwischen den beiden muss über eine Tabelle durchgeführt werden;[31] Sein Charakterrepertoire wurde jedoch mit aufeinanderfolgenden Überarbeitungen von JIS X 0208 auf dem neuesten Stand gehalten, um ein Superet des Repertoires von JIS X 0208 zu bleiben.[3] Lead-Bytes 0x41 bis 0x44 werden für Nichtkanji-Zeichen verwendet, Lead-Bytes 0x45 bis 0x68 werden für Kanji-Zeichen verwendet, und Lead-Bytes 0x69 bis 0x89 werden für UDC verwendet (für UDC ((Benutzerdefinierte Zeichen).[33]

Die Existenz von IBMs japanischen DBCS-Host-Code hatte Auswirkungen über EBCDIC-Systeme hinaus, da IBM auch Varianten von Varianten definiert hat Schicht jis ("DBCS-PC", definiert im reinen Doppelbyte Code Seite 301 und in der variablen Breite verwendet Code Seite 932 und Code Seite 942) und von EUC-JP die das gesamte Repertoire von IBM Code Seite 300, einschließlich 28 Nicht-Kanji und 360, codieren Kanji Zusätzlich zu denen, die ursprünglich in JIS x 0208 enthalten sind (obwohl der Nicht-kanji Weil Zeichen ∵ und nicht unterschreiben ¬ wurden später 1983 zu JIS X 0208 hinzugefügt). Diese werden als "IBM-ausgewählte" Zeichen bezeichnet und werden beispielsweise als Erweiterungen in enthalten Windows -Code Seite 932.[3]

Einige neuere Überarbeitungen der IBM-300-Code-Seite fügen zusätzliche Kanji mit Lead-Bytes 0xB8 bis 0xD5 und zusätzliche Nicht-Kanji mit Lead-Bytes 0xD6 bis 0xE9 hinzu.[33] Diese Revision hat den Set für aktualisiert Jis x 0213, einschließlich der Eurozeichen und während des Beibehaltens des CPGID 300 wurde der neue CCSID 16684 zugewiesen.[35] Die Codeseiten IBM-930 (mit Code Seite 290 als Single-Byte-Set)[9] und IBM-939 (mit Code Seite 1027 als Single-Byte-Set)[13] Schließen Sie diese Ergänzungen aus, während IBM-1390 (mit der Euro-Zeichenversion von Code Seite 290 / CCSID 8482)[11] und IBM-1399 (mit der Euro-Zeichenversion von Code Seite 1027 / ccsid 5123)[15] schließen Sie sie ein.

In Hitachi Keis[31] (Kanji-Processing Extended Information System), die Sequenz 0x0A 0x41 Schaltet in den Single-Byte-Modus und die Sequenz um 0x0A 0x42 Schaltet in den Doppel-Byte-Modus.[a] JIS x 0208 Zeichen werden mit denselben Byte -Sequenzen codiert, die verwendet werden, um sie in zu codieren EUC-JP, d. H. Mit beiden Bytes zwischen 0xa1 und 0x inklusive. Dies führt zu doppelten Codierungen für die ideografischer Raum—0x4040 pro DBCS-Host-Codestruktur und 0xa1a1 wie in EUC-JP. Der Lead-Byte-Bereich wird jedoch auf 0x59 erweitert, von denen die Lead-Bytes 0x81-A0 für benutzerdefinierte Zeichen ausgewiesen sind.[1] Und der Rest wird für korporative Charaktere verwendet, einschließlich Kanji und Nicht-Kanji.[3]

In Fujitsu Jef[17] (Japanische Verarbeitung erweiterter Feature), 0x29 Schaltet in den Single-Byte-Modus und 0x28 Schaltet in den Doppel-Byte-Modus. Ähnlich wie bei Keis sind JIS X 0208-Codes wie in EUC-JP dargestellt.[1] Unterscheidet sich von Keis, die in dieser JEF -Zone verwendete JIS X 0208 -Ausgabe ist die ursprüngliche JIS C 6226: 1978.[31][17] Der Lead -Byte -Bereich wird auf 0x41 erweitert, wobei 0x80 - A0 für die Benutzerdefinition festgelegt ist. Lead -Bytes 0x41–7f werden Zeilennummern 101 bis 163 für zugewiesen Kuten Zwecke, obwohl Zeile 162 (Lead -Byte 0x7e) nicht genutzt wird.[1][3] Die Zeilen 101 bis 148 werden für erweiterte Kanji verwendet, während die Zeilen 149 bis 163 für erweiterte Nicht-Kanji verwendet werden.[3]

Fußnoten

  1. ^ Diese hexadezimalen Formen dieser Verschiebungssequenzen entsprechen den Dezimalformen (10 65 und 10 66) aufgeführt von Lunde.[1] Lunde listet die hexadezimalen Formen für beide Verschiebungen als 0xA0 0x42, scheinbar fehlerhaft.

Verweise

  1. ^ a b c d e f g h i j Lunde, Ken (2009). "Anhang F: Anbieter -Codierungsmethoden" (PDF). CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. ISBN 978-0-596-51447-1.
  2. ^ a b "Invariante Charakter -Set". IBM I 7.1 Dokumentation. IBM. 14. August 2018.
  3. ^ a b c d e f g Lunde, Ken (2009). "Anhang E: Anbieter -Charakter -Set -Standards" (PDF). CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. ISBN 978-0-596-51447-1.
  4. ^ "EBCDIK: Erweiterter binär codierter Dezimalstauschkana -Code". 通信 用語 の 基礎 知識 知識.
  5. ^ a b "Code -Seiten -Identifikatoren". Windows Dev Center. Microsoft.
  6. ^ Steele, Shawn. "Code Seite 21027" Extended/Ext Alpha -Kleinbuchstaben "". Microsoft.
  7. ^ "CCSID 8482". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  8. ^ "CCSID 5123". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  9. ^ a b c d "IBM-930_P120-1999". Internationale Komponenten für Unicode. Unicode -Konsortium.
  10. ^ "CCSID 930". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-12-01.
  11. ^ a b c d "IBM-1390_P110-2003". Internationale Komponenten für Unicode. Unicode -Konsortium.
  12. ^ "CCSID 1390". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  13. ^ a b c d "IBM-939_P120-1999". Internationale Komponenten für Unicode. Unicode -Konsortium.
  14. ^ "CCSID 939". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-12-01.
  15. ^ a b c d "IBM-1399_P110-2003". Internationale Komponenten für Unicode. Unicode -Konsortium.
  16. ^ "CCSID 1399". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  17. ^ a b c d e Izuno, Hidekatsu (20. Oktober 2021). "JEF4J: JEF Charset Support für Java". GitHub.
  18. ^ a b "Ebcdic / ebcdik の コード 表". Hitachi.
  19. ^ "JIS/EBCDIK -Konvertierungstabelle". FCOPY -Referenzhandbuch. Hewlett Packard. [1] HINWEIS: Tabelle in Quellkarten alle Eingabe -Bytes, manchmal zu Codes, die nicht tatsächlich definiert sind Jis x 0201, ist aber asymmetrisch und nicht immer Hin- und Rückfahrt. Die hier angezeigten Zeichen sind diejenigen, in denen die Tabellen in den Quell-Round-Trip-Kartenzeichen für Codes, die tatsächlich in JIS x 0201 definiert sind, tatsächlich definiert sind.
  20. ^ "Code Seite 00298" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  21. ^ "Code Seite 01027" (PDF). Registrierung: Grafische Zeichensätze und Codeseiten. IBM. 1999.
  22. ^ "Code Seite 01027" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  23. ^ "Code Seite 01031" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  24. ^ "Code Seite 01136" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  25. ^ "Ebcdic カナ 文字 から の 変換". コード 変換 マニュアル - はじめ に (Hulft8) (auf Japanisch). Saisoninformationssysteme.
  26. ^ Koizumi, Moriyoshi. "Ebcdic-kana".
  27. ^ "Code Seite 00290" (PDF). Registrierung: Grafische Zeichensätze und Codeseiten. IBM. 1999.
  28. ^ "Code Seite 00290" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  29. ^ "Code Seite 00887" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  30. ^ "Code Seite 01030" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  31. ^ a b c d e "付録 k.3 文字 コード 変換 変換 変換 変換 変換 変換 変換 変換 変換 変換 文字 付録 付録 付録 k.3 文字 変換 コード 文字 文字 付録 付録 付録 k.3 文字 コード 文字 文字 付録 付録 付録 k.3 文字 文字 文字 文字 付録 付録 k.3 文字 文字 文字 付録 付録 付録 k.3 文字 文字 文字 文字 付録 付録 付録 k.3 文字 文字 文字 文字 付録 k.3 文字 文字 文字“. Hitachi.
  32. ^ "2 Codesets und Codeset Conversion". Digitale Unix -technische Referenz für die Verwendung japanischer Funktionen. Compaq.
  33. ^ a b c d "IBM Japanische Grafik -Charakter -Set, Kanji" (PDF). IBM. 1999. IBM-Unternehmensspezifikation C-H 3-3220-024.
  34. ^ "IBM-1364_P110-2007". Internationale Komponenten für Unicode. Unicode -Konsortium.
  35. ^ "CCSID 16684". Codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.