JIS X 0201

Jis x 0201
JIS-C-6220.svg
JIS X 0201 8-Bit-Code-Seite
Mime / Iana 8 Bit: Jis_x0201
7-Bit Roman: JIS_C6220-1969-RO
7-Bit Kana: JIS_C6220-1969-JP
Alias ​​(e) JIS C 6220
8 Bit: cshalfwidthkatakana
römisch: ISO646-JP, ISO-IR-14
Kana: ISO-IR-13, x0201-7
Sprachen) japanisch (Grundunterstützung), Englisch
Standard JIS X 0201: 1969
Einstufung ISO 646, Erweitert ISO 646
Vorausgegangen von Wabun -Code, Jis c 0803
gefolgt von Schicht jis
Andere verwandte Kodierungen (en) N-Byte Hangul Code

Jis x 0201, a Japanischer Industriestandard entwickelt 1969 (damals genannt JIS C 6220 Bis zur Reform der JIS -Kategorie) war die erste japanische Elektronik Zeichensatz weit verbreitet werden. Es handelt sich entweder um eine 7-Bit-Codierung oder eine 8-Bit-Codierung Unicode, z.B. UTF-8 übernahm). Der vollständige Name dieses Standards ist 7-Bit- und 8-Bit-codierte Zeichensätze zum Informationsaustausch (7ビット及び8ビットの情報交換用符号化文字集合).

Die ersten 96 Codes umfassen eine ISO 646 Variante, meistens folgt ASCII Mit einigen Unterschieden, während die zweiten 96 -Zeichen -Codes das phonetische Japanisch darstellen Katakana Zeichen. Da die Codierung keine Möglichkeit bietet, auszudrücken Hiragana oder KanjiEs ist nur in der Lage, vereinfachte geschriebene Japaner auszudrücken. Trotzdem ist es möglich, zumindest phonetisch den gesamten Klangbereich in der Sprache auszudrücken. In den 1970er Jahren war dies für Medien wie Computerterminals, Telegramme, Quittungen oder andere elektronisch behandelte Daten akzeptabel.

JIS X 0201 wurde durch nachfolgende Codierungen wie z. Schicht jis (was diesen Standard kombiniert und Jis x 0208) und später Unicode.

Geschichte

Das Comite Consultatif International Telephonique ET Telegraphique (Ccitt) stellte die vor Internationales Telegraph Alphabet Nr. 2 (ITA2) Code als internationaler Standard, der die 5-Bit-lateinische Codierung war. Die meisten Länder haben ihre eigenen nationalen Standards, die darauf beruhen. In Japan stand der Agentur für Industriewissenschaft und Technologie (AIST) als 6-Bit-Charaktercodes von JIS C 0803-1961 (Tastaturlayout und Codes für Teleprinters), die mit Katakana -Charakteren kombiniert. Es stimmte jedoch nicht mit den Industrieanforderungen überein, da die Charakterkarte klein war und das Code -Layout unpraktisch war. Der AIST betrachtete eine praktische Charakter -Codierung, um verschiedene in Japan verwendete Codes zu ersetzen.[1]

1963 führte ISO einen Entwurf von ISO R 646 vor (6- und 7-Bit-codierte Zeichensätze für Informationsverarbeitungsaustausch). AIST hat die Konjunktion von ISO R 646 und Katakana Mapping an die verpflichtet Informationsverarbeitungsgesellschaft Japans (Ipsj). IPSJ bildete das Code -Standardisierungsausschuss. Das Komitee hat die 6-Bit-Form von ISOs Entwurf nicht angenommen, weil das Katakana-Set nicht in seine Charakterkarte passen konnte. Der frühe Jis -Entwurf kartierte kleine Katakana -Charaktere neben jeder ihrer normalen Katakana -Charaktere. Es wurde als zweckmäßig angesehen, um nach dem Sortieren zu sein Gojūon bestellen. Einige Mitglieder des Komitees kritisierten, dass dies den Mechaniker der Tastaturen erschweren würde, die nur normale Katakana -Charaktere abwickelten. Der spätere Entwurf kartierte kleine Katakana-Charaktere auf Positionen 0xa7-0xaf. Im Jahr 1966 gab der vierte Entwurf von ISO das nationale Währungssymbol am 0x24 an, und das JIS -Komitee plante, die abzubilden Yen Zeichen. Die erste Ausgabe von ISO 646 wurde 1967 veröffentlicht. Sie spezifizierte die ASCII - Dollarzeichen 0x24 als invariantes Charakter, also beschloss das JIS -Komitee, die ASCII zu ersetzen Backslash 0x5c (eines der Varianten) mit dem Yen -Zeichen.

Jis c 6220 (Codes für den Informationsaustausch, 情報 交換 用 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号 符号) 7-Bit- und 8-Bit-codierte Zeichensätze zum Informationsaustausch (7 ビット 及び 8 ビット の 情報 交換 用 符号 符号 文字 集合 集合 集合) in der Ausgabe von 1990.

Der Zeichensatz von JIS X 0201 war in Japan weit verbreitet. The Nationwide Banking Data Communication System (全国銀行データ通信システム), the largest funds transfer system in Japan, was established in 1973. Transaction messages between banks used a subset of JIS X 0201. The system was used until 2018, and it was replaced durch das Zedi (das landesweite Banking Electronic Data Interchange System 全 銀 銀 システム システム), das mit Hiragana- und Kanji -Charakteren umgehen könnte.[2] 1978 der JIS C 6226 (Jis x 0208) 2-Byte-Charakter-Set wurde entwickelt, um Hiragana- und Kanji-Charaktere auszudrücken. Es enthält Katakana -Charaktere, aber ihre Codes und ihr Layout unterscheiden Microsoft Kanji -Codierungsschema (Codepage 932 von MS-DOS) und Digitale ForschungSJC26 (für Japanisch CP/M-86) wurden entwickelt, um JIS x 0201 Single-Byte-Codierung und JIS x 0208 Doppel-Byte-Codierung ohne zu kombinieren verschieben und verschieben Figuren.[3] Sie wurden gerufen Schicht jis, was zum industriellen Standard für PCs wurde.

Implementierungsdetails

7-Bit Roman (verschieben) einstellen
7-Bit-Kana-Set (Verschiebung)

Die erste Hälfte (Roman -Set) von Jis x 0201 ist eine japanische Variante von ISO 646, entspricht ASCII mit Backslash (\) und Tilde (~) ersetzt durch Yen (¥) und überaus (‾),[4] Während die zweite Hälfte (Kana -Set) hauptsächlich aus besteht Katakana. Steuerzeichen sind in angegeben Jis x 0211.

Im 7-Bit-Format die verschieben Steuerzeichen (0x0e) schaltet zum Kana -Set und verschieben (0x0f) Schaltet zum römischen Satz.[5][6] Im 8-Bit-Format werden Bytes mit dem signifikantesten Bit-Set (d. H. 0x80–0xff) für den kana-Set verwendet und Bytes mit IT nicht festgelegt (d. H. 0x00–0x7f) verwendet.

Namen, die speziell für das 7-Bit-Roman-Set verwendet werden, umfassen "Jiscii",[7] "Jis roman",[8] "ISO646-JP",[9][10] "JIS C6220-1969-RO",[10][9] "Japanisch-roman",[11] "Japan 7-Bit Latein",[12] und "ISO-IR-14",[9][10][6] Namensnamen, die speziell für das 7-Bit-Kana-Set verwendet werden, umfassen "ISO-IR-13",[5][9][10] "JIS C6220-1969-JP"[9][10] und "x0201-7".[9][10]

Die Substitution des Yen -Symbols für Backslash kann Wege aufnehmen DOS und Fenster-Basierte Computer mit japanischer Unterstützung seltsamerweise wie "C: ¥ -Programmdateien ¥" zum Beispiel.[13] Ein weiteres ähnliches Problem ist C Programmiersprache's Kontrollfiguren von String -Literale, wie printf ("Hallo, Welt. ¥ n");.

Codepage -Layout

Die folgende Tabelle ist der ursprüngliche 8-Bit-codierte Zeichensatz von JIS x 0201 (wobei der von Bytes mit dem hohe Bit-Set angegebene Kana-Set angezeigt wird).[14][15]

8-Bit-Form von jis x 0201-1997
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x C0 -Codes[a]
1x
2x  Sp  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ ¥ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } Del
8x C1 -Codes oder leerer Block[a]
9x
Axt
BX ソ
CX
Dx
Ex
Fx
 Unterschiede aus ASCII

Als Teil von Shift Jis

Im Folgenden wird die für JIS x 0201 als Teil von verwendete Zuordnung verwendet Schicht jis,[16][17] d.h. die 8-Bit-Form von JIS x 0201 anzeigen und die Katakana-Zeichen auf die Halbbreiten- und Vollbreitenformen Block (was wiederum seine ableitet Halbbreite Kana Layout von jis x 0201).

Single-Byte-Zeichensatz von Verschiebungsjis
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x
1x
2x  Sp  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ ¥ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | }
8x
9x
Axt
BX ソ
CX
Dx
Ex
Fx
 Erste Bytes von Doppel-Byte-Verschiebungs-JIS-Charakteren.[3]

Alternative Kartierung von Katakana

Das Basis ISO-2022-JP Das Profil erlaubt nicht die kana -Menge von Jis x 0201, nur der römische Satz und Jis x 0208 (Obwohl ISO 2022 / jis x 0202 selbst es zulässt). Dementsprechend konvertieren Katakana (oder Unicode Halbbreite Kana, die das gleiche Layout verwenden) zu ISO-2022-JP, wird häufig die folgende Zuordnung oder Transformation verwendet.[19] Dadurch kann das Kana in JIS X 0208 umgewandelt werden.

Theoretisch ist diese Zuordnung gleichermaßen korrekt wie Jis x 0201 selbst Gibt nicht an Anzeigebreite, wenn auch in der Praxis (und insbesondere in Duospacation Umgebungen) JIS X 0201 wird für die halbe Breite Katakana verwendet.

Für den einfachen Vergleich mit dem obigen Diagramm wird die Zuordnung unten über die Katakana -Kodierung von JIS X 0201 und mit dem hohen Bit -Set gezeigt.

Jis x 0208 kompatible Zuordnungen für JIS x 0201 Katakana[20]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
Axt
BX
CX
Dx [b] [c]

Varianten und Erweiterungen

Schicht jis

Implementierungen von IBM

Code Seite 897 ist IBMImplementierung der 8-Bit-Form von JIS x 0201. Sie enthält mehrere zusätzliche grafische Zeichen in der C0 -Steuerzeichen Bereich und die fraglichen Codepunkte können je nach Kontext als Steuerzeichen oder grafische Zeichen verwendet werden.[22] ähnlich im Konzept zu Oem-us, aber mit unterschiedlichen grafischen Zeichen. Die C0 -Zeilen sind unten angezeigt. IBM bezeichnet auch reine 8-Bit-JIS x 0201 ohne diese Steuercode-Austausche als Code Seite 1139.[23] Eine andere Variante, einschließlich einer kleineren Teilmenge dieser C0 -Ersatzgrafiken (einschließlich der Box -Zeichnungszeichen in 0x01–06, 0x11, 0x15–17 und 0x19 und die Zeilen-/Pfeilzeichen in 0x1b - 1F), jedoch einen anderen Stil von UP verwenden -Pfeil ( U+21E7 ) bei 0x1c ist benannt Code Seite 1086.[24]

Code Seite 897, Zeilen 0x00 und 0x10 nur[29]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x Nul BS Lf Ff Cr
1x DC1 DC3 KANN

IBM implementiert auch den 7-Bit-Roman-Satz von Jis x 0201 als Code Seite 895[30] und das 7-Bit-Kana-Set als Code Seite 896 für den Gebrauch als ISO 2022 oder EUC-JP Code-Sets. Code Seite 896 definiert zusätzlich zu Standard -JIS X 0201 -Zuweisungen fünf zusätzliche Zuordnungen, die unten angezeigt werden.[31] Obwohl die Verwendung dieser erweiterten Zeichen von den zugehörigen nicht zulässig ist Ccsid 896,[32] Sie sind vom alternativen CCSID 4992 gestattet.[33]

Code Seite 896, Zeile 0x60 Nur[31]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
6x ¢ £ ¬ \ ~

IBM Code Seite 1041 ist eine erweiterte Version von Code Seite 897, die diese fünf erweiterten IBM Codierung kodiert[34] Charaktere an alternativen Stellen, die mit kompatibel sind mit Schicht jis (jeweils 0x80, 0xa0, 0xfd, 0xfe und 0xff).[35] Code Seite 911, Eine weitere erweiterte 8-Bit-JIS X 0201-Implementierung (die dieselbe C0-Ersatzgrafik wie Code verwendet.£) bei 0xe1, ähnlich wie der Code Seite 896 mit dem achtbitischen Satz, unterscheidet sich jedoch durch Codierung des Cent -Zeichens ((¢) bei 0xe2 und das nicht signifikant (¬) bei 0xe3.[36]

IBM Code Seite 903 wird für die Verwendung als Einzel -Byte -Komponente bestimmter bestimmt codiert vereinfachtes Chinesisch Charaktercodierungen,[37] Begleitung der ASCII-basierend Code Seite 904 benutzt mit traditionelles Chinesisch Codierungen.[38][39] Trotzdem folgt die Code Seite 903 ISO 646-JP / der römischen Hälfte von JIS x 0201, da er den ASCII-Backslash 0x5c ersetzt (und nicht das ASCII-Dollar-Zeichen 0x24 wie in GB 1988 / ISO 646-CN) mit dem Yen/Yuan -Zeichen. Es verwendet auch die gleichen C0 -Ersatzgrafiken wie Code Seite 897.[40] Code Seite 1042 Erweitert die Code Seite 903 mit dem Pfund (Sterling) -Schild bei 0x80 und dem nicht-signalen, Backslash und Tilde an ihren Code Seite 1041.[41]

Andere

Fußnoten

  1. ^ a b Steuerzeichen sind in angegeben Jis x 0211.
  2. ^ Wird kartiert, um dem zu entsprechen Jis x 0208 Zeichen (auf U+309b zugeordnet), nicht Kompatibilitätsnormalisierung (Was u+3099 wäre, die kombinierende Version).[21]
  3. ^ Wird kartiert, um dem zu entsprechen Jis x 0208 Zeichen (auf U+309c zugeordnet), nicht Kompatibilitätsnormalisierung (Was u+309a wäre, die kombinierende Version).[21]

Verweise

  1. ^ 行政 管理 庁 (die Agentur für Verwaltungsmanagement) (1968). 行政 における 電子 計算機 の 同 利用 に 関する 調査 研究 報告書 報告書 (auf Japanisch).行政 事務 機械化 研究 協会. S. 108–113. OCLC 703804474.
  2. ^ "". Nikkei X-Tech. 2017-11-30. Abgerufen 2019-07-24.
  3. ^ a b 西田, 憲正 (1983-12-19). "Unix 風 の 機能 を だ 日本語 ms-dos 2.0 の と 内部 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 だ だ 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 だ だ だ 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 だ 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 だ 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 構造 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 日本語 構造 構造 構造. 日経 エレクトロニクス (auf Japanisch). Nikkei McGraw-Hill: 165–190. ISSN 0385-1680.
  4. ^ "3.1.1 Details zu Problemen". Probleme und Lösungen für Unicode- und Benutzer-/Anbieter definierte Zeichen. Die offene Gruppe Japan. Archiviert von das Original Am 1999-02-03. Abgerufen 2019-04-15.
  5. ^ a b Japanische Industriestandardskomitee. ISO-IR-13: Die japanische Katakana-Grafik von Charakteren (PDF). Itcj/Ipsj.
  6. ^ a b Japanische Industriestandardskomitee. ISO-IR-14: Die japanische römische Grafikmenge von Zeichen (PDF). Itcj/Ipsj.
  7. ^ "IBM-943 und IBM-932", IBM Knowledge Center, IBM
  8. ^ "KunicodeForceasciirangemask", Apple Developer -Dokumentation, Apple Inc
  9. ^ a b c d e f RFC 1345
  10. ^ a b c d e f "Charaktersätze". Iana.
  11. ^ Da Cruz, Frank (2010-04-02), "Kermit und MIME-Charakter-Set-Namen", Kermit Project, Universität von Columbia
  12. ^ "CP 00895", IBM Globalisierung - Code -Seiten -Kennungen, IBM, 9. November 2020
  13. ^ Kaplan, Michael S. (2005-09-17). "Wann ist ein Backslash kein Backslash?".
  14. ^ JIS X 0201-1997 (auf Japanisch). Japanische Standardvereinigung. 1997-02-28. p. 17.
  15. ^ Unicode Consortium (2015-12-02). "JIS X 0201 (1976) an Unicode 1.1 Tabelle". unicode.org. Abgerufen 2021-10-01.
  16. ^ "IBM-943_P130-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  17. ^ Apple Inc (2005-04-05) [1995-04-15]. "Japanisch.txt: map (externe Version) von Mac OS Japanische Codierung zu Unicode 2.1 und später". Unicode -Konsortium.
  18. ^ Van Kesteren, Anne (2019-02-11). "12.2.2. ISO-2022-JP-Encoder". Codierungsstandard. Waswg.
  19. ^ Das Waswg Der Codierungsstandard verwendet beispielsweise als Transformation bei der Codierung von Unicode-Halbbreitenkana-Daten zu ISO-2022-JP.[18]
  20. ^ Van Kesteren, Anne (2018-01-06). "Index ISO-2022-JP Katakana". Codierungsstandard. Waswg.
  21. ^ a b Van Kesteren, Anne (2019-02-11). "5. Indizes". Codierungsstandard. Waswg.
  22. ^ "Code -Seiten -Kennungen - CP 00897". IBM Globalisierung. IBM. Archiviert von das Original Am 2016-03-17.
  23. ^ "Code Seite 01139" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08. Abgerufen 2021-10-22.
  24. ^ "Code Seite 01086" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08. Abgerufen 2021-10-22.
  25. ^ "CP00897.pdf" (PDF). IBM. Archiviert (PDF) vom Original am 2019-01-12. Abgerufen 2017-12-05.
  26. ^ "CP00897.txt". IBM. Archiviert vom Original am 2019-01-12. Abgerufen 2017-12-05.
  27. ^ "Converter Explorer-IBM-943_P130-1999". ICU -Demonstration. Internationale Komponenten für Unicode.
  28. ^ "Codierte Zeichensatzkennungen - CCSID 943". IBM Globalisierung. IBM. Archiviert von das Original Am 2016-03-15.
  29. ^ Grafiken sind pro CP00897.PDF und CP00897.TXT von IBM bereitgestellt.[25][26] Kontrollen werden in Abwesenheit einer grafischen Funktion aufgeführt oder wo sie sich von ASCII unterscheiden, gemäß IBM-943_P130-1999 Codec, der von IBM an bereitgestellt wurde. Internationale Komponenten für Unicode[27] (IBM-943 ist eine Code Seite 897 Superset).[28] Sub ist 0x7f zugewiesen.
  30. ^ "CP00895.pdf" (PDF). IBM. Archiviert (PDF) vom Original am 2017-12-08. Abgerufen 2017-12-06.
  31. ^ a b "CP00896.pdf" (PDF). IBM. Archiviert (PDF) vom Original am 2019-01-12. Abgerufen 2017-12-05.
  32. ^ "Codierte Zeichensatzkennungen - CCSID 896". IBM Globalisierung. IBM. Archiviert von das Original am 2016-03-26.
  33. ^ "Codierte Zeichensatzkennungen - CCSID 4992". IBM Globalisierung. IBM. Archiviert von das Original am 2016-03-27.
  34. ^ "11.2 - IBM Extended SBCs Set" (PDF). IBM Japanischer Grafikzeichen für Extended Unix Code (EUC).IBM.p.315. Archiviert (PDF) vom Original am 2019-01-12. Abgerufen 2017-12-07.
  35. ^ "CP01041.pdf" (PDF). IBM. Archiviert (PDF) vom Original am 2019-01-12. Abgerufen 2017-12-05.
  36. ^ "Code Seite 00911" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08. Abgerufen 2021-10-22.
  37. ^ "Code -Seiten -Kennungen - CP 903". IBM Globalisierung. IBM. Archiviert von das Original Am 2016-03-17.
  38. ^ "Codierte Zeichensatzkennungen - CCSID 904". IBM Globalisierung. IBM. Archiviert von das Original am 2016-03-27.
  39. ^ "CP00904.pdf" (PDF). IBM. Archiviert (PDF) vom Original am 2019-01-12. Abgerufen 2018-05-11.
  40. ^ "CP00903.pdf" (PDF). IBM. Archiviert (PDF) vom Original am 2019-01-12. Abgerufen 2018-02-17.
  41. ^ "Code Seite 01042" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.

Externe Links