Code Seite 950

Code Seite 950
Code-page-950.svg
Code Seite 950 Layout wie von Microsoft (Top, MS-950 oder IBM-1373) und IBM (unten, IBM-950) implementiert.
Sprachen) Traditionelles Chinesisch
Erstellt von Microsoft
Erweitert Die großen 5
Bezogen auf Big5-ten

Code Seite 950 ist der Codepage benutzt auf Microsoft Windows zum Traditionelles Chinesisch. Es ist Microsoft -Implementierung der de facto Standard Die großen 5 Zeichenkodierung. Die Code -Seite ist nicht mit registriert mit Iana,[1] und daher ist es kein Standard, Informationen über das Internet zu kommunizieren, obwohl es normalerweise einfach als einfach als als bezeichnet wird big5, einschließlich von Microsoft Library -Funktionen.[2]

Terminologie und Varianten

Der Hauptunterschied zwischen Windows-Code-Seite 950 und "gemeinsam" (nicht-förderspezifisch) Big5 ist die Einbeziehung einer Teilmenge der Eten Erweiterungen zu Big5 bei 0xF9d6 bis 0xf9fe (bestehend aus den sieben chinesische Charaktere 碁, 銹, 裏, 墻, 恒, 粧 und 嫺, gefolgt von 34 Box Zeichnungszeichen und Blockelemente). Die Bereiche, die einige der anderen erweiterten ETen -Zeichen verwendet haben, werden stattdessen definiert als Endbenutzer definierte (private Verwendung) Zeichen.[3]

IBM Ccsid 950 umfasst Single Byte Code Seite 1114 (CCSID 1114) und Doppel -Byte Code Seite 947 (CCSID 947),[4][5][6] Und während sich auch eine Big5 -Variante unterscheidet, unterscheidet sich etwas von Microsofts Code -Seite 950 mit einigen der ETEN -Erweiterungen für Lead -Bytes 0xa3.[7] 0xc6,[3][8] 0xc7[9] und 0xc8,[3][10] Wenn Sie diejenigen mit Lead -Byte 0xf9 weglassen (was Microsoft enthält), haben Sie sie stattdessen auf die abgebildet Privatnutzungsbereich Als benutzerdefinierte Zeichen.[3][11] Es umfasst auch zwei Nicht-ANDE-Erweiterungsregionen mit Trail-Bytes 0x81-A0, d. H. Außerhalb der üblichen Big5-Trail-Byte-Reichweite, jedoch ähnlich dem Big5+ Trail-Byte-Bereich: Area 5 verfügt 9 hat Lead-Bytes 0x81–8c und ist eine benutzerdefinierte Region.[12]

Microsoft hat ihre Version von Code Page 950 im Jahr 2000 aktualisiert und die hinzugefügt Eurozeichen (€) beim Doppel-Byte-Code 0xa3e1. IBM bezieht sich auf das Euro-Zeichen-Update ihrer Big-5-Variante als CCSID 1370 (Dazu gehören sowohl Single-Byte (0x80) als auch Doppel-Byte-Euro-Zeichen).[13] Es umfasst ein Byte -Code -Seite 1114 (CCSID 5210) und Doppel -Byte -Code Seite 947 (CCSID 21427).[13][14][15]

Für eine bessere Kompatibilität mit der Variante von Microsoft in IBM DB2IBM definiert auch das reine Doppelbyte Code Seite 1372[16] und zugehörige variable Breite CCSID 1373, einschließlich nur das Doppel-Byte-Euro-Zeichen[17] und entspricht dem Microsoft -Verhalten, in dem Erweiterungsregionen enthalten sind.[18][19][20][21][22]

Einzel -Byte -Codes

Im Folgenden sind die von IBM enthaltenen Einzelbyte-Grafikzeichen aufgeführt. Die Codes 0x00, obwohl 0x1f und 0x7f verwendet werden können C0 -Steuercodes Stattdessen abhängig vom Kontext (vergleichen Code Seite 437, Code Seite 897). Wie oben erwähnt, ist das Single-Byte-Euro-Zeichen bei 0x80 weder in IBM CCSIDs 950 oder 1373 noch von Microsoft enthalten.

Code Seite 1114[23][24]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x
1x §
2x  Sp  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
8x

Der Rest sind Teile einer Doppel -Byte -Sequenz.

Nutzung des privaten Gebrauchsgebiets

Mapping von Big5 Eudc zu Pua Codepunkte[25]
Big5 Range Unicode -Bereich Formel[26]
81 40–8d Fe U+eeb8–u+f6b0 0xeeb8 + (157 * (H-0x81)) + (l <0x80)? (L-0x40) :( L-0x62)
8e 40 - A0 Fe U+E311 - U+EEB7 0xe311 + (157 * (H-0x8e)) + (l <0x80)? (L-0x40) :( L-0x62)
C6 A1 - C8 Fe U+F6B1 - U+F848 0xf672 + (157 * (H-0xc6)) + (l <0x80)? (L-0x40) :( L-0x62)
Fa 40 - fe fe U+E000 - U+E310 0xe000 + (157 * (H-0xfa)) + (l <0x80)? (L-0x40) :( L-0x62)

Diese Zuordnung wird auch in verwendet Hkscs wobei eine bestimmte Glyphe in der angegebenen Unicode -Revision noch nicht zu finden ist.[27]

Siehe auch

  • LMBCS-18
  • Code Seite 951, ein Microsoft-Hack zum Ersetzen von CP950 durch eine HKSCS-fähige Version unter Windows XP

Verweise

  1. ^ "Charaktersätze". IANA - Protokollregister.
  2. ^ "Coding.WindowsCodePage -Eigenschaft - .NET Framework (aktuelle Version)". Msdn. Microsoft.
  3. ^ a b c d Zhu, Hf.; Hu, Dy.; Wang, Zg.; Kao, TC.; Chang, Wch.; Crispin, M. (1996). "Chinesische Charaktercodierung für Internetnachrichten". Anfragen nach Kommentaren. Ietf. doi:10.17487/rfc1922. RFC 1922.
  4. ^ "CCSID 950 Informationsdokument". Archiviert von das Original Am 2014-12-02.
  5. ^ "CCSID 1114 Informationsdokument". Archiviert von das Original am 2016-03-27.
  6. ^ "CCSID 947 Informationsdokument". Archiviert von das Original Am 2014-12-01.
  7. ^ "Lead Byte A3: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  8. ^ "Lead Byte C6: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  9. ^ "Lead Byte C7: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  10. ^ "Lead Byte C8: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  11. ^ "Lead Byte F9: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  12. ^ "IBM traditioneller chinesischer Grafikzeichen für IBM Big-5-Code" (PDF). IBM. 1999. C-H 3-3220-131 1999-04.
  13. ^ a b "CCSID 1370 Informationsdokument". Archiviert von das Original am 2016-03-27.
  14. ^ "CCSID 5210 Informationsdokument". Archiviert von das Original Am 2014-11-29.
  15. ^ "CCSID 21427 Informationsdokument". Archiviert von das Original am 2016-03-27.
  16. ^ "CPGID 01372: MS T-Chinese Big-5 (Special für DB2)". IBM Globalisierung - Code -Seiten -Kennungen. Archiviert von das Original Am 2016-03-17.
  17. ^ "IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  18. ^ "Lead Byte A3: IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  19. ^ "Lead Byte C6: IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  20. ^ "Lead Byte C7: IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  21. ^ "Lead Byte C8: IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  22. ^ "Lead Byte F9: IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  23. ^ Code Seite CPGID 01114 (PDF) (PDF), IBM
  24. ^ Code Seite CPGID 01114 (TXT), IBM
  25. ^ "Windows Best Fit Chart: CP950". unicode.org. Abgerufen 13. September 2016.
  26. ^ "Die großen 5". Kanji -Datenbank. Abgerufen 13. September 2016.
  27. ^ "Big5-Hkscs: 2008". Archiviert von das Original Am 2016-09-13.

Externe Links