Einheitlicher Hangul -Code

Einheitlicher Hangul -Code
Unified Hangul Code.svg
Layout des einheitlichen Hangul -Codes
Alias ​​(e) Windows -Code -Seite 949, IBM -Code Seite 1363
Sprachen) Koreanisch
Standard Whatwg Codierungsstandard (als "EUC-KR")[1]
Einstufung Erweitert ISO 646,[a] Codierung der variablen Breite, CJK -Codierung
Erweitert EUC-kr
Andere verwandte Kodierungen (en) KPS 9566-2003, KPS 9566-2011
  1. ^ Nicht im strengsten Sinne des Begriffs, da ASCII -Bytes als Trail -Bytes erscheinen können, obwohl dies auf Buchstaben Bytes beschränkt ist.

Einheitlicher Hangul -Code (Uhc),[2][a] oder Verlängerte Wansung,[4][b] auch unter bekannt Microsoft Windows wie Code Seite 949 (Windows-949, MS949 oder mehrdeutig CP949), ist das Microsoft Windows Codepage für die koreanische Sprache. Es ist eine Erweiterung des Wansung -Code (KS C 5601: 1987, codiert als EUC-kr) alle 11172 unparteiischen Einbeziehung einbeziehen Hangul Silben vorhanden in Johab (KS C 5601: 1992 Anhang 3).[4][2] Dies entspricht dem vor komponierte Silben verfügbar in Unicode 2.0 und später.

Wansung Code hat den Nachteil, dass er nur Codes für die 2350 vorkomponierten Hangul -Silben zuweist, die ihre eigenen haben KS x 1001 (KS C 5601) CodePoints (insgesamt von 11172, nicht diejenigen, die veraltete JAMO verwenden), und verlangt von anderen, dass sie acht Byte-Kompositionssequenzen verwenden, die nicht durch einige teilweise Implementierungen des Standards gestützt werden.[5] UHC beschreibt dies, indem sie einzelne Codes für alle möglichen Silben zugewiesen, die mit modernen JAMO konstruiert wurden, indem Zuordnungen außerhalb des für KS x 1001 verwendeten Codierungsraums erstellt werden.

Der Blei -Byte -Bereich wird auf erweitert auf 0x81-Fe, und der Trail-Byte-Bereich wird auf 0x41–5a, 0x61–7a und 0x81-FE (in EUC-kr) verlängert (in EUC-Kr sind beide Bereiche 0xa1-Fe). Die Codes außerhalb der EUC-KR-Bereiche werden für den zusätzlichen Hangul verwendet.[6] Wenn sie getrennt betrachtet werden, sind sowohl der EUC-Kr-Hangul-Block als auch der UHC Extended Hangul-Abschnitt in Unicode-Reihenfolge.[1]

Terminologie

Einheitlicher Hangul -Code ist nicht mit registriert mit Iana als Standard zur Kommunikation von Informationen über das Internet.[7] Alternativen umfassen UTF-8. Allerdings die W3c/Waswg Codierungsstandard verwendet von HTML5 Integriert die einheitlichen Hangul-Code-Erweiterungen in seine Definition von "EUC-KR".[1]

Microsoft weist Windows-949 das Etikett "KS_C_5601-1987" zu,[8][9] die ordnungsgemäß gilt für KS x 1001 sich selbst (KS C 5601 der ursprüngliche Name von KS x 1001).[10] Das whatwg behandeln das Etikett "KS_C_5601-1987" austauschbar mit "EUC-KR", um "kompatibel mit bereitgestellten Inhalten" zu sein.[11] Das Unicode -KonsortiumDie Sammlung von zurückgezogenen Zuordnungen "veraltet/ostasia" enthielt Zuordnungen für Unified Hangul Code als "kSC5601.txt", wobei die automatisch abgeleiteten Zuordnungen für 7-Bit-KS x 1001 als "kSX1001.txt" enthalten sind.[12]

IBMs Code Seite 949 ist eine andere, ansonsten nicht verwandte Erweiterung von EUC-KR. Internationale Komponenten für Unicode (ICU) verwendet "CP949", "949" oder "IBM-949", um auf diese Seite IBM-Code zu verweisen.[13] und "MS949" oder "Windows-949" (oder mehrere Varianten von "KS_C_5601-1987"), um sich auf die Windows-Zuordnung von UHC zu beziehen.[14] PythonIm Gegensatz dazu erkennt "CP949", "949", "MS949" und "UHC" als Etiketten für UHC und enthält keinen IBM-949-Codec.[15] Von den Beschriftungen mit der Code-Seitennummer erkennt der Whatwg nur "Windows-949".[11]

Die Codeseite von IBM für Unified Hangul Code heißt Code Seite 1363 (IBM-1363) oder "Koreanische MS-Win". Es ist eine Kombination von SBCS Code Seite 1126 und DBCs Code Seite 1362.[16][17][18][19][20] Es unterscheidet sich darin, eine einzelne Byte -Zuordnung von 0x5c auf die Gewonnenes Zeichen (U+20A9);[21][22][23] Windows Maps 0x5c zu U+005C (der Unicode -Codepunkt für die Backslash) wie in ASCII,[14] Obwohl Schriftarten es oft immer noch als gewonnenes Zeichen machen.[24] Unicode -Mapping des Wellenhreises (0xa1ad) unterscheidet sich ebenfalls, wobei die IBM -Mapping U+301c bevorzugt.[25] während der Microsoft -Mapping u+223c (Tilde -Operator) begünstigt.[26] Die IBM-Zuordnung für UHC ist auf der Intensivstation als "IBM-1363" erhältlich.[21] Während die Intensivstation "Windows-949" -Codec in einigen Kommentaren für den Quellcode in ICU als IBM-1261 bezeichnet wird.[27]

Einzel -Byte -Codes

Im Folgenden finden Sie den Einzelbyte-Teil der Code-Seite, wie von IBM definiert. ähnlich zu Code Seite 437, das Kontrollcode Bytes können je nach Kontext als Kontrollcodes oder grafische Codes verwendet werden - die grafischen Codes sind nachstehend gezeigt. Microsoft verwendet ASCII -Zuordnungen für alle ASCII -Bytes gewonnenes Zeichen.

Code Seite 1126[28][29][30][31]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x Nul
1x
2x  Sp  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
 Unterschiede aus Code Seite 437

Fußnoten

  1. ^ Koreanisch: 통합형 한글 코드[3], romanisiert:Tonghabhyeong Hangeul Kodeu
  2. ^ Koreanisch: 확장 완성형, romanisiert:Hwagjang Wanseonghyeong

Verweise

  1. ^ a b c Van Kesteren, Anne, "5. Indizes (§ Index EUC-kr)", Codierungsstandard, Waswg
  2. ^ a b "Info: Hangul (koreanische) Charakter -Sets", Microsoft -Unterstützung, Microsoft
  3. ^ "한글 코드 에 대하여" (in Koreanisch). W3c.
  4. ^ a b ZSigri, Gyula (2002-06-18). "KSC und UHC".
  5. ^ Shin, Jungshik. "Was sind KS x 1001 (KS C 5601) und andere Hangul -Codes?". Hangul & Internet in Korea FAQ.
  6. ^ Lunde, Ken (13. Januar 2009). "Anhang F: Anbieter -Codierungsmethoden" (PDF). CJKV -Informationsverarbeitung (2. Aufl.). O'Reilly Media. ISBN 978-0-596-51447-1.
  7. ^ "Charaktersätze". Iana.org. Abgerufen 2017-01-11.
  8. ^ "Coding.WindowsCodePage -Eigenschaft - .NET Framework (aktuelle Version)". Msdn. Microsoft.
  9. ^ "Code -Seiten -Identifikatoren", Windows Dev Center, Microsoft
  10. ^ IBM; Unicode -Konsortium. "concrtrs.txt". Internationale Komponenten für Unicode. v. 59180.0.1. [...] using KS C 5601 or related names to denote EUC-KR or windows-949 is very much misleading [...] It's just the name of a 94 x 94 Korean coded character set standard which can be invoked on either GL (with MSB reset) or GR (with MSB set).
  11. ^ a b Van Kesteren, Anne. "4.2. Namen und Etiketten". Codierungsstandard. Waswg.
  12. ^ Jungshik Shin. "KSX1001.TXT: KS X 1001 bis Unicode Table". Unicode, Inc.
  13. ^ "IBM-949_P110-1999 (alias cp949)", Konverter Explorer, Internationale Komponenten für Unicode
  14. ^ a b "Windows-949-2000", Konverter Explorer, Internationale Komponenten für Unicode
  15. ^ "Codecs - Codec -Registrierung und Basisklassen § Standardcodierungen". Python 3.7.2 Dokumentation. Python Software Foundation.
  16. ^ "Codierte Zeichensatzkennungen - CCSID 1363", IBM Globalisierung, IBM, archiviert von das Original Am 2014-11-29
  17. ^ "Code Seite 1126 Informationsdokument". Archiviert von das Original Am 2017-01-16.
  18. ^ "CCSID 1126 Informationsdokument". Archiviert von das Original am 2016-03-27.
  19. ^ "Code Seite 1362 Informationsdokument". Archiviert von das Original Am 2016-03-17.
  20. ^ "CCSID 1362 Informationsdokument". Archiviert von das Original am 2016-03-27.
  21. ^ a b "IBM-1363", Konverter Explorer, Internationale Komponenten für Unicode
  22. ^ Code Seite CPGID 01126 (PDF) (PDF), IBM
  23. ^ Code Seite CPGID 01126 (TXT), IBM
  24. ^ Kaplan, Michael S. (2005-09-17), "Wann ist ein Backslash kein Backslash?", Alles aussortieren
  25. ^ "IBM-1363_P110-1997 (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  26. ^ "Windows-949-2000 (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  27. ^ Siehe als Referenz, ucnv_lmb.cpp (Brendan Murray, Jim Snyder-Grant), wo der Lead-Byte 0x11 nach der Definition von "Korean: IBM-1261" kommentiert wird ULMBCS_GRP_KO, aber es wird dem zugeordnet "Windows-949" ICU Codec in der OptgroupByTetocpname Array später in der Datei.
  28. ^ Code Seite CPGID 01126 (PDF) (PDF), IBM
  29. ^ Code Seite CPGID 01126 (TXT), IBM
  30. ^ ICU Demonstration Mapping IBM-1363 auf Unicode
  31. ^ ICU Demonstration Mapping IBM-1363C (ASCII-basierte Variante) zu Unicode

Externe Links