Einheitlicher Hangul -Code
Alias (e) | Windows -Code -Seite 949, IBM -Code Seite 1363 |
---|---|
Sprachen) | Koreanisch |
Standard | Whatwg Codierungsstandard (als "EUC-KR")[1] |
Einstufung | Erweitert ISO 646,[a] Codierung der variablen Breite, CJK -Codierung |
Erweitert | EUC-kr |
Andere verwandte Kodierungen (en) | KPS 9566-2003, KPS 9566-2011 |
| |
Einheitlicher Hangul -Code (Uhc),[2][a] oder Verlängerte Wansung,[4][b] auch unter bekannt Microsoft Windows wie Code Seite 949 (Windows-949, MS949 oder mehrdeutig CP949), ist das Microsoft Windows Codepage für die koreanische Sprache. Es ist eine Erweiterung des Wansung -Code (KS C 5601: 1987, codiert als EUC-kr) alle 11172 unparteiischen Einbeziehung einbeziehen Hangul Silben vorhanden in Johab (KS C 5601: 1992 Anhang 3).[4][2] Dies entspricht dem vor komponierte Silben verfügbar in Unicode 2.0 und später.
Wansung Code hat den Nachteil, dass er nur Codes für die 2350 vorkomponierten Hangul -Silben zuweist, die ihre eigenen haben KS x 1001 (KS C 5601) CodePoints (insgesamt von 11172, nicht diejenigen, die veraltete JAMO verwenden), und verlangt von anderen, dass sie acht Byte-Kompositionssequenzen verwenden, die nicht durch einige teilweise Implementierungen des Standards gestützt werden.[5] UHC beschreibt dies, indem sie einzelne Codes für alle möglichen Silben zugewiesen, die mit modernen JAMO konstruiert wurden, indem Zuordnungen außerhalb des für KS x 1001 verwendeten Codierungsraums erstellt werden.
Der Blei -Byte -Bereich wird auf erweitert auf 0x81-Fe, und der Trail-Byte-Bereich wird auf 0x41–5a, 0x61–7a und 0x81-FE (in EUC-kr) verlängert (in EUC-Kr sind beide Bereiche 0xa1-Fe). Die Codes außerhalb der EUC-KR-Bereiche werden für den zusätzlichen Hangul verwendet.[6] Wenn sie getrennt betrachtet werden, sind sowohl der EUC-Kr-Hangul-Block als auch der UHC Extended Hangul-Abschnitt in Unicode-Reihenfolge.[1]
Terminologie
Einheitlicher Hangul -Code ist nicht mit registriert mit Iana als Standard zur Kommunikation von Informationen über das Internet.[7] Alternativen umfassen UTF-8. Allerdings die W3c/Waswg Codierungsstandard verwendet von HTML5 Integriert die einheitlichen Hangul-Code-Erweiterungen in seine Definition von "EUC-KR".[1]
Microsoft weist Windows-949 das Etikett "KS_C_5601-1987" zu,[8][9] die ordnungsgemäß gilt für KS x 1001 sich selbst (KS C 5601 der ursprüngliche Name von KS x 1001).[10] Das whatwg behandeln das Etikett "KS_C_5601-1987" austauschbar mit "EUC-KR", um "kompatibel mit bereitgestellten Inhalten" zu sein.[11] Das Unicode -KonsortiumDie Sammlung von zurückgezogenen Zuordnungen "veraltet/ostasia" enthielt Zuordnungen für Unified Hangul Code als "kSC5601.txt", wobei die automatisch abgeleiteten Zuordnungen für 7-Bit-KS x 1001 als "kSX1001.txt" enthalten sind.[12]
IBMs Code Seite 949 ist eine andere, ansonsten nicht verwandte Erweiterung von EUC-KR. Internationale Komponenten für Unicode (ICU) verwendet "CP949", "949" oder "IBM-949", um auf diese Seite IBM-Code zu verweisen.[13] und "MS949" oder "Windows-949" (oder mehrere Varianten von "KS_C_5601-1987"), um sich auf die Windows-Zuordnung von UHC zu beziehen.[14] PythonIm Gegensatz dazu erkennt "CP949", "949", "MS949" und "UHC" als Etiketten für UHC und enthält keinen IBM-949-Codec.[15] Von den Beschriftungen mit der Code-Seitennummer erkennt der Whatwg nur "Windows-949".[11]
Die Codeseite von IBM für Unified Hangul Code heißt Code Seite 1363 (IBM-1363) oder "Koreanische MS-Win". Es ist eine Kombination von SBCS Code Seite 1126 und DBCs Code Seite 1362.[16][17][18][19][20] Es unterscheidet sich darin, eine einzelne Byte -Zuordnung von 0x5c auf die Gewonnenes Zeichen (U+20A9);[21][22][23] Windows Maps 0x5c zu U+005C (der Unicode -Codepunkt für die Backslash) wie in ASCII,[14] Obwohl Schriftarten es oft immer noch als gewonnenes Zeichen machen.[24] Unicode -Mapping des Wellenhreises (0xa1ad) unterscheidet sich ebenfalls, wobei die IBM -Mapping U+301c bevorzugt.[25] während der Microsoft -Mapping u+223c (Tilde -Operator) begünstigt.[26] Die IBM-Zuordnung für UHC ist auf der Intensivstation als "IBM-1363" erhältlich.[21] Während die Intensivstation "Windows-949" -Codec in einigen Kommentaren für den Quellcode in ICU als IBM-1261 bezeichnet wird.[27]
Einzel -Byte -Codes
Im Folgenden finden Sie den Einzelbyte-Teil der Code-Seite, wie von IBM definiert. ähnlich zu Code Seite 437, das Kontrollcode Bytes können je nach Kontext als Kontrollcodes oder grafische Codes verwendet werden - die grafischen Codes sind nachstehend gezeigt. Microsoft verwendet ASCII -Zuordnungen für alle ASCII -Bytes gewonnenes Zeichen.
Code Seite 1126[28][29][30][31] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
0x | Nul | ┌ | ┐ | └ | ┘ | │ | ─ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ |
1x | ┼ | ◄ | ↕ | ‼ | ¶ | ┴ | ┬ | ┤ | ↑ | ├ | → | ← | ∟ | ↔ | ▲ | ▼ |
2x | Sp | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | ₩ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | ⌂ |
Fußnoten
- ^ Koreanisch: 통합형 한글 코드[3], romanisiert:Tonghabhyeong Hangeul Kodeu
- ^ Koreanisch: 확장 완성형, romanisiert:Hwagjang Wanseonghyeong
Verweise
- ^ a b c Van Kesteren, Anne, "5. Indizes (§ Index EUC-kr)", Codierungsstandard, Waswg
- ^ a b "Info: Hangul (koreanische) Charakter -Sets", Microsoft -Unterstützung, Microsoft
- ^ "한글 코드 에 대하여" (in Koreanisch). W3c.
- ^ a b ZSigri, Gyula (2002-06-18). "KSC und UHC".
- ^ Shin, Jungshik. "Was sind KS x 1001 (KS C 5601) und andere Hangul -Codes?". Hangul & Internet in Korea FAQ.
- ^ Lunde, Ken (13. Januar 2009). "Anhang F: Anbieter -Codierungsmethoden" (PDF). CJKV -Informationsverarbeitung (2. Aufl.). O'Reilly Media. ISBN 978-0-596-51447-1.
- ^ "Charaktersätze". Iana.org. Abgerufen 2017-01-11.
- ^ "Coding.WindowsCodePage -Eigenschaft - .NET Framework (aktuelle Version)". Msdn. Microsoft.
- ^ "Code -Seiten -Identifikatoren", Windows Dev Center, Microsoft
- ^ IBM; Unicode -Konsortium. "concrtrs.txt". Internationale Komponenten für Unicode. v. 59180.0.1.
[...] using KS C 5601 or related names to denote EUC-KR or windows-949 is very much misleading [...] It's just the name of a 94 x 94 Korean coded character set standard which can be invoked on either GL (with MSB reset) or GR (with MSB set).
- ^ a b Van Kesteren, Anne. "4.2. Namen und Etiketten". Codierungsstandard. Waswg.
- ^ Jungshik Shin. "KSX1001.TXT: KS X 1001 bis Unicode Table". Unicode, Inc.
- ^ "IBM-949_P110-1999 (alias cp949)", Konverter Explorer, Internationale Komponenten für Unicode
- ^ a b "Windows-949-2000", Konverter Explorer, Internationale Komponenten für Unicode
- ^ "Codecs - Codec -Registrierung und Basisklassen § Standardcodierungen". Python 3.7.2 Dokumentation. Python Software Foundation.
- ^ "Codierte Zeichensatzkennungen - CCSID 1363", IBM Globalisierung, IBM, archiviert von das Original Am 2014-11-29
- ^ "Code Seite 1126 Informationsdokument". Archiviert von das Original Am 2017-01-16.
- ^ "CCSID 1126 Informationsdokument". Archiviert von das Original am 2016-03-27.
- ^ "Code Seite 1362 Informationsdokument". Archiviert von das Original Am 2016-03-17.
- ^ "CCSID 1362 Informationsdokument". Archiviert von das Original am 2016-03-27.
- ^ a b "IBM-1363", Konverter Explorer, Internationale Komponenten für Unicode
- ^ Code Seite CPGID 01126 (PDF) (PDF), IBM
- ^ Code Seite CPGID 01126 (TXT), IBM
- ^ Kaplan, Michael S. (2005-09-17), "Wann ist ein Backslash kein Backslash?", Alles aussortieren
- ^ "IBM-1363_P110-1997 (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
- ^ "Windows-949-2000 (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
- ^ Siehe als Referenz, ucnv_lmb.cpp (Brendan Murray, Jim Snyder-Grant), wo der Lead-Byte 0x11 nach der Definition von "Korean: IBM-1261" kommentiert wird
ULMBCS_GRP_KO
, aber es wird dem zugeordnet"Windows-949"
ICU Codec in derOptgroupByTetocpname
Array später in der Datei. - ^ Code Seite CPGID 01126 (PDF) (PDF), IBM
- ^ Code Seite CPGID 01126 (TXT), IBM
- ^ ICU Demonstration Mapping IBM-1363 auf Unicode
- ^ ICU Demonstration Mapping IBM-1363C (ASCII-basierte Variante) zu Unicode
Externe Links
- Microsoft-Referenz für Windows-949
- IBMs Dokumentation für IBM-1363
- Zuordnung von Windows-949 zu Unicode
- Internationale Komponenten für Unicode (ICU) Mapping -Dateien: IBM-1363_P110-1997.UCM, IBM-1363_P11B-1998.UCM, und Windows-949-2000.UCM
- ICU-Demonstration für Windows-949 (mit ASCII-Zuordnungen)
- ICU-Demonstration für IBM-1363 (mit 0x5c als Won-Zeichen)