KS X 1001

KS x 1001
Mime / Iana KS_C_5601-1987
Alias ​​(e) KS C 5601
Sprachen) Koreanisch, Englisch, Russisch, bulgarisch, Inuktitut (Latein)
Teilunterstützung:
griechisch, japanisch, dänisch, norwegisch, etc.
Standard KS x 1001
Einstufung ISO-2022-kompatibel DBCs, CJK -Codierung
Codierungsformate EUC-kr, ISO 2022, Uhc, Johab
Vorausgegangen von N-Byte Hangul Code (KS C 5601-1974)
Andere verwandte Kodierungen (en) KS x 1002, KPS 9566, Jis x 0208, GB 2312, GB 12052

KS x 1001, "Code für Informationsaustausch (Hangul und Hanja)",",[a][1] früher genannt KS C 5601, ist ein südkoreanisch codierter Zeichensatz Standard zu vertreten Hangul und Hanja Zeichen auf einem Computer.

KS x 1001 wird vom alltäglichen Erbe codiert (vor-Unicode) Charaktercodierungen zum Koreanisch, einschließlich EUC-kr und Microsoft Einheitlicher Hangul -Code (UHC). Es enthält Koreanisch Hangul Silben, CJK -Ideografien (Hanja), griechisch, kyrillisch, Japanisch (Hiragana und Katakana) und einige andere Charaktere.

KS x 1001 ist als 94 × 94-Tabelle angeordnet, folgt der Struktur von 2-Byte-Code-Wörtern in ISO 2022 und EUC. Deshalb ist es Codepunkte sind Paare von Ganzzahlen 1–94. Einige Codierungen (UHC und Johab) Geben Sie zusätzlich zur Bereitstellung von Codes für jeden Codepunkt zusätzliche Codes für Zeichen an, die ansonsten nur als Codepunktsequenzen dargestellt werden können.

Geschichte

Dieser Standard wurde zuvor als KS C 5601 bekannt. Es gab mehrere Überarbeitungen dieses Standards. Zum Beispiel gab es 1987, 1992, 1998 und 2002 Überarbeitungen.

Die Gegenwart, Doppelbyte, Wansung (완성, Wanseong, "Vorkomponieren")[1] Der Charaktersatz wurde durch die dritte Ausgabe von KS C 5601 standardisiert,[2] das wurde 1986 veröffentlicht.[3] Es ist ein ISO 2022 kompatible Codierung, normalerweise verwendet in EUC -Form, der Doppel-Byte-Codes für Nicht-Hangul, Hangul Jamo und die häufigsten Hangul-Silben zuweist, im Gegensatz zu Johab (조합, Johap, 'kombinieren')[1] Dies ist nicht mit ISO 2022 kompatibel, sondern zu Doppelbyte-Codes allen Hangul-Silben mit modernen Jamo.[2] Wansung ist technisch gesehen eine Codierung der variablen Länge, sodass andere Silben mit acht Byte-Sequenzen (unter Verwendung des Jamo- und Hangul-Füllstoffzeichens) dargestellt werden können. Diese Funktion wird jedoch nicht immer implementiert.[4]

Die früheste Ausgabe von KS C 5601, veröffentlicht 1974,[2] definierte eine variable Länge[2] 7-Bit-Zeichensatz, das Einzelbyte-Codepunkte auf 51 zugewiesen hat[3] Basic Hangul Jamoetwas analog zu JIS C 6220, in einer Codierung als "N-Byte Hangul".[5] Die zweite Ausgabe, die 1982 veröffentlicht wurde, behielt den Hauptcharakter -Set aus der Ausgabe von 1974 bei, definierte jedoch zwei ergänzende Sets, darunter eine Version von Johab. Keine der beiden Ausgaben wurde so weit wie beabsichtigt übernommen.[2]

Wansung wurde in den Ausgaben 1987 und 1992 unverändert gehalten. In der Ausgabe von 1992 wurde zusätzliches Anhangsmaterial hinzugefügt,[3] einschließlich der Definition der Johab -Codierung[6] In Anhang 3 und die ältere N-Byte-Hangul-Codierung in Anhang 4.[1][5] Es wurde als Reaktion auf die Branchennutzung von Johab als konkurrierende Codierung für Wansung veröffentlicht, die zu dieser Zeit von verwendet wurde Hangul -Textverarbeitungsprozessor. Nach der Einführung von Einheitlicher Hangul -Code von Microsoft in Windows 95, und Hangul -Textverarbeitungsprozessor, der Johab zugunsten von der Abgabe von Johab übersät Unicode Im Jahr 2000 hörte Johab auf, allgemein verwendet zu werden.[2]

Codierungen

(A screenshot of an old version of Firefox showing Big5, GB2312, GBK, GB18030, HZ, ISO-2022-CN, Big5-HKSCS, EUC-TW, EUC-JP, ISO-2022-JP, Shift_JIS, EUC-KR, UHC, Johab and ISO-2022-KR as available encodings under the CJK sub-menu.)
Verschiedene CJK Codierungen, einschließlich vier basierend auf KS x 1001, unterstützt von Mozilla Firefox Ab 2004. (Diese Unterstützung wurde in späteren Versionen reduziert, um bestimmte zu vermeiden Cross Site Scripting Anschläge.)

Codierungsschemata von KS x 1001 umfassen EUC-kr (sowohl ASCII und ISO 646-KR -basierte Varianten, die letztere beinhalten a gewonnen Währungszeichen () bei Byte 0x5c anstelle eines Backslashs) und ISO-2022-kr,[7] ebenso gut wie ISO-2022-JP-2 (was auch codiert Jis x 0208 und Jis x 0212). Diese alle haben den Nachteil, dass sie nur Codes für die 2350 vorkomponierten Hangul-Silben zuweisen, die ihre eigenen KS x 1001-CodePoints haben (insgesamt von 11172, ohne diejenigen, die veraltete Jamo verwenden), und andere müssen acht Byte-Kompositionssequenzen verwenden. die nicht durch teilweise Implementierungen des Standards gestützt werden.[4]

Das Johab Codierung (in Anhang 3 der Version des Standards von 1992 festgelegt) und der EUC-KR-Superset bekannt als Einheitlicher Hangul -Code (UHC, auch Windows-949 genannt) Stellen Sie einzelne Codes für alle 11172 Hangul-Silben bereit.[7][6] ISO-2022-kR und Johab werden selten verwendet. Einige Betriebssysteme erweitern diesen Standard auf andere ungleichmäßige Weise, z. Die EUC-KR-Erweiterungen mackoräisch auf der Klassischer Mac OS, und IBM-949 durch IBM.

Hangulfüller

Der Hangul-Füllstoffcharakter wird verwendet, um acht Byte-Hangul-Kompositionssequenzen einzuführen[8][9] und für ein abwesendes Element (normalerweise ein leeres Finale) in einer solchen Reihenfolge zu stehen.[9]

Unicode enthält den Wansung -Code -Hangul -Füllstoff in der Hangul -Kompatibilität Jamo Block für die Kompatibilität von Hin- und Rücktrips, verwendet aber sein eigenes System (mit seinen eigenen, unterschiedlich verwendeten Füllfiguren) zum Komponieren von Hangul. Das KS x 1001 Hangul -Kompositionssystem wird in Unicode nicht verwendet, und der Füllstoff rendert nur als leerer Raum. KS x 1001 -Kompositionssequenzen mit modernen Jamo können auf vorkomponierte Zeichen in Unicode abgebildet werden.[9] Dies geschieht normalerweise nicht mit Einheitlicher Hangul -Code.

Für die Kompatibilität von Hin- und Rücktrips enthält Unicode auch den N-Byte-Hangul-Hangul-Füllstoff separat in der Halbbreiten- und Vollbreitenformen Block mit dem Namen "Halfwidth Hangul Füllstoff".

N-Byte Hangul Code

Dies ist der N-Byte-Hangul-Code,[5] wie von KS C 5601-1974 und von KS C 5601-1992 angegeben. Die zweite Hälfte von IBMs Code Seite 1040[10] ist ein Supersatz davon, das die Zeichen zuweist ¢ \ ~ (obwohl nicht £) an den gleichen Orten wie in Code Seite 1041während der nicht erweiterte n-byte Hangul (außerdem C0 -Kontrollcode Ersatzgrafiken in einigen Verwendungskontexten, die mit IBM-1040 geteilt werden) ist Code Seite 891.[11] Zeichen 0x40/0xc0 ist ein Hangul -Füllstoff (siehe Oben), verwendet zum Kombinieren von Sequenzen.

Ähnlich wie sein japanisches Gegenstück JIS C 6220 (JIS X 0201), N-Byte Hangul-Code könnte als 7-Bit 0x40 bis 0x7c.[5] Das folgende Diagramm zeigt den Code in einer 8-Bit-Umgebung mit dem hohen Bit-Set (d. H. Über 0xc0 bis 0xfc), wie es in z. Code Seite 891 oder 1040.

KS C 5601-1974 / N-Byte Hangul[12]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
8x
9x
Axt
BX
CX HWhf
Dx
Ex
Fx

Wansung Code -Diagramme

Im Folgenden finden Sie die Code -Diagramme für KS x 1001 im Wansung -Layout. Wenn ein Paar Hexadezimalzahlen angegeben ist, wird das kleinere verwendet, wenn sie über GL (0x21-0x7e) codiert, wie in ISO-2022-kr Wenn das koreanische Set auf verschoben wurde und das größere in dem typischen Fall verwendet wird, in dem es über GR (0xa1-0xfe) codiert wird, wie in EUC-kr oder uhc. Johab ändert die Anordnung, um alle 11172 Hangul -Cluster separat und in Ordnung zu codieren.

Um Anbieterunterschiede in der Implementierung zu veranschaulichen, werden für einige Zeichen mehrere Unicode -Zuordnungen angezeigt. Äpfel Hangultalk Erweiterungen zur Wansung-Ebene (d. H. Wenn sich beide Bytes im Bereich 0xa1-0XFE befinden) werden gezeigt, andere Hangultalk-Verlängerungsbereiche nicht. Die zusätzlichen Codes für komponierte Silben im Unified Hangul -Code und die Erweiterungen von IBM in IBM-949, werden auch nicht gezeigt, da beide außerhalb des Wansung -Flugzeugs fallen.

Lead -Byte

KS x 1001 (Wansung Code)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax Sp[b] 1-_ 2-_ 3-_ 4 -_ 5 -_ 6 -_ 7-_ 8 -_ 9 -_ 10-_ 11-_ 12-_ 13-_ 14-_ fünfzehn-_
3x/bx 16-_ 17-_ 18-_ 19-_ 20-_ 21-_ 22-_ 23-_ 24 -_ 25 -_ 26-_ 27-_ 28-_ 29-_ 30-_ 31-_
4x/cx 32-_ 33 -_ 34 -_ 35-_ 36 -_ 37-_ 38 -_ 39-_ 40-_ 41-_ 42-_ 43-_ 44 -_ 45-_ 46 -_ 47-_
5x/dx 48 -_ 49-_ 50-_ 51-_ 52-_ 53-_ 54 -_ 55-_ 56 -_ 57-_ 58 -_ 59-_ 60-_ 61-_ 62-_ 63-_
6x/ex 64-_ 65-_ 66-_ 67-_ 68-_ 69-_ 70-_ 71-_ 72-_ 73-_ 74-_ 75-_ 76 -_ 77-_ 78 -_ 79-_
7x/fx 80-_ 81-_ 82-_ 83-_ 84-_ 85-_ 86-_ 87-_ 88 -_ 89-_ 90-_ 91-_ 92-_ 93-_ 94-_ Del[b]

Nicht-Hanja-nicht-erfundene Sets

Zeichensatz 0x21 / 0xa1 (Zeilennummer 1, Sonderzeichen)

Dieser Satz enthält Interpunktion und andere Symbole, ausgenommen die in ks x 1003 vorhandene Interpunktion (die in Zeile 3 enthalten ist). Codierungen, die Ks x 1001 mit Single-Byte-ASCII kombinieren Halbbreiten- und Vollbreitenformen Block für den Backslash. Die Unicode -Mapping des Wellenhreises (Tilde Dash) unterscheidet sich ebenfalls zwischen Anbietern und kann U+301c sein (von IBM und Apple bevorzugt)[13][14][15] oder u+223c (von Microsoft bevorzugt).[16][17] Vergleichen Sie die ähnliche, aber nicht identische Handhabung der Jis Wave Dashund das Handling der Tilde in der nächsten Reihe.

Mit Ausnahme des Backslashs wird der erste von Apple verwendet und der zweite von Microsoft verwendet.[15][17]

KS x 1001 (vorangestellt mit 0x21 / 0xa1)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax IDSP · ¨ SCHÜCHTERN / / \/ /
3x/bx ± ×
4x/cx ÷ ° ¢/ £/ ¥/
5x/dx §
6x/ex
7x/fx ¬/

Zeichensatz 0x22 / 0xa2 (Zeilennummer 2, Sonderzeichen)

Dieser Satz enthält zusätzliche Interpunktion und Symbole. Ähnlich wie beim Tilde -Charakter in der vorherigen Zeile werden von Apple und Microsoft für das Tilde -Zeichen in dieser Zeile verschiedene Zuordnungen verwendet (U+02DC von Apple, FF5E von Microsoft).[15][17] Dies soll als erhöhte Tilde angezeigt werden, während die Tilde in der vorherigen Zeile in einer Line in der Armaturenbretthöhe gezeigt werden soll.[18] Zuordnung des umgekreist Punkt unterscheidet sich auch.[15][17]

Das Euro- und eingetragene Markenzeichen wurde 1998 zum Standard hinzugefügt, während die koreanische Post (㉾) im Jahr 2002 hinzugefügt wurde.[1] Diese drei Codepunkte wurden wie bei den noch nicht verwendeten Codepunkten für andere, nicht standardmäßige Zwecke von Anbietern, z. Für Boxed List Marker von Apple.[19] Microsoft hat seine aktualisiert Einheitlicher Hangul -Code Implementierung zum Hinzufügen der Ergänzungen von 1998 einschließlich des Euro -Zeichens, fügte jedoch die koreanische Postmarke nicht hinzu, wenn es dem Standard hinzugefügt wurde.[20]

KS x 1001 (vorangestellt mit 0x22 / 0xa2)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax ´ ˜/ ˇ ˘ ˝ ˚ ˙ ¸ ˛ ¡ ¿
3x/bx ː ¤
4x/cx /
5x/dx
6x/ex /1[c] ®/2[c] ㉾/3[c] 4[c] 5[c] 6[c] 7[c] 8[c] 9[c] [10][d]
7x/fx [11][d] [12][d] [13][d] [14][d] [15][d] [16][d] [17][d] [18][d] [19][d] [20][d] [e] [f] [g]
 Ergänzungen von Apple
 Spätere Standard -Ergänzungen, die mit Apple -Ergänzungen kollidieren

Zeichensatz 0x23 / 0xa3 (Zeilennummer 3, Basic Latin / ISO 646-KR)

Dieser Satz entspricht KS x 1003 (der ISO 646 Variante für Koreanisch, ein ähnlicher Satz wie ASCII), aber als Zwei-Byte-Codes, der 0x23 (oder 0xa3 in gr-delegierter (EUC) Form) vorangestellt wurde. Es enthält die englisches Alphabet / Grundlegendes lateinisches Alphabet, Westarabische Ziffern und Zeichensetzung.

Vergleichen Sie das römische Satz von Jis x 0201, was unterscheidet sich durch Einbeziehung a Yen Zeichen eher als ein Gewonnenes Zeichen. Kontrast die dritten Reihen von KPS 9566 und von jis x 0208, die dem ISO 646 -Layout folgen, aber nur Buchstaben und Ziffern enthalten.

Ks x 1001 (vorangestellt mit 0x23 / 0xa3); Nicht-vollständige Mappings
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax ! " # $ % & ' ( ) * + , - . /
3x/bx 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x/cx @ A B C D E F G H I J K L M N O
5x/dx P Q R S T U V W X Y Z [ ] ^ _
6x/ex ` a b c d e f g h i j k l m n o
7x/fx p q r s t u v w x y z { | }

Codierungen wie EUC-KR und UHC kombinieren KS x 1001 mit Single-Byte-ASCII oder KS x 1003 und verwenden daher alternative Unicode-Mappings an den Halbbreiten- und Vollbreitenformen Block für die Doppel-Byte-Darstellungen dieser Zeichen.

Ks x 1001 (vorangestellt mit 0x23 / 0xa3); Vollbreiten -Mappings
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx
5x/dx _
6x/ex
7x/fx

Zeichensatz 0x24 / 0xa4 (Zeilennummer 4, Hangul Jamo)

Dieses Set umfasst moderne Hangul -Konsonanten, gefolgt von Vokalen, beide vom südkoreanischen Collation Customs, gefolgt von veralteten Konsonanten. Wenn diese Zeichen individuell verwendet werden, sind diese Zeichen in den Unicode geordnet Hangul -Kompatibilität Jamo Blockieren und keine Eins-zu-Eins-Mapping mit den positionspezifischen Zeichen in der Hangul Jamo Block. Vergleichen mit Reihe 4 des nordkoreanischen KPS 9566. Charakter 04-52 ist ein Hangul-Füllstoff (siehe Oben), verwendet zum Kombinieren von Sequenzen.

KS x 1001 (vorangestellt mit 0x24 / 0xa4)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx
5x/dx Hf
6x/ex
7x/fx

Zeichensatz 0x25 / 0xa5 (Zeilennummer 5, römische Ziffern und Griechisch)

Dieser Satz enthält römische Zahlen und grundlegende Unterstützung für die griechisches Alphabet, ohne Diakritik oder die Final Sigma. Apple enthält einige zusätzliche Interpunktion in dieser Zeile sowie einige schwarz eingekreiste Listenmarker, die von denen in Zeile 6 fortgesetzt werden.[19]

Kontrast Reihe 6 von KPS 9566, einschließlich der gleichen Zeichen, aber in einem anderen Layout.

KS x 1001 (vorangestellt mit 0x25 / 0xa5)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
5x/dx Π Ρ Σ Τ Υ Φ Χ Ψ Ω ! ︀[h] 。︀[ich] [j] [j]
6x/ex α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
7x/fx π ρ σ τ υ φ χ ψ ω (27)[k] (28)[l] (29)[m] (30)[n]
 Ergänzungen von Apple

Zeichensatz 0x26 / 0xa6 (Zeilennummer 6, Boxzeichnung)

Diese Zeile enthält Zeichen zum Zeichnen von Kästchen in a semigraphisch Kontext. Apple enthält auch einige schwarz eingekreiste Listenmarker.[19]

KS x 1001 (vorangestellt mit 0x26 / 0xa6)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx
5x/dx
6x/ex
7x/fx (21)[Ö] (22)[p] (23)[q] (24)[r] (25)[s] (26)[t]
 Ergänzungen von Apple

Zeichensatz 0x27 / 0xa7 (Zeilennummer 7, Einheitssymbole)

Diese Zeile enthält Einheitssymbole als einzelne Zeichen, einschließlich derer, die aus mehreren Buchstaben bestehen. Apple enthält auch einige eingekreiste Listenmarker, die von denen in Reihe 8 fortgesetzt werden.[19]

Vergleichen und kontrastieren Sie das Repertoire von Einheitensymbolen, die in enthalten sind Reihe 8 von KPS 9566.

KS x 1001 (vorangestellt mit 0x27 / 0xa7)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx
5x/dx
6x/ex
7x/fx
 Ergänzungen von Apple

Zeichensatz 0x28 / 0xa8 (Zeilennummer 8, verlängerter lateinischer, eingekreister, Fraktionen)

KS x 1001 (vorangestellt mit 0x28 / 0xa8)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax Æ Ð ª Ħ IJ Ŀ Ł Ø Œ º Þ Ŧ Ŋ
3x/bx
4x/cx
5x/dx
6x/ex
7x/fx ½ ¼ ¾

Zeichensatz 0x29 / 0xa9 (Zeilennummer 9, erweitertes Latein, eingekreist, Superscript und Index)

KS x 1001 (vorangestellt mit 0x29 / 0xa9)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax æ đ ð ħ ı ij ĸ ŀ ł ø œ ß þ ŧ ŋ
3x/bx ʼn
4x/cx
5x/dx
6x/ex
7x/fx ¹ ² ³

Zeichensatz 0x2a / 0xaa (Zeilennummer 10, Hiragana)

Dieser Satz enthält Hiragana für das Schreiben der japanische Sprache. Apple enthält auch einige Listenmarker mit Klammern, die von denen in Reihe 9 fortgesetzt werden.[19]

Vergleichen Reihe 10 von KPS 9566, das das gleiche Layout verwendet. Vergleichen und gegenüberstellen Reihe 4 von JIS x 0208, was auch dasselbe Layout verwendet, aber in einer anderen Zeile.

KS x 1001 (vorangestellt mit 0x2a / 0xaa)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx
5x/dx
6x/ex
7x/fx (21)[u] (22)[u] (23)[u] (24)[u] (25)[u] (26)[u]
 Ergänzungen von Apple

Zeichensatz 0x2b / 0xab (Zeilennummer 11, Katakana)

Dieser Satz enthält Katakana für das Schreiben der japanische Sprache. Allerdings die Japanische lange Vokalmarke, das in Katakana -Text verwendet und in Zeile 1 von enthalten ist Jis x 0208, ist nicht enthalten.[23] Apple enthält auch einige Listenmarker mit Klammern, die von den Zeilen von 9 und 10 fortgesetzt werden.[19]

Vergleichen Reihe 11 von KPS 9566, das das gleiche Layout verwendet. Vergleichen und gegenüberstellen Reihe 5 von JIS x 0208, was auch dasselbe Layout verwendet, aber in einer anderen Zeile.

KS x 1001 (vorangestellt mit 0x2b / 0xab)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax
3x/bx
4x/cx
5x/dx
6x/ex
7x/fx (27)[u] (28)[u] (29)[u] (30)[u]
 Ergänzungen von Apple

Zeichensatz 0x2c / 0xac (Zeilennummer 12, kyrillisch)

Dieses Set enthält die Moderne Russisches Alphabetund reicht nicht unbedingt aus, um andere Formen der darzustellen Cyrillic Drehbuch. Apple enthält auch einige Black -Box -Listenmarkierungen.[19]

Vergleichen Reihe 5 von KPS 9566 und Reihe 7 von JIS x 0208, die das gleiche Layout verwenden (aber in einer anderen Zeile).

KS x 1001 (mit 0x2c / 0xAC vorangestellt)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax А Б В Г Д Е Ё Ж З И Й К Л М Н
3x/bx О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э
4x/cx Ю Я 1[v] 2[v] 3[v] 4[v] 5[v] 6[v] 7[v] 8[v] 9[v] [10][W] [11][W] [12][W] [13][W] [14][W]
5x/dx [15][W] а б в г д е ё ж з и й к л м н
6x/ex о п р с т у ф х ц ч ш щ ъ ы ь э
7x/fx ю я [16][W] [17][W] [18][W] [19][W] [20][W]
 Ergänzungen von Apple

Erweiterter Zeichensatz 0x2d / 0xad (Zeilennummer 13, Apple Zusätzliche Interpunktion)

Apple Additions zu KS x 1001 (vorangestellt mit 0x2d / 0xad)[19]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
2x/ax [x] [x] [x] [x] [y] [y] [y] [y] [z] [z] [AA]
3x/bx ![AB]

Vorkomponierte Hangul -Sets (Zeilen Nummer 16 bis 40)

Codepunkte für vorkomponierte Hangul sind in einem kontinuierlichen Sortierblock zwischen den Codepunkten 16-01 und 40-94 enthalten. Nicht alle möglichen Silbencluster sind in diesem Bereich enthalten. Vergleichen Die unterschiedliche Bestellung und Verfügbarkeit in KPS 9566.

Beachten Sie, dass initiale+Vokal+endgültige Silben 뢨, 썅, 쏀, 쓩 und 쭁 enthalten sind, aber ihre anfänglichen+Vokalkollegen 뢔, 쌰, 쎼, 쓔 und 쬬 sind nicht. Dies verursachte früher beim Eingeben Probleme, da Eingabemethoden zuerst eine anfängliche+Vokalsilbe durchlaufen müssen, um eine initiale+vokale+endgültige Silbe einzugeben (z. B. ㅎ → 하 → 한).

Diejenigen, die hier nicht aufgeführt sind, können mit acht Byte-Kompositionssequenzen dargestellt werden. Alle anderen modernen Jamo-Cluster werden von UHC an anderer Stelle zugewiesen. Alle möglichen modernen Jamo-Cluster werden von Johab Codes zugewiesen.

  • Row 16: 가 각 간 갇 갈 갉 갊 감 갑 값 갓 갔 강 갖 갗 같 갚 갛 개 객 갠 갤 갬 갭 갯 갰 갱 갸 갹 갼 걀 걋 걍 걔 걘 걜 거 걱 건 걷 걸 걺 검 겁 것 겄 겅 "
  • Zeile 17: 괌 괍 괏 괘 괜 괠 괩 괬 괭 괴 괵 괸 굄 굅 굇 굉 교 굔 굘 굡 굣 구 국 굳 굴 굵 굶 궷 귀 귁 귁 귄 귄 귄 귄 귄 귄 귄 귄 귄 귄 귄 귄 귄 궂 궉 궐 궜 궤 궷 귀 귁 귁 귄 귄 귄 귄 귄 귄 귄 귄 귄 궂 궈 권 궜 궝 궷 귀 귀 귁 귄 귄 귄 궁 궂 궈 권 궜 궤 궷 귀 귁 귁 굿 궁 궁 궂 궈 권 궜 굶 궷 귀 귁 귄 귄. "
  • Row 18: 깹 깻 깼 깽 꺄 꺅 꺌 꺼 꺽 꺾 껀 껄 껌 껍 껏 껐 껑 께 껙 껜 껨 껫 껭 껴 껸 껼 꼇 꼈 꼍 꼐 꼬 꼭 꼰 꼲 꼴 꼼 꼽 꼿 꽁 꽂 꽃 꽈 꽉 꽐 꽜 꽝 꽤 "
  • Row 19: 끝 끼 끽 낀 낄 낌 낍 낏 낑 나 낙 낚 난 낟 날 낡 낢 남 납 낫 났 낭 낮 낯 낱 낳 내 낵 낸 낼 냄 냅 냇 냈 냉 냐 냑 냔 냘 냠 냥 너 넉 넋 넌 널 넒 "
  • Zeile 20: 뇟 뇨 뇬 뇰 뇹 뇻 뇽 누 눅 눈 눋 눌 눕 눗 눙 눠 눴 눼 뉘 뉜 뉠 뉨 뉩 뉵 뉼 늄 늅 늬 늰 늰 늴 니 니 니 니 니 니 니 니 니 니 니 니 늙 늙 늠 늣 능 늪 늬 늰 늴 늴 니 니 니 니 니 니 니 니 늙 늠 늣 능 늪 늬 늰 늴 늴 니 니 니 니 늙 늚 늡 늣 늦 늬 늬 늰 늴 니 는 늘 늙 늚 늡 능 늄 늬 늰 늴 니 니. "
  • Row 21: 덧 덩 덫 덮 데 덱 덴 델 뎀 뎁 뎃 뎄 뎅 뎌 뎐 뎔 뎠 뎡 뎨 뎬 도 독 돈 돋 돌 돎 돐 돔 돕 돗 동 돛 돝 돠 돤 돨 돼 됐 되 된 될 됨 됩 됫 됴 두 둑 "
  • Zeile 22: 땀 땁 땃 땅 땋 때 땍 땐 땔 땜 땝 땟 땡 떠 떡 떤 떨 떪 떫 떰 떱 떳 떴 떻 떼 떽 뗀 똬 똴 똴 뙈 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뗑 뗬 똑 똔 똥 똬 똴 뙈 뙈 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뙤 뗑 뗘 또 똔 똘 똬 똴 뙈 뙈 뙤 뙤 뙤 뙤 뗑 뗘 또 똑 똘 똬 똬 똴 뙈 뙤 뗏 뗐 뗑 뗘 또 똔 뗀 똬 똴 뙈 뙤 뙤. "
  • Zeile 23: 래 랙 랜 램 랩 랫 랬 랭 랴 략 랸 럇 러 럭 런 럴 럼 럽 럿 렀 렁 렇 레 렌 렐 렘 렙 롑 롓 로 로 록 록 록 록 록 록 록 록 록 록 록 록 록 록 렬 렵 렸 령 롄 롑 롓 로 로 록 록 록 록 록 록 록 록 렬 렴 렷 렸 례 롑 롓 롓 로 록 록 록 록 렬 렴 렷 령 례 롑 롓 롓 로 록 련 련 렬 렴 렷 령 렙 롑 롓 로 록 록. "
  • Row 24: 륫 륭 르 륵 른 를 름 릅 릇 릉 릊 릍 릎 리 릭 린 릴 림 립 릿 링 마 막 만 많 맏 말 맑 맒 맘 맙 맛 망 맞 맡 맣 매 맥 맨 맬 맴 맵 맷 맸 맹 맺 먀 "
  • Zeile 25: 묀 묄 묏 묑 묘 묜 묠 묩 묫 무 묵 묶 묻 물 묽 묾 뭄 뭅 뭇 뭉 뭍 뭏 뭐 뭘 뭡 뭣 뭬 미 믹 민 민 믿 믿 믿 믿 믿 믿 믿 믿 믿 믿 믿 믿 믿 믿 뮬 뮴 므 믄 믐 미 미 믹 민 민 믿 믿 믿 믿 믿 믿 믿 믿 뮬 뮴 므 믄 믐 미 미 믹 민 믿 믿 믿 뮨 뮬 뮴 믄 믈 믓 미 믹 민 민 뮤 뮨 뮨 뮬 뮴 므 믈 뭬 미 믹 민 믿 믿. "
  • Zeile 26: 벙 벚 벡 ​​벤 벧 벨 벰 벱 벳 벴 벵 벼 변 별 볍 볏 볐 병 볕 볘 볜 보 복 본 볼 봄 봅 뵤 뵨 부 부 북 북 북 북 북 북 북 북 북 북 북 북 북 북 봬 뵀 뵌 뵐 뵘 뵤 뵨 부 부 북 북 북 북 북 북 북 북 봬 뵀 뵉 뵌 뵘 뵤 뵤 뵨 부 북 북 북 북 봬 뵀 뵉 뵌 뵘 뵤 뵤 뵨 부 봔 봔 봤 봬 뵀 뵉 뵐 봄 뵤 뵨 부 북 북 북. "
  • Row 27: 빨 빪 빰 빱 빳 빴 빵 빻 빼 빽 뺀 뺄 뺌 뺍 뺏 뺐 뺑 뺘 뺙 뺨 뻐 뻑 뻔 뻗 뻘 뻠 뻣 뻤 뻥 뻬 뼁 뼈 뼉 뼘 뼙 뼛 뼜 뼝 뽀 뽁 뽄 뽈 뽐 뽑 뽕 뾔 뾰 "
  • Zeile 28: 샥 샨 샴 샵 샷 샹 섀 섄 섈 섐 섕 서 섞 섟 선 섣 설 섦 섧 섬 섭 섯 성 섶 세 섹 센 셨 셩 셰 셰 셴 셴 셴 셴 셴 셴 셴 셴 셴 셴 셴 셴 셴 셍 셔 션 셜 셥 셧 셨 셩 셰 셰 셴 셴 셴 셴 셴 셴 셴 셴 셍 셔 션 셜 셥 셨 셩 셩 셰 셴 셴 셴 셴 셍 셔 션 셤 셥 셨 셩 셩 셰 셴 셌 셌 셍 셔 션 셤 센 셨 셩 셰 셴 셴 셌. "
  • Row 29: 숯 숱 숲 숴 쉈 쉐 쉑 쉔 쉘 쉠 쉥 쉬 쉭 쉰 쉴 쉼 쉽 쉿 슁 슈 슉 슐 슘 슛 슝 스 슥 슨 슬 슭 슴 습 슷 승 시 식 신 싣 실 싫 심 십 싯 싱 싶 싸 싹 "
  • Zeile 30: 쐴 쐼 쐽 쑤 쑥 쑨 쑬 쑴 쑵 쑹 쒀 쒔 쒸 쒼 쓩 쓰 쓱 쓴 쓸 쓺 쓿 씀 씁 씐 씔 씜 씨 앍 앎 앎 앓 암 암 암 암 암 암 암 암 암 암 암 암 씻 아 안 앉 알 앍 앎 앓 앓 앓 암 암 암 암 암 암 암 씻 아 안 앉 알 앍 앎 앓 앓 암 암 암 암 씻 씽 악 안 않 앍 앎 앎 앓 암 암 씹 씻 씽 악 앉 씨 앍 앎 앓 암 암 씹. "
  • Zeile 31: 에 엑 엔 엠 엡 엣 엥 여 역 엮 연 열 엷 염 엽 엾 엿 였 영 옅 옆 옇 예 옐 옘 옙 옛 옻 와 와 왁 완 완 완 완 완 완 완 완 완 완 완 완 완 완 옭 옰 옴 옵 옹 옻 와 왁 왁 완 완 완 완 완 완 완 완 완 옭 옰 옴 옵 옹 옻 와 왁 왁 완 완 완 올 옭 옰 옴 옵 옹 옻 와 왁 왁 온 올 옭 옮 옰 옴 옙 옻 옜 와 왁 완. "
  • Row 32: 웩 웬 웰 웸 웹 웽 위 윅 윈 윌 윔 윕 윗 윙 유 육 윤 율 윰 윱 윳 융 윷 으 윽 은 을 읊 음 읍 읏 응 읒 읓 읔 읕 읖 읗 의 읜 읠 읨 읫 이 익 인 일 "
  • Row 33: 점 접 젓 정 젖 제 젝 젠 젤 젬 젭 젯 젱 져 젼 졀 졈 졉 졌 졍 졔 조 족 존 졸 졺 좀 좁 좃 종 좆 좇 좋 좌 좍 좔 좝 좟 좡 좨 좼 좽 죄 죈 죌 죔 죕 "
  • Zeile 34: 징 짖 짙 짜 짝 짠 짢 짤 짧 짬 짭 짰 짱 째 짹 짼 쨀 쨈 쨉 쨋 쨌 쨍 쨘 쨩 쩌 쩍 쩐 쫄 쫄 쫌 쫍 쫍 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쩡 쩨 쪄 쪼 쫀 쫄 쫄 쫌 쫍 쫍 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쫏 쩡 쩽 쪄 쪼 쫀 쫄 쫌 쫌 쫍 쫏 쫏 쫏 쫏 쩠 쩨 쪄 쪘 쪽 쫀 쫄 쫌 쫍 쫏 쩟 쩠 쩡 쩨 쪄 쩌 쫀 쫄 쩔 쫍 쫍 쩟 쩟 쩠 쩠. "
  • Zeile 35: 찼 창 찾 책 챈 챌 챔 챕 챗 챘 챙 챤 챦 챨 챰 챵 처 처 천 철 첨 첩 첬 청 체 첵 첸 촌 촌 촘 촘 촘 촙 촙 촙 촙 촙 촙 촙 촙 촙 촙 촙 촙 쳐 쳤 쳰 촁 촉 촌 촐 촘 촘 촘 촙 촙 촙 촙 촙 촙 촙 촙 쳐 쳬 쳰 초 촉 촌 촐 촘 촘 촙 촙 촙 촙 쳐 쳔 쳬 촁 초 촌 촌 촐 촘 촙 쳇 쳉 쳐 쳔 쳬 체 촉 촌 첼 촘 촘 쳇 쳇 쳉. "
  • Zeile 36: 치 칙 칟 칠 칡 침 칩 칫 칭 카 칵 칸 캄 캅 캇 캉 캐 캑 캔 캘 캠 캡 캣 캥 캬 캭 컁 켈 켐 켐 켑 켓 켓 켓 켓 켓 켓 켓 켓 켓 켓 켓 켓 컴 컵 컹 케 켄 켈 켐 켑 켑 켓 켓 켓 켓 켓 켓 켓 켓 컴 컵 컸 컹 켁 켄 켈 켐 켑 켑 켓 켓 켓 컴 컵 컷 컹 케 켄 켈 켐 켑 켑 켓 컬 컴 컵 컷 컹 캭 켈 켐 컥 켑 컫 컬. "
  • Row 37: 큄 큅 큇 큉 큐 큔 큘 큠 크 큭 큰 클 큼 큽 킁 키 킥 킨 킬 킴 킵 킷 킹 타 탁 탄 탈 탉 탐 탑 탓 탔 탕 태 택 탠 탤 탬 탭 탯 탰 탱 탸 턍 터 턱 턴 "
  • Row 38: 퉤 튀 튁 튄 튈 튐 튑 튕 튜 튠 튤 튬 튱 트 특 튼 튿 틀 틂 틈 틉 틋 틔 틘 틜 틤 틥 티 틱 틴 틸 팀 팁 팃 팅 파 팍 팎 판 팔 팖 팜 팝 팟 팠 팡 팥 "
  • Row 39: 퐈 퐝 푀 푄 표 푠 푤 푭 푯 푸 푹 푼 푿 풀 풂 품 풉 풋 풍 풔 풩 퓌 퓐 퓔 퓜 퓟 퓨 퓬 퓰 퓸 퓻 퓽 프 픈 플 픔 픕 픗 피 픽 핀 필 핌 핍 핏 핑 하 "
  • Zeile 40: 혤 혭 호 혼 홀 홅 홈 홉 홋 홍 홑 화 환 활 홧 황 홰 홱 홴 횃 횅 회 획 횔 횝 횟 횡 훠 훤 훤 훨 훰 훰 훰 훰 훰 훰 훰 훰 훰 훰 훰 훰 훰 훰 후 훅 훑 훔 훗 훠 훤 훨 훨 훨 훰 훰 훰 훰 훰 훰 훰 후 훅 훌 훑 훗 훙 훠 훤 훨 훨 훰 훰 훰 후 훅 훌 훑 훗 훙 훠 훤 훨 훨 횹 횻 후 훅 훌 훔 횟 훠 훤 훨 훰 훰 횻. "

Hanja setzt

Johab Coding

Diagramm der Johab -Codierung, wie durch KS x 1001 festgelegt

KS X 1001 definiert seit 1992 auch eine alternative Codierung als Johab. Dies stellt eine Hangul-Silbe als Abfolge von drei Fünf-Bit-Werten dar, die über zwei geteilt werden 8-Bit-Bytes, das bedeutendste zuerst. Das bedeutendste Bit der Lead-Byte ist immer eingestellt (die Kombination mit Single-Byte ermöglichen ASCII oder KS x 1003). Diese Codierung wird auch für den modernen Jamo von verwendet Reihe 4 von KS x 1001mithilfe der Füllstoffwerte für die anderen Komponenten. Die Johab -Codierung für Hangul ist in der folgenden Tabelle angezeigt.[25]

Johab codiert den Rest von KS x 1001 mit Lead -Bytes, die nicht einem anfänglichen Jamo entsprechen (0xe0–0xf9 für Hanja und 0xd9–0xde[26] Für Nicht-Hanja ohne Hangul-Silben und moderne Jamo) mit Trail-Bytes in den Bereichen 0x31–0x7e und 0x91–0xfe.[25] Diese Codes werden algorithmisch aus den KS x 1001 -Codepunkten der Zeichen abgebildet.[26] mit zwei Ks x 1001 Zeilen pro Lead -Byte (vergleichen und kontrastieren Schicht jis).

Layout der Ebcdic-basierten Johab-Variante im Doppelbyte-Zustand

Die ASCII-basierte Johab-Codierung ist nummeriert Code Seite 1361 von Microsoft.[27] Andere, von der Lieferanten definierte Johab-Varianten existieren ebenfalls; zum Beispiel, IBM definiert eine für die Verwendung als Verschieben Set mit Ebcdic. Diese Variante verwendet verschieben und verschieben Um zwischen einer Single-Byte-EBCDIC-Seite und Johababer zu wechseln, verwendet eine andere Codierung für die Nicht-Hangul-Zeichen (unter Verwendung von Lead-Bytes 0x40–6c mit einem anderen Layout) und verwendet Lead-Bytes 0xd4-Dd als a Benutzerdefinierte Regionverwendet aber das gleiche Johab-Layout wie der Standard für die Hangul-Charaktere von 1992 im Umschaltzustand.[28] IBM-Nummer die EBCDIC-basierte, staatliche Johab-Codierung Code Seite 1364,[28] und definieren auch eine Untergruppe dieser Codierung, einschließlich weniger Hangul -Zeichen, aber im gleichen Layout wie Code Seite 933.[29]

Einige andere Anbieter wie Samsung oder Goldstern (jetzt Lg) verwendeten andere "Johab" -Kodierungen, in denen sich die Zuordnungen von Fünf-Bit-Codes zu Jamo von den folgenden unterscheiden und folglich nicht mit dem Standard-Johab-Standard von 1992 kompatibel sind.[AC] Die folgende Tabelle entspricht dem Standard -Standard von 1992 und auch der IBM -Verwendung.

JOHAB -Codes für Hangul in KS C 5601 (/x 1001): 1992[25]
Fünf-Bit-Sequenz Als initial Als Vokal Als endgültig
00000 Nicht benutzt Nicht benutzt[Anzeige] Nicht benutzt
00001 Füllstoff Nicht benutzt[AE] Füllstoff (leeres Finale)
00010 Füllstoff
00011
00100
00101
00110
00111
01000 Nicht benutzt[Anzeige]
01001 Nicht benutzt[AE]
01010
01011
01100
01101
01110
01111
10000 Nicht benutzt[Anzeige]
10001 Nicht benutzt[AE]
10010 Nicht benutzt
10011
10100
10101 Nicht benutzt
10110 Non-Hangul-Lead-Bytes
10111 Non-Hangul-Lead-Bytes
11000 Non-Hangul-Lead-Bytes Nicht benutzt[Anzeige]
11001 Non-Hangul-Lead-Bytes Nicht benutzt[AE]
11010 Non-Hangul-Lead-Bytes
11011 Non-Hangul-Lead-Bytes
11100 Non-Hangul-Lead-Bytes
11101 Non-Hangul-Lead-Bytes
11110 Non-Hangul-Lead-Bytes Nicht benutzt Nicht benutzt
11111 Nicht benutzt Nicht benutzt Nicht benutzt

Fußnoten

  1. ^ Koreanisch: 정보 교환용 부호계 (한글 및 한자), romanisiert:Jeongbo Gyohwan'yong Buhogye (Hangeul mich Hanja)
  2. ^ a b Als ein ISO 2022 kompatibel 94n-Character set, die einfacher Raum und Charakter löschen sind immer als Single-Byte-Codes bei 0x20 bzw. 0x7f (nicht 0xa0 bzw. 0xff) erhältlich.
  3. ^ a b c d e f g h i Von Apple auf eine Sequenz der ASCII -Ziffer, des kombinierenden Quadrats U+20de und der privater Gebrauch Zeichen U+F87C.[19] Das hier simulierte Aussehen simuliert.
  4. ^ a b c d e f g h i j k Von Apple auf eine ASCII -Sequenz mit der Zahl in abgebildet eckige Klammern, vorangestellt von der privater Gebrauch Zeichen U+F863.[19] Das hier simulierte Aussehen simuliert.
  5. ^ Schmaler als 0xa2d2. Apple findet a privater Gebrauch Charakter U+F87F für Hin- und Rückflugzwecke.
  6. ^ Zwei vertikale Linien mit rechter Linie kühner. Apple ordnet dies dem gewöhnlichen doppelten vertikalen U+2016 (‖) plus a privater Gebrauch Charakter U+F87B für Hin- und Rückflugzwecke; U+1D102 wird hier gezeigt, um das beabsichtigte Erscheinungsbild widerzuspiegeln.
  7. ^ Zwei vertikale Linien mit mutiger links. Apple ordnet dies dem gewöhnlichen doppelten vertikalen U+2016 (‖) plus a privater Gebrauch Charakter U+F87C für Hin- und Rückflugzwecke; U+1D103 wird hier gezeigt, um das beabsichtigte Erscheinungsbild widerzuspiegeln.
  8. ^ Variante ausgerichtet auf den unteren linken Links der Zeichenzelle für horizontale Verwendung. Apple ordnet dies auf u+ff01+f874, wobei U+F874 a ist privater Gebrauch Charakter, das von Apple verwendet wird, um den Charakter für Roundtripsen zu markieren.[19] In jüngerer Zeit,[21] a Standardisierte Variationssequenz wurde für dieses Formular unter Verwendung eines angehängten Variationswählers 1 (U+Fe00) hinzugefügt.[22]
  9. ^ Variante ausgerichtet auf den unteren linken Links der Zeichenzelle für horizontale Verwendung. Apple ordnet dies auf u+3002+f87d zu, wobei u+f87d a ist privater Gebrauch Charakter, das von Apple verwendet wird, um den Charakter für Roundtripsen zu markieren.[19] In jüngerer Zeit,[21] a Standardisierte Variationssequenz wurde für dieses Formular unter Verwendung eines angehängten Variationswählers 1 (U+Fe00) hinzugefügt.[22]
  10. ^ a b Duplizieren, von Apple mit einem angehängten zugeordnet privater Gebrauch Charakter U+F87F für Rundstolmen.[19]
  11. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3257+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3257 ist der nicht nachgefüllte Kreiszeichen.[19]
  12. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3258+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3258 ist der nicht nachgefüllte Kreiszeichen.[19]
  13. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3259+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3259 ist der nicht nachgefüllte Kreiszeichen.[19]
  14. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+325A+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+325A ist der nicht nachgefüllte Kreiszeichen.[19]
  15. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3251+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3251 ist der nicht nachgefüllte Kreiszeichen.[19]
  16. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3252+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3252 ist der nicht nachgefüllte Kreiszeichen.[19]
  17. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3253+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3253 ist der nicht nachgefüllte Kreiszeichen.[19]
  18. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3254+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3254 ist der nicht nachgefüllte Kreiszeichen.[19]
  19. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3255+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3255 ist der nicht nachgefüllte Kreiszeichen.[19]
  20. ^ Eine genaue Übereinstimmung ist in Unicode vorhanden, simuliert simuliert. Apfelkarten zu U+3256+F87A, wobei u+f87a a ist privater Gebrauch Charakter und U+3256 ist der nicht nachgefüllte Kreiszeichen.[19]
  21. ^ a b c d e f g h i j Von Apple auf eine ASCII -Sequenz abgebildet, die von der vorangestellt wurde privater Gebrauch Zeichen U+F862.[19]
  22. ^ a b c d e f g h i Von Apple auf eine Sequenz der ASCII -Ziffer, des kombinierenden Quadrats U+20de und der privater Gebrauch Charakter U+F875.[19] Das hier simulierte Aussehen simuliert.
  23. ^ a b c d e f g h i j k Von Apple auf eine ASCII -Sequenz mit der Zahl in abgebildet eckige Klammern, vorangestellt von der privater Gebrauch Charakter U+F866.[19] Das hier simulierte Aussehen simuliert.
  24. ^ a b c d Diese doppelten Zeichen in weitgehend doppelt in Reihe 1. Apple beschreibt sie als "lange" Versionen und fügt die an Privatcharakter U+F879 für Roundtrippingzwecke.[19]
  25. ^ a b c d Die mackoräische Kodierung umfasst auch mehrere Sätze unterschiedlich gestalteter Pfeile (einschließlich weißer Pfeile) außerhalb der KS x 1001 -Ebenenbereiche mit Lead -Bytes 0xa8 und 0xAC und Trail -Bytes zwischen 0x41 und 0xa0. Apple findet die an Privatcharakter U+F878 zu diesem bestimmten Satz weißer Pfeile für Roundtripsen.[19]
  26. ^ a b Im Gegensatz zu denen in Reihe 1Diese beiden Markierungen sollen in niedriger Position angezeigt werden (ähnlich wie U+301F). Apple findet die an Privatcharakter U+F873, um sie zu unterscheiden.[19]
  27. ^ Apple ordnet dies auf u+21e7+f87f zu, wobei U+21E7 der weiße Pfeil ist[19] und u+f87f ist a privater Gebrauch Charakter, obwohl dieser Charakter ein schwarzer Pfeil ist.[24] Das gezeigte Zeichen ist ein Unicode -Zeichen, das die Mapping -Tabelle von Apple nachdatiert und der Glyphe ähnelt[24] Für diesen mackorischen Charakter.
  28. ^ Apple ordnet dies auf eine Sequenz der ASCII -Ausrufe zu, gefolgt von der privater Gebrauch Zeichen U+F87f.[19]
  29. ^ Einige Zuordnungen für diese Kodierungen sind verfügbar hier.
  30. ^ a b c d Wäre dieser benutzt, würde es zu einem Trail -Byte in der führen C0 -Steuercodes Angebot.
  31. ^ a b c d Wären diese verwendet, würde es zu Trail -Bytes in den Zeilen von 0x2 und 0x3_ von ASCII führen. Johab verwendet die 0x2 -Reihe nicht für Trail -Bytes, ähnlich wie bei den meisten CJK -Codierungen des Legacy (Compare Schicht jis, GBK, Die großen 5). Die EBCDIC-basierte Version von Johab verwendet keine Trail-Bytes aus beiden Zeilen, da sie sich im EBCDIC-Kontrollcodebereich befinden.

Verweise

  1. ^ a b c d e Lunde, Ken (2009). "Kapitel 3: Zeichensatzstandards". CJKV -Informationsverarbeitung. p. 143-148. ISBN 978-0596514471.
  2. ^ a b c d e f Hwang, Jinsang (2005). Die soziale Gestaltung der IKT -Standards: Ein Fall von nationalen Coded -Charakter -Standard -Kontroversen in Korea (PDF). Universität von Edinburgh.
  3. ^ a b c Lunde, Ken (1995-12-18). "2.4.6: veraltete Standards". Cjk.inf Version 1.9.
  4. ^ a b Shin, Jungshik. "Was sind KS x 1001 (KS C 5601) und andere Hangul -Codes?". Hangul & Internet in Korea FAQ.
  5. ^ a b c d Lunde, Ken (1995-12-18). "3.3.6: n-byte Hangul". Cjk.inf Version 1.9.
  6. ^ a b "Info: Hangul (koreanische) Charakter -Sets", Microsoft -Unterstützung, Microsoft
  7. ^ a b ZSigri, Gyula (2002-06-18). "KSC und UHC".
  8. ^ Chang, Hye-Shik (28. November 2021). "cpython/modules/cjkCodecs/_codecs_kr.c (Revision D3FAF43)". cpython Quellbaum. Python Software Foundation.
  9. ^ a b c Chung, Jaemin (2017-03-30). Vorschlag, u+3164 Hangul Füllstoff einen informativen Hinweis hinzuzufügen (PDF). Unicode -Konsortium. UTC L2/17-081.
  10. ^ "Code Seite 01040" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  11. ^ "Code Seite 00891" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08.
  12. ^ "KSRI-87-37-IR: 항 을 ・ 한자 코드 표 준화 에 예 연구 연구 연구 연구 연구 연구 연구 연구 연구 연구 연구 연구 연구 연구 을 ・ ・ 한자 한자 한자 한자 한자 ・ 을 ・ ・ ・ ・ 한자 한자 한자 ・ ・ ・ ・ ・ ・ 한자 한자 한자 ・ ・ ・ ・ ・ ・ 한자 한자 한자 연구 연구 연구 연구 을 ・ ・ 한자 코드 표 예 연구 연구 을 ・ 한자 코드 코드 표 연구 연구 항 을 ・ 한자 코드 표 준화 항 연구 연구 항 을 ・ ・ 한자 코드 표 (PDF) (in Koreanisch). Ministerium für Wissenschaft und Technologie. 1987. p. 68. archiviert von das Original (PDF) Am 2019-03-01.
  13. ^ "IBM-1363_P110-1997 (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode / Unicode -Konsortium.
  14. ^ "EUC-kr (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  15. ^ a b c d "Karte (externe Version) von Mac OS Korean Coding zu Unicode 3.2 und später". Apfel.
  16. ^ "Windows-949-2000 (Lead Byte A1)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode / Unicode -Konsortium.
  17. ^ a b c d "Lead Byte A1-A2 (Code Seite 949)". Msdn. Microsoft.
  18. ^ Korea Bureau of Standards (1988-10-01). Koreanischer Grafikzeichen für den Informationsaustausch (PDF). Itcj/Ipsj. ISO-IR-149.
  19. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab AC Anzeige ae Apfel (2005-04-05). "Karte (externe Version) von Mac OS Korean Coding zu Unicode 3.2 und später". Unicode -Konsortium.
  20. ^ "Windows-949-2000 (Lead Byte A2)". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode / Unicode -Konsortium.
  21. ^ a b Lunde, Ken (2018-01-21). "Vorschlag zum Hinzufügen standardisierter Variationssequenzen für die ostasiatische Interpunktion mit voller Breite" (PDF). UTC L2/17-436.
  22. ^ a b "Standardisierte Variante.txt: Standardisierte Variationssequenzen". Unicode -Zeichendatenbank. Unicode -Konsortium.
  23. ^ Lunde, Ken (2009). "Anscheinend fehlende Charaktere". CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. p. 180. ISBN 978-0-596-51447-1.
  24. ^ a b Lunde, Ken (2009). "Anhang E: Anbieter -Charakter -Set -Standards" (PDF). CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer (2. Aufl.). Sebastopol, ca.: O'Reilly. ISBN 978-0-596-51447-1.
  25. ^ a b c Lunde, Ken (2008). "Kapitel 4: Codierungsmethoden (§ Johab -Codierung - KKs x 1001: 2004)". CJKV -Informationsverarbeitung (2. Aufl.). Sebastopol, Kalifornien: O'Reilly Media. S. 268–273. ISBN 978-0-596-51447-1.
  26. ^ a b Shin, Jungshik (2011-10-14) [1999-08-16]. JOHAB TO UNICODE TABELLE. Unicode -Konsortium.
  27. ^ "Code -Seiten -Identifikatoren". Windows Dev Center. Microsoft.
  28. ^ a b "IBM-1364_P110-2007". Internationale Komponenten für Unicode. Unicode -Konsortium.
  29. ^ "IBM-933_P110-1995". Internationale Komponenten für Unicode. Unicode -Konsortium.

Externe Links