JIS X 0208
Alias (e) | JIS C 6226 |
---|---|
Sprachen) | japanisch, Englisch, Russisch, bulgarisch Teilweise Unterstützung: griechisch, Chinesisch |
Standard | JIS X 0208: 1978 bis 1997 |
Einstufung | ISO 2022, DBCs, CJK -Codierung |
Erweiterungen | ARIB STD B24 Kanji, NEC PC98 DBCs |
Codierungsformate |
|
Vorausgegangen von | Jis x 0201 |
gefolgt von | Jis x 0213 |
Andere verwandte Kodierungen (en) | KS x 1001, GB 2312, Jis x 0212 |
Jis x 0208 ist ein 2-Byte Zeichensatz angegeben als a Japanischer Industriestandard, enthält 6879 Grafikzeichen, die zum Schreiben von Text, Ortsnamen, persönlichen Namen usw. geeignet sind japanische Sprache. Der offizielle Titel des aktuellen Standards ist 7-Bit- und 8-Bit-Doppel-Byte-kodierte Kanji-Sätze zum Informationsaustausch (7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō). Es wurde ursprünglich als festgestellt JIS C 6226 1978 wurde und wurde 1983, 1990 und 1997 überarbeitet. Es heißt auch Code Seite 952 von IBM. Die Version von 1978 heißt auch Code Seite 955 von IBM.
Nutzungsumfang und Kompatibilität
Der Charakter -Set jis x 0208 legt in erster Linie für den Zweck von vor Informationsaustausch (情報交換, jōhō kōkan) Zwischen Datenverarbeitungssystemen und den mit ihnen verbundenen Geräten oder gegenseitig zwischen Datenkommunikationssystemen. Dieser Zeichensatz kann für die Datenverarbeitung und Textverarbeitung verwendet werden.
Teilweise Implementierungen des Charaktersatzes werden nicht als kompatibel angesehen. Weil es Orte gibt, an denen solche Dinge als ursprüngliches Entwurfskomitee des ersten Standards geschehen sind, um die Charaktere zwischen Level 1 und Level 2 und dem zweiten Standard zu trennen und dann einige Varianten zu mischen (異体字,,,,, Itaiji) zwischen den Ebenen, zumindest im ersten und zweiten Standard, wird vermutet, dass nichtKanji Die japanische Computersysteme der Stufe 1 wurden einmal für die Entwicklung in Betracht gezogen. Solche Implementierungen wurden jedoch nie als kompatibel angegeben, obwohl Beispiele wie die frühe NEC PC-9801 existierte.[1]
Obwohl es im JIS X 0208: 1997-Standard für die Kompatibilität Bestimmungen gibt, wird derzeit allgemein angenommen, dass dieser Standard weder die Kompatibilität noch ein offizieller Fertigungsstandard ist, der eine Selbstkompatibilitätserklärung entspricht.[2] Folglich, de facto, Jis x 0208- "kompatible" Produkte werden nicht als existieren. Terminologie wie "Konformant" (準拠, junkyo) und Unterstützung" (対応, taiō) ist in jis x 0208 enthalten, aber die Semantik dieser Begriffe variiert von Person zu Person.
Codediagramme
Lead -Byte
Das erste Codierungs -Byte entspricht der Zeile oder Zellnummer plus 0x20 oder 32 in Dezimalzahl (siehe unten). Daher hat der Code -Satz mit 0x21 eine Zeilenzahl von 1 und seine Zelle 1 hat ein Fortsetzungsbyte von 0x21 (oder 33) und so weiter.
Für Lead -Bytes, die für andere Zeichen als als Zeichen verwendet werden Kanji, Links werden für Diagramme auf dieser Seite bereitgestellt, in denen die unter dieser Lead -Byte codierten Zeichen aufgeführt sind. Für Lead -Bytes, die für Kanji verwendet werden, werden Links zum entsprechenden Abschnitt von bereitgestellt WiktionärKanji Index.
JIS X 0208 (Lead -Bytes) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | Sp | 1-_ | 2-_ | 3-_ | 4 -_ | 5 -_ | 6 -_ | 7-_ | 8 -_ | 9 -_ | 10-_ | 11-_ | 12-_ | 13-_ | 14-_ | fünfzehn-_ |
3x | 16-_ | 17-_ | 18-_ | 19-_ | 20-_ | 21-_ | 22-_ | 23-_ | 24 -_ | 25 -_ | 26-_ | 27-_ | 28-_ | 29-_ | 30-_ | 31-_ |
4x | 32-_ | 33 -_ | 34 -_ | 35-_ | 36 -_ | 37-_ | 38 -_ | 39-_ | 40-_ | 41-_ | 42-_ | 43-_ | 44 -_ | 45-_ | 46 -_ | 47-_ |
5x | 48 -_ | 49-_ | 50-_ | 51-_ | 52-_ | 53-_ | 54 -_ | 55-_ | 56 -_ | 57-_ | 58 -_ | 59-_ | 60-_ | 61-_ | 62-_ | 63-_ |
6x | 64-_ | 65-_ | 66-_ | 67-_ | 68-_ | 69-_ | 70-_ | 71-_ | 72-_ | 73-_ | 74-_ | 75-_ | 76 -_ | 77-_ | 78 -_ | 79-_ |
7x | 80-_ | 81-_ | 82-_ | 83-_ | 84-_ | 85-_ | 86-_ | 87-_ | 88 -_ | 89-_ | 90-_ | 91-_ | 92-_ | 93-_ | 94-_ | Del |
Nicht-Kanji-Reihen
Zeichensatz 0x21 (Zeilennummer 1, Sonderzeichen)
Einige Anbieter verwenden für diesen Satz eine leicht unterschiedliche Unicode -Mapping als die unten. Zum Beispiel, Microsoft Maps Kuten 1-29 (JIS 0x213d) bis U+2015 (horizontale Balken),[3] wohingegen Apfel ordnet es U+2014 (EM Dash) ab.[4] In ähnlicher Weise Microsoft Maps Kuten 1-61 (JIS 0x215d) bis U+FF0D[3] (Die Fullwidth-Form von U+002D-Hyphen-Minus) und Apple ordnen sie auf U+2212 (minus Zeichen).[4] Unicode -Mapping des Wellenhreises unterscheidet sich auch zwischen Anbietern. Siehe die Zellen mit Fußnoten unten.
ASCII und Jiscii Interpunktion (hier mit einem schweren grünen Rand gezeigt) kann alternative Zuordnungen an die verwenden Halbbreiten- und Vollbreitenformen Blockieren Sie, wenn Sie in einer Codierung verwendet werden, die JIS x 0208 mit kombiniert ASCII oder mit Jis x 0201, wie zum Beispiel Schicht jis, EUC-JP oder ISO 2022-JP.
JIS X 0208 (vorangestellt mit 0x21) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | IDSP | 、 | 。 | , | . | ・ | : | ; | ? | ! | ゛ | ゜ | ´ | ` | ¨ | |
3x | ^ | ‾ | _ | ヽ | ヾ | ゝ | ゞ | 〃 | 仝 | 々 | 〆 | 〇 | ー | —[b] | ‐ | / |
4x | \ | 〜[c] | ‖[d] | | | … | ‥ | ‘ | ’ | “ | ” | ( | ) | 〔 | 〕 | [ | ] |
5x | { | } | 〈 | 〉 | 《 | 》 | 「 | 」 | 『 | 』 | 【 | 】 | + | −[e] | ± | × |
6x | ÷ | = | ≠ | < | > | ≦ | ≧ | ∞ | ∴ | ♂ | ♀ | ° | ′ | ″ | ℃ | ¥ |
7x | $ | ¢ | £ | % | # | & | * | @ | § | ☆ | ★ | ○ | ● | ◎ | ◇ |
Zeichensatz 0x22 (Zeilennummer 2, Sonderzeichen)
Die meisten Zeichen in diesem Satz wurden 1983 hinzugefügt, mit Ausnahme der Zeichen 0x2221–0x222e (Kuten 2-1 bis 2-14 oder die erste Zeile der Tabelle unten), die in die ursprüngliche Version des Standards von 1978 aufgenommen wurden.
JIS x 0208 (vorangestellt mit 0x22) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | ◆ | □ | ■ | △ | ▲ | ▽ | ▼ | ※ | 〒 | → | ← | ↑ | ↓ | 〓 | ||
3x | ∈ | ∋ | ⊆ | ⊇ | ⊂ | ⊃ | ||||||||||
4x | ∪ | ∩ | ∧ | ∨ | ¬ | ⇒ | ⇔ | ∀ | ||||||||
5x | ∃ | ∠ | ⊥ | ⌒ | ∂ | |||||||||||
6x | ∇ | ≡ | ≒ | ≪ | ≫ | √ | ∽ | ∝ | ∵ | ∫ | ∬ | |||||
7x | Å | ‰ | ♯ | ♭ | ♪ | † | ‡ | ¶ | ◯ |
Zeichensatz 0x23 (Zeilennummer 3, Ziffern und Roman)
Dieser Satz enthält eine Teilmenge der ISO 646 invariantes Satz (und daher auch eine Teilmenge von beidem ASCII und die Jis x 0201 Römischer Set), abzüglich Zeichensetzung und Symbole, bestehend aus Westarabische Ziffern und beide Fälle der Grundlegendes lateinisches Alphabet. Zeichen in diesem Satz können alternative Unicode -Zuordnungen an den verwenden Halbbreiten- und Vollbreitenformen Blockieren Sie, wenn Sie in einer Codierung verwendet werden, die JIS x 0208 mit ASCII oder mit JIS x 0201 kombiniert, wie z. EUC-JP, Schicht jis oder ISO 2022-JP.
Vergleichen Reihe 3 von KPS 9566, was diese Reihe genau übereinstimmt. Vergleichen und gegenüberstellen Reihe 3 von KS x 1001 und von GB 2312, einschließlich ihrer gesamten nationalen Varianten von ISO 646 In dieser Zeile und nicht nur die alphanumerische Untergruppe.
JIS x 0208 (vorangestellt mit 0x23) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | ||||||||||||||||
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ||||||
4x | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | |||||
6x | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | |
7x | p | q | r | s | t | u | v | w | x | y | z |
Zeichensatz 0x24 (Zeilennummer 4, Hiragana)
Diese Reihe enthält Japanisch Hiragana.
Vergleichen Reihe 4 von GB 2312, was zu dieser Reihe passt. Vergleiche und Kontrastreihe 10 von KPS 9566 und von ks x 1001, die das gleiche Layout verwenden, aber in einer anderen Zeile.
JIS x 0208 (vorangestellt mit 0x24) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | ぁ | あ | ぃ | い | ぅ | う | ぇ | え | ぉ | お | か | が | き | ぎ | く | |
3x | ぐ | け | げ | こ | ご | さ | ざ | し | じ | す | ず | せ | ぜ | そ | ぞ | た |
4x | だ | ち | ぢ | っ | つ | づ | て | で | と | ど | な | に | ぬ | ね | の | は |
5x | ば | ぱ | ひ | び | ぴ | ふ | ぶ | ぷ | へ | べ | ぺ | ほ | ぼ | ぽ | ま | み |
6x | む | め | も | ゃ | や | ゅ | ゆ | ょ | よ | ら | り | る | れ | ろ | ゎ | わ |
7x | ゐ | ゑ | を | ん |
Zeichensatz 0x25 (Zeilennummer 5, Katakana)
Diese Reihe enthält Japanisch Katakana.
Vergleichen Reihe 5 von GB 2312, was zu dieser Reihe passt. Vergleiche und Kontrastreihe 11 vergleiche von KPS 9566 und von ks x 1001, die das gleiche Layout verwenden, aber in einer anderen Zeile. Vergleichen Sie das erheblich unterschiedliche Katakana -Layout, das von verwendet wird Jis x 0201.
JIS x 0208 (vorangestellt mit 0x25) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | ァ | ア | ィ | イ | ゥ | ウ | ェ | エ | ォ | オ | カ | ガ | キ | ギ | ク | |
3x | グ | ケ | ゲ | コ | ゴ | サ | ザ | シ | ジ | ス | ズ | セ | ゼ | ソ | ゾ | タ |
4x | ダ | チ | ヂ | ッ | ツ | ヅ | テ | デ | ト | ド | ナ | ニ | ヌ | ネ | ノ | ハ |
5x | バ | パ | ヒ | ビ | ピ | フ | ブ | プ | ヘ | ベ | ペ | ホ | ボ | ポ | マ | ミ |
6x | ム | メ | モ | ャ | ヤ | ュ | ユ | ョ | ヨ | ラ | リ | ル | レ | ロ | ヮ | ワ |
7x | ヰ | ヱ | ヲ | ン | ヴ | ヵ | ヶ |
Zeichensatz 0x26 (Zeilennummer 6, Griechisch)
Diese Zeile enthält grundlegende Unterstützung für die Moderne griechisches Alphabet, ohne Diakritik oder die Final Sigma.
Vergleichen Reihe 6 von GB 2312 und GB 12345 und Reihe 6 von KPS 9566, die dieselben griechischen Buchstaben in demselben Layout enthalten, obwohl GB 12345 vertikale Präsentationsformulare und KPS 9566 römische Ziffern hinzufügt. Vergleichen und gegenüberstellen Reihe 5 von KS x 1001, der die griechischen Buchstaben ausschüttet, um zuerst die römischen Ziffern einzuschließen.
JIS X 0208 (vorangestellt mit 0x26) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | Α | Β | Γ | Δ | Ε | Ζ | Η | Θ | Ι | Κ | Λ | Μ | Ν | Ξ | Ο | |
3x | Π | Ρ | Σ | Τ | Υ | Φ | Χ | Ψ | Ω | |||||||
4x | α | β | γ | δ | ε | ζ | η | θ | ι | κ | λ | μ | ν | ξ | ο | |
5x | π | ρ | σ | τ | υ | φ | χ | ψ | ω | |||||||
6x | ||||||||||||||||
7x |
Zeichensatz 0x27 (Zeilennummer 7, kyrillisch)
Diese Reihe enthält die Moderne Russisches Alphabet und reicht nicht unbedingt aus, um andere Formen der darzustellen Cyrillic Drehbuch.
Vergleichen Reihe 7 von GB 2312, was zu dieser Reihe passt. Vergleichen und gegenüberstellen Reihe 12 von KS x 1001 und Reihe 5 von KPS 9566, die das gleiche Layout verwenden (aber in einer anderen Zeile).
JIS X 0208 (vorangestellt mit 0x27) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | А | Б | В | Г | Д | Е | Ё | Ж | З | И | Й | К | Л | М | Н | |
3x | О | П | Р | С | Т | У | Ф | Х | Ц | Ч | Ш | Щ | Ъ | Ы | Ь | Э |
4x | Ю | Я | ||||||||||||||
5x | а | б | в | г | д | е | ё | ж | з | и | й | к | л | м | н | |
6x | о | п | р | с | т | у | ф | х | ц | ч | ш | щ | ъ | ы | ь | э |
7x | ю | я |
Zeichensatz 0x28 (Zeilennummer 8, Boxzeichnung)
Alle Charaktere in diesem Set wurden 1983 hinzugefügt und waren in der ursprünglichen Überarbeitung des Standards von 1978 nicht vorhanden.
JIS X 0208 (vorangestellt mit 0x28) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | │ | ─ | ┐ | ┌ | └ | ┘ | ┤ | ┬ | ├ | ┴ | ┼ | ━ | ┃ | ┏ | ┓ | |
3x | ┗ | ┛ | ┫ | ┳ | ┣ | ┻ | ╋ | ┠ | ┯ | ┨ | ┷ | ┿ | ┝ | ┰ | ┥ | ┷ |
4x | ╂ | |||||||||||||||
5x | ||||||||||||||||
6x | ||||||||||||||||
7x |
Erweiterungszeichen Set 0x2d (Zeilennummer 13, NEC -Sonderzeichen)
Die Zeilen 9 bis 15 des JIS X 0208 -Standards sind leer.
Das folgende Layout für Zeile 13, das erstmals von vorgestellt wurde NEC, ist eine häufige Erweiterung. Es wird verwendet (mit geringfügigen Variationen, in Fußnoten angegeben) von Windows-932[3] (was von der übereinstimmt Waswg Codierungsstandard verwendet von HTML5) nach der Postscript -Variante (aber seitdem Kanjitalk Version 7, nicht die reguläre Variante)[5] von Makjapaner, und von Jis x 0213 (Der Nachfolger von JIS x 0208).[5][6] Im Gegensatz zu den anderen von Windows-932/Whatwg und JIS X 0213 hergestellten Erweiterungen ist die beiden Spiele eher zusammen als die Kollidierung, sodass die Dekodierung des größten Teils dieser Reihe besser unterstützt wird als die anderen von JIS X 0213 hergestellten anderen Erweiterungen.
NEC -Sonderzeichen für JIS x 0208 (vorangestellt von 0x2d) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
2x | ① | ② | ③ | ④ | ⑤ | ⑥ | ⑦ | ⑧ | ⑨ | ⑩ | ⑪ | ⑫ | ⑬ | ⑭ | ⑮ | |
3x | ⑯ | ⑰ | ⑱ | ⑲ | ⑳ | Ⅰ | Ⅱ | Ⅲ | Ⅳ | Ⅴ | Ⅵ | Ⅶ | Ⅷ | Ⅸ | Ⅹ | Ⅺ[f] |
4x | ㍉ | ㌔ | ㌢ | ㍍ | ㌘ | ㌧ | ㌃ | ㌶ | ㍑ | ㍗ | ㌍ | ㌦ | ㌣ | ㌫ | ㍊ | ㌻ |
5x | ㎜ | ㎝ | ㎞ | ㎎ | ㎏ | ㏄ | ㎡ | Ⅻ[f] | ㍻[g] | |||||||
6x | 〝 | 〟 | № | ㏍ | ℡ | ㊤ | ㊥ | ㊦ | ㊧ | ㊨ | ㈱ | ㈲ | ㈹ | ㍾ | ㍽ | ㍼ |
7x | ≒[h] | ≡[h] | ∫[h] | ∮ | ∑ | √[h] | ⊥[h] | ∠[h] | ∟ | ⊿ | ∵[h] | ∩[h] | ∪[h] | ❖[f] | ☞[f] |
Kanjireihen
Codestruktur
Um zu vertreten CodepunkteSpalten-/Zeilennummern werden für Ein-Byte-Codes verwendet und Kuten Zahlen werden für Zwei-Byte-Codes verwendet. Um einen Charakter zu identifizieren, ohne von einem Code abhängig zu sein, werden Zeichennamen verwendet.
Einzel -Byte -Codes
Fast alle jis x 0208 Grafischer Charakter Codes werden mit zwei Bytes von jeweils mindestens sieben Bit dargestellt. Allerdings alles Steuerzeichensowie die Ebene Platz - Obwohl nicht die ideografischer Raum -wird mit einem One-Byte-Code dargestellt. Um die zu repräsentieren Bit -Kombination (ビット組合せ, bitto kumiawase) eines One-Byte-Code, zwei Dezimalzahlen-a Spaltennummer und ein Zeilennummer - werden verwendet. Drei von sieben oder vier hohen Ordnung von acht hohen Ordnung, die von Null bis sieben bzw. von Null bis fünfzehn zählen, bilden die Säulenummer. Vier Bits niedriger Ordnung, die von Null bis fünfzehn Zählen der Liniennummer bilden. Jede Dezimalzahl entspricht einer hexadezimal Ziffer. Beispielsweise beträgt die Bit-Kombination, die dem grafischen Zeichen "Space" entspricht, 010 0000 als 7-Bit-Zahl und 0010 0000 als 8-Bit-Zahl. In der Spalten-/Zeilennotation wird dies als 2/0 dargestellt. Andere Darstellungen desselben Single-Byte-Codes umfassen 0x20 als hexadezimal oder 32 als einzelne Dezimalzahl.
Codepunkte und Code -Nummern
Die Doppel-Byte-Codes werden in 94 nummerierten Gruppen angelegt, die jeweils a genannt werden die Zeile (区, ku, zündete. "Sektion"). Jede Zeile enthält 94 nummerierte Codes, die jeweils a genannt werden Zelle (点, ten, zündete. "Punkt").[ich] Dies macht insgesamt 8836 (94 × 94) mögliche Codepunkte (obwohl nicht alle zugewiesen sind, siehe unten); Diese werden in einer 94-Spal-Code-Tabelle im Standard in einer 94-Linie-Codetabelle festgelegt.
Eine Zeilennummer und eine Zellnummer (jeweils nummeriert von 1 bis 94 für einen Standard -JIS X 0208 -Code) Form A Kuten (区点) Punkt, mit dem Doppel-Byte-Codepunkte dargestellt werden. Eine Codenummer oder Kuten Nummer (区点番号, kuten bangō) wird in der Form "Reihenzell" ausgedrückt, wobei die Zeilen- und Zellzahlen durch a getrennt werden Bindestrich. Zum Beispiel der Charakter "亜"Hat einen Codepunkt in Zeile 16, Zelle 1, daher wird die Codenummer als" 16-01 "dargestellt.
In 7-Bit-JIS x 0208 (wie in JIS x 0202 / umgestellt werden kann ISO-2022-JP) beide Bytes müssen aus dem 94-Byte-Bereich von stammen 0x21 (verwendet für Zeilen- oder Zellnummer 1) über 0x7e (verwendet für Zeilen- oder Zellnummer 94)-genau entspricht dem Bereich, den für 7-Bit-ASCII-Druckzeichen verwendet werden, ohne den Raum zu zählen. Dementsprechend werden die codierten Bytes durch Zugabe von 0x20 (32) zu jeder Zahl erhalten.[7] Zum Beispiel würde das obige Beispiel von 16-01 ("亜") durch die Bytes dargestellt 0x30 0x21
. Der 8-Bit EUC-JP verwendet stattdessen den Bereich 0xa1 bis 0xFE (Einstellung des hohen Bits auf 1), während andere Codierungen wie Schicht jis Verwenden Sie kompliziertere Transformationen. Shift JIS enthält mehr Codierungsraum als für JIS X 0208 selbst benötigt. Einige Verschiebungs -JIS -spezifische Erweiterungen zu JIS x 0208 verwenden Zeilennummern über 94.[8]
Diese Struktur wird auch auf dem chinesischen Festland verwendet GB 2312, wo es nativ bekannt ist als 区位; qūwèiund der südkoreanische KS C 5601 (derzeit KS x 1001), bei dem die Ku und zehn sind jeweils bekannt als aufhängen[9] (행; 行; haeng) und Yol[9] (열; 列; yeol). Am später Jis x 0213 erweitert diese Struktur, indem Sie mehr als eine Ebene haben (面, men, zündete. "Gesicht") von Reihen, die auch die Struktur ist, die von verwendet wird ZNS 11643und bezogen auf die Struktur durch CCCII.
Nicht zugewiesene Codepunkte
Unter den 2-Byte-Codes sind die Reihen von 9 bis 15 und 85 bis 94 nicht zugewiesene Codepunkte (空き領域, aki ryōiki); Das heißt, es sind Codepunkte ohne ihnen zugeordnete Zeichen. Einige Zellen in anderen Zeilen sind auch im Wesentlichen nicht zugewiesene Codepunkte.
Diese leeren Bereiche enthalten Codepunkte, die im Grunde nicht verwendet werden sollten. Außer wenn es zuvor eine Übereinstimmung unter den zuständigen Parteien gibt, Charaktere (Gaiji) Für den Informationsaustausch sollte den nicht zugewiesenen Codepunkten nicht zugeordnet werden.
Selbst wenn sie nicht zugewiesene Codepunkte zugewiesen werden, sollten grafische Zeichen, die im Standard definiert sind, nicht ihnen zugewiesen werden, und das gleiche Zeichen sollte nicht mehreren nicht zugewiesenen Codepunkten zugeordnet werden. Zeichen sollten im Set nicht dupliziert werden.
Bei der Zuweisung von Zeichen nicht zugewiesener Codepunkte muss es außerdem vorsichtig sein, um vorsichtig zu sein Vereinigung In Bezug auf Kanji -Glyphen. Beispielsweise entspricht Zelle 25 Zelle 66 dem Kanji "hoch" oder "teuer"; Sowohl die Form mit einer Komponente, die dem "Mund" -Scharakter ähnelt (口) mitten drin (高) und die weniger gemeinsame Form mit einer leiterähnlichen Konstruktion am selben Ort (髙) werden in denselben Codepunkt subsumiert. Infolgedessen würde die Begrenzung des Punktes 25-66 auf die Formular "Mund" und das Zuweisen der letzteren "Leiter" einem nicht zugewiesenen Codepunkt technisch gegen den Standard verstoßen.
In der Praxis jedoch mehrere Lieferantenspezifische Schicht jis Varianten, einschließlich Windows-932 und Makjapaner, codieren Anbieter -Erweiterungen in nicht zugewiesenen Zeilen des Codierungsraums für JIS X 0208. Auch die meisten der in JIS x 0208 nicht zugewiesenen Codes werden vom neueren zugewiesen Jis x 0213 Standard.
Character names
Jedes JIS x 0208 -Zeichen erhält a Name. Durch die Verwendung des Namens eines Zeichens ist es möglich, Zeichen zu identifizieren, ohne sich auf ihre Codes zu verlassen. Die Namen von Zeichen werden mit anderen Zeichensatzstandards koordiniert, insbesondere die Universal codiertes Zeichensatz (UCS/Unicode), also ist dies eine mögliche Quelle von Charakterzuordnungen für Zeichensätze wie Unicode. Zum Beispiel beide der Charakter bei ISO/IEC 646 Internationale Referenzversion (US-Ascii) Spalte 4 Zeile 1 und die bei JIS x 0208 Zelle 3 Zelle 33 haben den Namen "Latin Capital Letter a". Daher kann das Charakter bei 4/1 in ASCII und das Zeichen bei 3-33 in JIS x 0208 als der gleiche Zeichen angesehen werden (obwohl in der Praxis, obwohl, obwohl, obwohl, obwohl, obwohl dieselbe Zeichen Alternative Mapping wird für das JIS x 0208 -Zeichen verwendet, da Codierungen, die ASCII separat liefern). Umgekehrt können ASCII-Zeichen 2/2 (Anführungszeichen), 2/7 (Apostroph), 2/13 (Hyphenminus) und 7/14 (Tilde) als Zeichen, die in diesem Standard nicht existieren, festgestellt werden.
Charakternamen von Nicht-Kanji-Zeichen verwenden Großbuchstaben, Räume und Bindestriche. Nicht-Kanji-Zeichen erhalten einen japanischsprachigen gebräuchlichen Namen (日本語通用名称, Nihongo tsūyō meishō), aber einige Bestimmungen für diese Namen existieren nicht.[j] Die Namen von Kanji hingegen werden mechanisch gemäß der entsprechenden hexadezimalen Darstellung ihres Code in UCS/Unicode eingestellt. Der Name eines Kanji kann durch die Vorbereitung des Unicode-Codepoint mit "CJK Unified Ideograph-" erreicht werden. Zum Beispiel Zeile 16 Zelle 1 (亜) entspricht U+4E9c in UCs, so dass der Name "CJK Unified ideograph-4e9c" lautet. Kanji erhalten keine japanischen gebräuchlichen Namen.
Kanji Set
Überblick
JIS X 0208 schreibt einen Satz von 6879 grafischen Zeichen vor, die zwei Byte-Codes mit sieben oder acht Bits zum Byte entsprechen. In jis x 0208 wird dies als die genannt Kanji Set (漢字集合, kanji shūgō), einschließlich 6355 Kanji sowie 524 Nicht-kanji (非漢字, hikanji), einschließlich Charakteren wie lateinische Buchstaben, Kana, und so weiter.
- Spezielle Charaktere
- Nimmt die Reihen 1 und 2 ein Deskriptorsymbole (記述記号, kijutsu kigō) wie der "ideografische Raum" () und die Japaner Komma und Zeitraum; acht diakritische Markierungen wie zum Beispiel Dakuten und Handakuten; 10 Zeichen für Dinge, die Kana oder Kanji folgen (仮名又は漢字に準じるもの, kana mata wa kanji ni junjiru mono) so wie die Iterationszeichen; 22 Klammersymbole (括弧記号, kakko kigō); 45 mathematische Symbole (学術記号, gakujutsu kigō); und 32 Einheitssymbole, einschließlich der Währungszeichen und die Postmarkefür insgesamt 147 Zeichen.
- Ziffern
- Netzt sich in Teil von Reihe 3. die zehn Ziffern von "0" bis "9" ein.
- lateinische Buchstaben
- Netzt sich Teil von Reihe 3. Die 26 Buchstaben des englischen Alphabets in Groß- und Kleinbuchstaben für insgesamt 52 ein.
- Hiragana
- Besetzung von Reihe 4. Enthält 48 nicht gestaltete Kana (einschließlich der veralteten wi und wir), 20 geäußert Kana (Dakuten), 5 semi-stimmhafte Kana (Handakuten) 10 kleine Kana für palatalisierte und assimilierte Geräusche für insgesamt 83 Zeichen.
- Katakana
- Besetzt sich Zeile 5. Es gibt 86 Zeichen; Zusätzlich zu den Katakana -Äquivalenten der Hiragana -Charaktere die klein Ka/ke kana (ヵ/ヶ) und die Vu kana (ヴ).
- griechische Buchstaben
- Besetzt Reihe 6. Die 24 Buchstaben des griechischen Alphabets in Groß- und Kleinbuchstaben (ohne das Finale Sigma) für insgesamt 48.
- Kyrillische Buchstaben
- Besetzt Reihe 7. Die 33 Buchstaben der Russisches Alphabet In Groß- und Kleinbuchstaben für insgesamt 66.
- Box-Drawing-Zeichen
- Netzt sichreihe 8. Dünne Segmente, dicke Segmente und gemischte dünne und dicke Segmente, insgesamt 32.
- Kanji
- Die 2965 Zeichen von Level 1 (第1水準, dai ichi suijun) von Reihe 16 bis zur Reihe 47 und den 3390 Zeichen von Level 2 (第2水準, dai ni suijun) Von Reihe 48 bis zur Reihe 84 für insgesamt 6355.
Sonderzeichen, Ziffern und lateinische Zeichen
Was die Sonderzeichen im Kanji -Set betrifft, einige Zeichen aus dem grafischen Zeichensatz der internationalen Referenzversion (IRV) von ISO/IEC 646: 1991 (gleichwertig zu ASCII) fehlen in jis x 0208. Es gibt die oben genannten vier Zeichen "Anführungszeichen", "Apostroph", "Hyphen-Minus" und "Tilde". Die ersteren drei werden in den Kanji-Set in verschiedene Codepunkte aufgeteilt (Nishimura, 1978; JIS X 0221-1: 2001 Standard, Abschnitt 3.8.7). Die "Tilde" von IRV hat keinen entsprechenden Charakter im Kanji -Set.
In der folgenden Tabelle werden die betreffenden ISO/IEC 646: 1991 IRV -Charaktere mit ihren Mehrfachäquivalenten in JIS x 0208 verglichen, mit Ausnahme des IRV -Charakters "Tilde", das mit dem "Wave Dash" von Jis x 0208 verglichen wird. In den Einträgen unter den Spalten "Symbol" werden UCS/Unicode -Codepunkte verwendet, sodass sich die Anzeigespezifikationen unterscheiden können.
Den ASCII/IRV -Zeichen ohne genaue JIS X 0208 -Äquivalente wurden später Codepunkte von zugewiesen Jis x 0213Diese sind auch unten aufgeführt, wie es sind Microsoft's Mapping der vier Zeichen.
ISO/IEC 646: 1991 IRV | Jis x 0208 | ||||||
---|---|---|---|---|---|---|---|
Spalte/Zeile | x0213[6] | Microsoft | Symbol | Name | Kuten | Symbol | Name |
2/2 | 1-2-16 | 92-94[EIN] 115-24[B] | " | ANFÜHRUNGSZEICHEN | 1-15 | ¨ | Diaerese |
1-40 | “ | Links doppelte Zitat Marke | |||||
1-41 | ” | Richtige Doppelzitat Marke | |||||
1-77 | " | Double Prime | |||||
2/7 | 1-2-15 | 92-93[EIN] 115-23[B] | '' | APOSTROPH | 1-13 | ´ | AKUTER AKZENT |
1-38 | " | Links ein Zitatzeichen | |||||
1-39 | “ | Richtige einzelne Anführungszeichen | |||||
1-76 | ' | Prime | |||||
2/13 | 1-2-17 | 1-61[C] | - | Bindestrich-Minus | 1-30 | - | BINDESTRICH |
1-61 | - | MINUSZEICHEN | |||||
7/14 | 1-2-18 | 1-33[D] | ~ | TILDE | (kein entsprechender Charakter) | ||
(kein entsprechender Charakter) | 1-33 | 〜 | Wave Dash[D] |
- ^ a b Aus "NEC -Auswahl der IBM -Erweiterungen". Netzt sich in JIS x 0208 einen Codepunkt ein, der nicht zugewiesen ist.
- ^ a b Aus "IBM Extensions". Außenbereich von JIS X 0208, aber in Shift_jis codierbar.
- ^ Microsoft behandelt das JIS Minus-Zeichen als Vollbreitenform des Bindestrichs.
- ^ a b Wave Dash wird manchmal als Vollbreitenform der Tilde behandelt, z. von Microsoft (siehe Tilde § Unicode- und Verschiebungs -JIS -Codierung von Wellen Dash). Das ASCII / IRV -Tilde ist ein mehrdeutiger Codepunkt, der entweder als Tilde -Akzentmarke (˜) oder als Armaturenbrett mit derselben Krümmung (∼) erscheinen kann Windows-1252; Es gibt keinen JIS X 0208 -Charakter für einen Tilde -Akzent. Das Zeichen 1-2-18 in JIS x 0213 wird als Tilde-Akzent im Code-Diagramm angezeigt.[6]
Dies bedeutet, dass das Kanji-Set der am weitesten verbreitete, nicht auf dem neu auftretende Charakter der Welt ist. Es wird als einer der Schwachstellen dieses Standards gezählt.
Selbst mit den 90 Sonderzeichen, Ziffern und lateinischen Buchstaben, die der Kanji -Set und das IRV -Set gemeinsam haben, folgt dieser Standard nicht der Anordnung von ISO/IEC 646. Diese 90 Zeichen werden zwischen Zeilen 1 (Interpunktion) und 3 aufgeteilt (Unterscheidung) und 3 ((Interpunktion) (Interpunktion) und 3 ((Interpunktion) (Interpunktion) (Interpunktion) ((Satz) und 3 ((Interpunktion) (Unterscheidung) und 3 ((Satz) und 3 ((Satz) und 3 ((Satz) und 3 ((Satz) und 3 aufgeteilt (Zeichen) und 3 aufgeteilt sind ((Interpunktion) und 3 aufgeteilt sind ((Satz) und 3 aufgeteilt werden ((Satz) und 3 (Abschnitt) (Zeichenbestimmung) (Interpunktion) ((Satz) und 3 ( Buchstaben und Zahlen), obwohl Zeile 3 der ISO 646 -Anordnung für die 62 Buchstaben und Zahlen allein folgt (z. 4/1
("A") In ISO 646 wird 2/3 4/1
(d. H. 3-33) in JIS x 0208).
In Bezug auf die Ursache, wie diese Ziffern, lateinischen Buchstaben usw. im Kanji-Set die "alphanumerischen Charaktere mit voller Breite" sind (全角英数字, zenkaku eisūji) Und wie die ursprüngliche Implementierung mit einer unterschiedlichen Interpretation im Vergleich zum IRV hervorging, wird angenommen, dass sie an diesen Inkompatibilitäten zurückzuführen ist.
Seit dem ersten Standard war es möglich, darzustellen Verbundwerkstoffe (合成, gōsei) wie zum Beispiel Eingebaute Zahlen, Ligaturen für Messeinheitennamen und römische Zahlen;[10] Sie wurden nicht unabhängig gegeben Kuten Codepunkte. Obwohl einzelne Unternehmen, die Informationssysteme herstellen Gaiji.
Im vierten Standard (1997) wurden alle diese Charaktere explizit als Zeichen definiert, die mit einem Fortschritt der aktuellen Position einhergehen. das heißt, sie sind es Abstandszeichen. Darüber hinaus wurde entschieden, dass sie nicht durch die Zusammensetzung von Charakteren hergestellt werden sollten. Aus diesem Grund wurde es nicht zugelassen, lateinische Charaktere mit darzustellen Diakritik überhaupt mit möglicherweise der alleinigen Ausnahme der Ångström Symbol (Å) in Reihe 2 Zelle 82.
Hiragana und Katakana
Das Hiragana und Katakana in jis x 0208, anders als zu Jis x 0201, einschließlich Dakuten und Handakuten Markierungen als Teil eines Charakters. Die Katakana wi (ヰ) und wir (ヱ) (beide im modernen Japaner veraltet) und kleiner WA (ヮ), nicht in jis x 0201, sind ebenfalls enthalten.
Die Anordnung von Kana in Jis x 0208 unterscheidet sich von der Anordnung von Katakana in JIS X 0201. In JIS x 0201 beginnt der Silbe mit wo (ヲ), gefolgt von der kleinen Kana, die von sortiert ist Gojūon Bestellung, gefolgt von der vollständigen Kana, ebenfalls in Gojūon bestellen (ヲァィゥェォャュョッーアイウエオ......ラリルレロワン). Andererseits werden in Jis x 0208 die Kana zuerst nach sortiert nach Gojūon Bestellen Sie dann in der Reihenfolge von "Small Kana, in voller Größe Kana, Kana mit Dakuten und Kana mit Handakuten", so dass dieselbe grundlegende Kana mit seinen Derivaten gruppiert ist (mit seinen Derivaten (ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん). Diese Bestellung wurde ausgewählt, um die Sortierung von in Kana ansässigen Wörterbuch-Look-ups einfacher zu erleichtern (Yasuoka, 2006).[k]
Wie oben erwähnt, wurde in diesem Standard die zuvor definierte Katakana -Bestellung in JIS X 0201 in JIS X 0208 nicht befolgt. Es wird angenommen, dass die JIS X 0201 Katakana ist. "Halbbreite Kana"Aufgrund der Inkompatibilität mit dem Katakana dieses Standards entstanden. Dieser Punkt ist auch eine der Schwächen dieses Standards.
Kanji
Wie der Kanji in diesem Standard aus welchen Quellen ausgewählt wurde, warum sie in Stufe 1 und Stufe 2 aufgeteilt werden und wie sie angeordnet werden, werden alle im vierten Standard (1997) ausführlich erklärt. Gemäß dieser Erklärung spiegelten sich die in den folgenden vier Kanji -Auflistungen enthaltenen Kanji in den 6349 Zeichen des ersten Standards (1978) wider.
- Kanji -Auflistung für Standardcode (vorläufig) (標準コード用漢字表 (試案), Hyōjun Kōdo-yō Kanjihyō (Shian))
- Das Informationsverarbeitungsgesellschaft Japans Das Kanji -Code -Komitee hat diese Liste 1971 zusammengestellt. In den folgenden "Korrespondenzanalyseergebnissen" scheint dies 6086 Zeichen zu sein.
- Grundlegende Kanji für die Verwendung der Verwaltungsdatenverarbeitung (行政情報処理用基本漢字, Gyōsei Jōhō Shoriyō Kihon Kanji)
- Es wurde 1975 von der Japan -Agentur der Verwaltungsmanagement ausgewählt und besteht aus 2817 Zeichen. Für Daten zum Zwecke der Auswahl erstellte die Agentur einen Bericht, der mit der "Kanji -Liste für Standardcode (vorläufig)" mehrere Kanji -Listen gegenüberlieg Normale Kanji -Auswahl " (行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果, Gyōsei Jōhō Shoriyō Kihon Kanji Sentei no Tame no Kanji no Shiyō Hindo Oyobi Taiō Bunseki Kekka), oder "Korrespondenzanalyseergebnisse" (対応分析結果, Taiō Bunseki Kekka) kurz.
- Japanische Persönlichkeit Registrierungsname Kanji (日本生命収容人名漢字, Nihon Seimei Shūyō Jinmei Kanji)
- Eine der Kanji -Auflistungen, aus denen die "Korrespondenzanalyseergebnisse" bestehen, bestehend aus 3044 Zeichen. Es existiert nicht mehr. Die ursprüngliche Liste war für das ursprüngliche Entwurfskomitee nicht vorhanden. Diese Kanji -Liste spiegelte sich im Standard wider, um den "Korrespondenzanalyseergebnissen" zu folgen.
- Kanji für die Auflistung des nationalen Verwaltungsbezirks (国土行政区画総覧使用漢字, Kokudo Gyōsei Kukaku Sōran Shiyō Kanji)
- Eine der Kanji -Auflistungen, aus denen die "Korrespondenzanalyseergebnisse" bestehen, bestehend aus 3251 Zeichen. Sie sind die Kanji, die in der Liste aller vom Japan Geographic Data Center zusammengestellten administrativen Ortsnamen, der "National Administrative District Listing", zusammengestellt wurde, verwendet. (国土行政区画総覧, Kokudo Gyōsei Kukaku Sōran). Das ursprüngliche Entwurfskomitee untersuchte die Auflistung selbst nicht; Die aus dieser Liste verwendeten Kanji folgten den "Korrespondenzanalyseergebnissen".
Im zweiten und dritten Standard fügten sie vier bzw. zwei Zeichen auf Stufe 2 hinzu, wodurch der gesamte Kanji auf 6355 führte. Auch im zweiten Standard wurden Charakterformen sowie die Transposition zwischen den Niveaus geändert. Auch im dritten Standard wurden Charakterformen geändert. Diese werden weiter unten beschrieben.
Level -Partitionierung
Die 2.965 Level 1 Kanji belegen die Reihen von 16 bis 47. Die 3.390 Level 2 Kanji belegen die Reihen von 48 bis 84.
Für Stufe 1 wurden Zeichen, die bei mehreren Kanji -Glyphenlisten gemeinsam sind Tōyō Kanji, der Tōyō Kanji -Korrekturentwurf und der Jinmeiyō Kanji als Grundlage. Außerdem wurden JIS C 6260 ("To-Do-Fu-Ken (Präfektur) Identifikationscode"; derzeit JIS X 0401) und JIS C 6261 ("Identifikationscode für Städte, Städte und Dörfer"; derzeit JIS X 0402) konsultiert; Kanji für fast alle Japaner prefectures, Städte, Bezirke, Stationen, Städte, Dörfer usw. wurden absichtlich in Stufe 1 platziert.[l] Darüber hinaus wurden Änderungen durch Experten hinzugefügt.
Level 2 war Kanji gewidmet, der in den oben genannten vier Hauptauflistungen auftrat, aber für Stufe 1 nicht ausgewählt wurde. Wie unten erwähnt, wurde der Kanji von Level 1 durch ihre Aussprache angeordnet, so dass bei den Kanji, deren Aussprache schwer zu bestimmen war, schwer zu bestimmen war. Es gab diejenigen, die auf dieser Grundlage von Stufe 1 auf Stufe 2 übertragen wurden (Nishimura, 1978).
Aufgrund dieser Entscheidungen enthält Level 1 größtenteils kanji häufiger, und Level 2 enthält seltener Kanji, aber diese wurden natürlich nach den Standards des Tages beurteilt; Im Laufe der Zeit sind Kanji im Stufe 2 häufiger verwendet, wie z.翔) und einer, was "zum Glitzer" bedeutet (煌); Und umgekehrt sind einige Kanji Level 1 selten geworden, insbesondere diejenigen, die "Zentimeter" bedeutet (糎) und "Millimeter" (粍). Des Stroms Jōyō Kanji, 30 fallen in Stufe 2,[m] während drei insgesamt fehlen (塡, 剝 und 頰).[n] Des Stroms Jinmeiyō Kanji, 192 sind in Level 2,[Ö] Während 105 nicht Teil des Standards sind.[p]
Anordnung
Die Kanji in Stufe 1 werden in der Reihenfolge der einzelnen "repräsentativen Lesart" sortiert (d. H. Nur eine kanonische Lesart, die nur für die Zwecke dieses Standards ausgewählt wurde); Das Lesen eines Kanji dafür kann ein sein an oder ein Kun lesen; Lesungen sind sortiert Gojūon bestellen.[q] In der Regel die an (Chinesisches) Lesen gilt als repräsentatives Lesen; wo ein Kanji mehrere hat an Lesungen, der als vorherrschende Lesung beurteilt wird, wird für den repräsentativen Messwert verwendet (JIS C 6226-1978 Standard, Abschnitt 3.4). Für den kleinen Prozentsatz von Kanji, der entweder keine haben an Lesen oder haben eine an Lesen, das wenig bekannt und nicht gemeinsam verwendet wird, die, die Kun Das Lesen wurde als repräsentatives Lesen eingesetzt. Wo ein Verb Kun Das Lesen muss als repräsentatives Lesen verwendet werden, die Ren'yōkei (eher als das Shūshikei) Form wird verwendet.
Zum Beispiel sind die Zellen 1 bis 41 in Zeile 16 41 Zeichen sortiert als Beginn mit einer Lesung von a. Innerhalb dieser 22 Zeichen, einschließlich 16-10 (葵: an lesen "ki"; Kun lesen "aoi") und 16-32 (粟: an Lesungen "Zoku" und "Shoku"; Kun lesen "Awa") sind auf der Grundlage ihrer Kun Lesungen. 16-09 (逢: an lesen "Hō",", Kun lesen "a (i)") und 16-23 (扱: an Lesungen "Also" und "Kyū",", Kun lesen "ATSUKA (i)") sind nur zwei Beispiele von Ren'yōkei-Form Verben, die für die repräsentative Lesart verwendet werden.
Wo die repräsentative Lesart zwischen verschiedenen Kanji, einem Kanji, der eine verwendet, gleich ist an Das Lesen ist vor einem platziert, der a verwendet Kun lesen. Bei dem die an oder Kun Die Lesungen sind zwischen mehr als einem Kanji gleich, sie werden dann von ihrem bestellt Primärradikal und streicheln zählen.
Ob auf Stufe 1 oder Stufe 2, Itaiji sind so angeordnet, dass sie direkt ihrer exemplaren Form folgen. Zum Beispiel in Stufe 2 direkt nach Zelle 49 Zelle 88 (劍), die unmittelbaren folgenden Zeichen weicher von der allgemeinen Regel ab (in diesem Fall Schlaganfallzahl), um drei Varianten von 49-88 zu enthalten (in diesem Fall劔, 劒, und 剱).[r]
Die Kanji in Stufe 2 sind in der Reihenfolge der primären Radikal- und Schlaganfallzahl angeordnet. Wo diese beiden Eigenschaften für verschiedene Kanji gleich sind, werden sie dann durch Lesen sortiert.
Kanji aus unbekannten Quellen
Kuten | Symbol | Klassifizierung |
---|---|---|
52-55 | 墸 | Unbekannt |
52-63 | 壥 | Unbekannt |
54-12 | 妛 | Quelle unklar |
55-27 | 彁 | Nicht identifizierbar |
57-43 | 挧 | Quelle unklar |
58-83 | 暃 | Quelle unklar |
59-91 | 椢 | Quelle unklar |
60-57 | 槞 | Quelle unklar |
74-12 | 蟐 | Quelle unklar |
74-57 | 袮 | Quelle unklar |
79-64 | 閠 | Quelle unklar |
81-50 | 駲 | Quelle unklar |
Es wurde darauf hingewiesen, dass es Kanji im Kanji -Set gibt, die in umfassenden, ungekürzten Kanji -Wörterbüchern nicht zu finden sind und dass die Quellen davon unbekannt sind. Zum Beispiel berichtete Tajima (1979) nur ein Jahr nach der Erstellung des ersten Standards, dass er 63 Kanji bestätigt hatte, die nicht zu finden waren in Shinjigen (ein großes Kanji -Wörterbuch, das von veröffentlicht wurde von Kadokawa Shotten), noch in Dai Kan-Wa Jitenund sie machten keinen Sinn als Ryakuji irgendeiner Art; Er merkte an, dass es für Kanji, der in Kanji -Wörterbüchern nicht verfügbar ist, aus bestimmten Quellen vorzuziehen wäre. Diese Kanji wurden als "Ghost" -Faraktere bekannt (幽霊文字, yūrei moji) oder "Ghost Kanji" (幽霊漢字, yūrei kanji)unter anderem.
Das Entwurfskomitee für die vierte Version des Standards sah auch die Existenz von Kanji mit unbekannten Quellen als Problem, und stellte daher eine Untersuchung zu, genau auf welche Art von Quellen das Entwurfskomitee der ersten Version verwiesen wurde. Infolgedessen wurde festgestellt, dass sich das ursprüngliche Entwurfskomitee stark auf die "Korrespondenzanalyseergebnisse" stützte, um Kanji zu sammeln. Als das Entwurfskomitee die "Ergebnisse der Korrespondenzanalyse" untersuchte, wurde klar, dass viele der Kanji, die in den Kanji -Wörterbüchern in Kanji gesetzt, aber nicht gefunden wurden Auflistung "Listen in den" Korrespondenzanalyseergebnissen ".
Es wurde bestätigt, dass kein Originaltext für den in den Ergebnissen "Korrespondenzanalyse" verwiesenen "japanischen Persönlichkeitsregistrierungsnamen Kanji" vorliegt. Für die "National Administrative District Listing" untersuchte Sasahara Hiroyuki vom Entwurfskomitee der vierten Version den Kanji, der auf den In-Progress-Entwicklungsseiten für den ersten Standard erschien. Das Komitee konsultierte auch viele alte Schriften sowie viele Beispiele für persönliche Namen in einer Datenbank von Ntt Telefonbücher.
Aufgrund dieser gründlichen Untersuchung konnte das Komitee die Anzahl der Kanji, für die die Quelle nicht zwölf erläutert werden kann, ablegen, wie in der angrenzenden Tabelle zuversichtlich erklärt werden kann. Von diesen wird vermutet, dass aufgrund von Kopierfehlern mehrere Glyphen entstanden sind. Insbesondere wurde 妛 wahrscheinlich erzeugt, als Drucker versuchten, durch Schneiden und Einfügen 山 und 女 zusammen zu kreieren. Ein Schatten aus diesem Prozess wurde als Zeile falsch interpretiert, was zu 妛 führte (ein Bild davon kann in der gefunden werden Jōyō Kanji Jite).
Vereinigung von Kanji -Varianten
Gemäß den Spezifikationen im vierten Standard (1997),, Vereinigung (包摂, hōsetsu, nicht der gleiche Begriff für Unicode's "Vereinigung"Obwohl es fast das gleiche Konzept ist) ist die Aktion, den gleichen Code auf ein Zeichen zu geben, ohne die unterschiedlichen Zeichenformen zu berücksichtigen. Im vierten Standard die Glyphen erlaubt sind begrenzt; das Ausmaß, in dem speziell Allographisch Glyphen sind in a einheitlich graphemisch Der Codepunkt ist klar definiert.
Darüber hinaus nach den Spezifikationen des Standards a Glyphe (字体, jitai, zündete. "Charakterkörper";) ist eine abstrakte Vorstellung über die grafische Darstellung eines grafischen Charakters; a Charakterform (字形, jikei, zündete. "Charakterform"; Auch in gewissem Sinne eine "Glyphe", aber auf einer anderen Ebene zu Standardisierungszwecken unterschiedlich) ist die Darstellung als grafische Form, die eine Glyphe in Wirklichkeit nimmt (z. B. aufgrund einer Handschrift, gedruckt, auf einem Bildschirm angezeigt usw.). Für eine einzelne Glyphe gibt es einen endlosen Bereich möglicher konkreter und/oder sichtbar unterschiedlicher Zeichenformen. Eine Variation zwischen einer Zeichenform einer Glyphe wird als "Entwurfsunterschied" bezeichnet. (デザインの差, dezain no sa).
Das Ausmaß, in dem ein Glyphe zu einem Codepunkt einheitlich ist, wird gemäß dem "Beispiel Glyph" dieses Codepunkts bestimmt (例示字体, reiji jitai) und die "Vereinigungkriterien" (包摂規準, hōsetsu kijun) Das kann auf dieses Beispiel angewendet werden. Das heißt, der Beispielglyphe für einen Codepunkt gilt für diesen Codepunkt und alle Glyphen, für die die Teile, die die Beispielglyphen zusammenstellen, gemäß den Vereinigungskriterien ersetzt werden Auch Bewerben Sie sich auf diesen Codepunkt.
Zum Beispiel das Beispielglyphe bei 33-46 (僧) besteht aus radikal 9 (亻) und die Kanji, die schließlich die hervorbrachten Also kana (曽). Außerdem werden im Vereinigungskriterium 101 drei Kanji angezeigt: Die erste nimmt die am häufigsten auf Japanisch gesehene Form an (am häufigsten zu sehen (曽); die zweite enthält eine traditionellere Form (曾), in denen sich die ersten beiden Schläge bilden radikal 12 (Die Kanji -Zahl für die Zahl 8: 八); und der dritte ist wie der zweite, außer dass radikal 12 invertiert (umgekehrt ist (曾). Folglich alle drei Permutationen (僧, 僧, 僧) Alle gelten für den Codepunkt in Zeile 33 Zelle 46.
Im vierten Standard, einschließlich eines der der Errata Für den ersten Druck gibt es 186 Vereinigungskriterien.
Wenn die Beispielglyphe eines Codepunkts aus mehr als einem Teil Glyphen besteht, können die Vereinigungskriterien auf jeden Teil angewendet werden. Nachdem ein Einheitungskriterium auf einen Teilglyphen angewendet wurde, kann dieser Teil keine Einheitungskriterien haben. Außerdem darf ein Vereinigungskriterium nicht angewendet werden, wenn der resultierende Glyphe mit dem eines anderen Codepunkts übereinstimmt.
Ein Beispiel für Glyphen ist nicht mehr als ein Beispiel für diesen Codepunkt; Es ist keine Glyphe, die vom Standard "gebilligt" wird. Außerdem müssen die Vereinigungskriterien nur für allgemein gebrauchte Kanji und zum Zweck der Zuweisung von Dingen den Codepunkten dieses Standards verwendet werden. Die Standardanfragen, die kanji im Allgemeinen nicht anhand der Beispiele für Glyphen und Vereinigung erstellt werden.
Die Kanji des Kanji -Sets werden gemäß den Vereinigungskriterien nicht vollständig konsequent ausgewählt. Zum Beispiel, obwohl 41-7 der Form entspricht, in der der dritte und vierte Schlaganfall kreuzen (彥) sowie die Form, wo sie nicht (彦) Gemäß der Vereinigung des Kriteriums 72 entspricht 20-73 nur der Form, in der sie nicht überqueren (顔) und 80-90 entspricht nur der Form, in der sie es tun ((顏).
Die Begriffe "Vereinigung", "Vereinigungkriterien" und "Beispiel Glyphe" wurden im vierten Standard übernommen. Von der ersten bis zur dritten Version wurden Kanji und die Beziehungen zwischen Kanji in drei Arten eingeteilt: "Independent" (独立, dokuritsu), "kompatibel" (対応, taiō)und "gleichwertig" (同値, dōchi); Es wurde erklärt, dass die als äquivalent anerkannten Charaktere "zu einem Punkt konsolidieren". "Äquivalenz" enthalten, außer Kanji mit genau der gleichen Form, Kanji mit Unterschieden aufgrund von Stil und Kanji, bei denen der Unterschied in der Charakterform gering ist.
Im ersten Standard wurde festgelegt, dass "dieser Standard ... nicht die Einzelheiten von Zeichenformen festlegt" (Abschnitt 3.1); Es heißt auch, dass "das Ziel dieses Standards darin besteht, die allgemeine Idee von Charakteren und ihren Codes zu etablieren; die Gestaltung ihrer Charakterformen und deren solchen Lügen außerhalb seines Geltungsbereichs." Auch im zweiten und dritten Maßstäbe stellt fest, dass die spezifischen Designs von Charakterformen außerhalb seines Geltungsbereichs liegen (der Notiz zu Punkt 1). Der vierte Standard sieht auch fest, dass "dieser Standard Grafikzeichen sowie deren Bitmuster reguliert, und die Verwendung spezifischer Designs einzelner Zeichen usw. liegen nicht im Rahmen dieses Standards" (JIS X 0208: 1997, Punkt 1 ).
Vereinigungskriterien für die Kompatibilität
Im vierten Standard "Einheitliche Kriterien zur Aufrechterhaltung der Kompatibilität mit früheren Standards" (過去の規格との互換性を維持するための包摂規準, kako no kikaku to no gokansei wo iji suru tame no hōsetsu kijun) ist definiert. Ihre Anwendung ist auf 29 Codepunkte begrenzt, deren Glyphen zwischen den Standards sehr unterschiedlich sind. Für diese 29 Codepunkte werden die Glyphen von JIS C 6226-1983 ein und danach als "A" und die Glyphen von JIS C 6226-1978 als "B" angezeigt. Bei jedem von ihnen können beide "A" und "B" Glyphen angewendet werden. Um die Kompatibilität mit dem Standard zu beanspruchen, muss jedoch für jeden Codepunkt das Formular "A" oder "B" verwendet werden.
Charaktercodierungen
Codierungsschemata von JIS x 0208 festgelegt
In JIS X 0208: 1997 definieren Artikel 7 in Kombination mit den Anhängen 1 und 2 insgesamt acht Codierungsschemata.
In den folgenden Beschreibungen sind die Regionen "CL" (Steuer nach links), "GL" (grafisch links), "CR" (Steuer rechts) und "GR" (grafisch rechts) in der Spalten-/Zeilennotation von 0 ab 0 /0 bis 1/15, von 2/1 bis 7/14, von 8/0 bis 9/15 und vom 01.10 bis 15/14. Für jeden Code wird 2/0 das grafische Zeichen "Space" und 7/15 das Steuerzeichen "Delete" zugewiesen. Das C0 -Steuerzeichen (definiert in Jis x 0211 und Matching ISO/IEC 6429) werden der CL -Region zugeordnet.
- 7-Bit-Codierung für Kanji
- Im Standard selbst festgelegt. Der JIS X 0208-Doppel-Byte-Set ist der GL-Region zugeordnet.
- 8-Bit-Codierung für Kanji
- Im Standard selbst festgelegt. Gleich wie die 7-Bit-Codierung, aber in Form von 8-Bit-Bytes definiert. Die CR -Region kann ungenutzt sein oder die codieren C1 -Steuerzeichen Aus JIS x 0211. Die GR -Region ist nicht genutzt.
- Internationale Referenzversion + 7-Bit-Codierung für Kanji
- Im Standard selbst festgelegt. Das verschieben Steuercharakter bezeichnet die ISO/IEC 646: 1991 IRV (internationale Referenzversion, entspricht zu US-Ascii) in die GL -Region. Verschieben Bezeichnet das JIS X 0208-Doppel-Byte in derselben Region.
- Lateinische Zeichen + 7-Bit-Codierung für Kanji
- Im Standard selbst festgelegt. Wie bei IRV+7-Bit, aber mit ISO/IEC 646: IRV ersetzt durch ISO/IEC 646: JP (der römische Satz von Jis x 0201).
- Internationale Referenzversion + 8-Bit-Codierung für Kanji
- Im Standard selbst festgelegt. ISO/IEC 646: IRV ist der GL -Region, JIS X 0208, der GR -Region zugeordnet. Dies ist effektiv eine Untergruppe von EUC-JPohne die halbe Breite Katakana von Jis x 0201 und der ergänzende Kanji von Jis x 0212.
- Lateinische Zeichen + 8-Bit-Codierung für Kanji
- Im Standard selbst festgelegt. Wie bei IRV+8-Bit, aber mit ISO/IEC 646: IRV durch ISO/IEC 646: JP ersetzt.
- Schichtkodierter Zeichensatz
- In Anhang 1 festgelegt: "Schichtkodierte Darstellung" (シフト符号化表現, Shifuto Fugōka Hyōgen). Die maßgebliche Definition von Schicht jis.
- RFC 1468-codierter Zeichensatz
- Stipuliert in Anhang 2: "RFC 1468-codierte Darstellung" (RFC 1468符号化表現, RFC 1468 Fugōka Hyōgen). Ähnelt ISO-2022-JP (Das ist maßgeblich in RFC 1468 definiert), ist jedoch in Bezug auf acht Bit Bytes definiert, während ISO-2022-JP in Bezug auf sieben Bit Bytes definiert ist.
Unter den im vierten Standard festgelegten Codierungen wird nur der "Shift" codierte Zeichensatz von der registriert Iana.[11] Bestimmte andere sind jedoch eng mit IANA-registrierten Codierungen verwandt, die an anderer Stelle definiert sind (EUC-JP und ISO-2022-JP).
Escape -Sequenzen für JIS x 0202 / ISO 2022
JIS x 0208 kann innerhalb verwendet werden ISO 2022/Jis x 0202 (von denen ISO-2022-JP eine Teilmenge ist). Das Fluchtsequenzen Um JIS X 0208 mit jedem der vier ISO 2022 -Codesätze zu bezeichnen, sind unten aufgeführt. Hier bezieht sich "ESC" auf den Kontrollcharakter "Flucht"(0x1b oder 1/11).
Standard | G0 | G1 | G2 | G3 |
---|---|---|---|---|
78 | Esc 2/4 4/0 | Esc 2/4 2/9 4/0 | Esc 2/4 2/10 4/0 | ESC 2/4 2/11 4/0 |
83 | Esc 2/4 4/2 | Esc 2/4 2/9 4/2 | Esc 2/4 2/10 4/2 | ESC 2/4 2/11 4/2 |
90 weiter | ESC 2/6 4/0 ESC 2/4 4/2 | ESC 2/6 4/0 ESC 2/4 2/9 4/2 | ESC 2/6 4/0 ESC 2/4 2/10 4/2 | ESC 2/6 4/0 ESC 2/4 2/11 4/2 |
Die Escape-Sequenz startet ESC 2/4 wählt einen Multi-Byte-Zeichensatz aus. Die Escape -Sequenz, die ESC 2/6 startet, gibt eine Überarbeitung der bevorstehenden Auswahl des Charakters fest. JIS C 6226: 1978 wird durch das Multibyte-94-Set-Identifikator Byte 4/0 identifiziert (entsprechend ASCII @
). JIS C 6226: 1983 / JIS X 0208: 1983 wird durch das Multibyte-94-Set-Identifikator Byte 4/2 (identifiziertB
). JIS X 0208: 1990 wird auch durch das 94-set-Identifikator-Byte 4/2 identifiziert, kann jedoch mit dem Revisionskenner 4/0 unterschieden werden (@
).
Doppelte Codierungen von ASCII und JIS x 0201
Bei Verwendung des Kanji -Satzes dieses Standards mit dem ISO/IEC 646: 1991 IRV -Grafikzeichen (Grafik -Zeichensatz (ASCII) oder JIS X 0201's Grafikzeichen für lateinische Zeichen (Jis-roman) Die Behandlung der bei beiden Sätzen gemeinsamen Charaktere wird problematisch. Sofern nicht spezielle Maßnahmen ergriffen werden, sind die in beiden Sätze enthaltenen Zeichen nicht alle eins zu eins einzuordnen, und ein einzelnes Zeichen kann mehr als einen Codepunkt angegeben werden. Das heißt, es kann zu einer doppelten Codierung führen.
JIS X 0208: 1997, in Bezug darauf, wann ein Zeichen bei beiden Sätzen gemeinsam ist, verbietet im Grunde genommen die Verwendung des Codepunkts im Kanji -Set (was einer von zwei Codepunkten ist), wodurch doppelte Codierungen beseitigt werden. Es wird beurteilt, dass Zeichen, die den gleichen Namen haben, den gleichen Charakter sind.
Zum Beispiel sind sowohl der Name des Zeichens, das dem Bitmuster 4/1 in ASCII entspricht, als auch der Name des Zeichens, der der Zelle 3 der Kanji -Set für Zeile 3 der Kanji entspricht. In der internationalen Referenzversion + 8-Bit-Code für Kanji, sei es nach dem Bitmuster 4/1 oder nach dem Bitmuster, das der Zelle 3 (10/3 12/1) des Kanji-Sets entspricht, der Buchstabe "A"(d. H." Latin Capital Letter a ") wird dargestellt. Der Standard verbietet die Verwendung des Bitmusters" 10/3 12/1 ", um die doppelte Codierung zu beseitigen.
In Anbetracht der Implementierungen, die die Zeichen der Codepunkte im Kanji als "als" behandeln "behandeln"Vollbreite Charaktere"Und die von ASCII oder JIS-ROMAN als unterschiedliche Zeichen, die Verwendung der Kanji-Set-Codepunkte ist nur aus Gründen der Rückwärtskompatibilität zulässig. Zum Beispiel kann es zum Zweck der Rückwärtskompatibilität in Betracht ziehen, 10/3 12 zu berücksichtigen /1 in internationaler Referenzversion + 8-Bit-Code für Kanji, um einem "a" vollebzügender Breite zu entsprechen.
Wenn das Kanji-Set zusammen mit ASCII oder JIS-ROMAN verwendet wird, ist die einzigartige Codierung eines Charakters nicht garantiert, selbst wenn der Standard von streng streng eingehalten wird. In der internationalen Referenzversion + 8-Bit-Code für Kanji ist es beispielsweise gültig, a zu repräsentieren Bindestrich Mit dem Bitmuster 2/13 für den Charakter "Hyphen-Minus" sowie mit der Zelle 1 des Kanji-Sets (Bitmuster 10/1 11/14) für das Zeichen "Byphen". Darüber hinaus definiert der Standard nicht, welche der beiden für was verwendet werden soll, und so wird dem Bindestrich keine eindeutige Kodierung gegeben. Das gleiche Problem beeinflusst die Minuszeichen, das Anführungszeichen, und so weiter.
Selbst wenn das Kanji -Set als separater Code verwendet wird, gibt es keine Garantie dafür, dass die eindeutige Codierung von Zeichen implementiert wird. In vielen Fällen jedoch die Vollbreite "Ideografischer Raum"In Zelle 1 Zelle 1 und der Halbbreite (2/0) koexistieren zusammen. Wie die beiden unterschiedlich sein sollten, ist nicht selbsterklärend und im Standard nicht angegeben.
Vergleich der in der Praxis verwendeten Codierungsschemata
Codierung | anderer Name | 7-Bit?[EIN] | ISO 2022? | Staatellos?[B] | Akzeptiert ASCII? | 0x00–7f immer ASCII? | Superset von 8-Bit Jis x 0201? | Unterstützung Jis x 0212? | Byteweise selbstsynchronisiert? | Bitwise Selbstsynchronisierung? |
---|---|---|---|---|---|---|---|---|---|---|
ISO-2022-JP | "Jis"(Jis x 0202) | Ja | Ja | Nein[C] | Ja | Sequenzen können nicht ascii sein[C] | Nein (Codierung möglich)[D] | Möglich[E] | Nein | Nein |
Revers_jis | "Sjis" | Nein | Nein | Ja | Fast[F] | Isolierte Bytes können nicht ascii sein[G] | Ja | Nein | Nein | Nein |
EUC-JP | "Ujis" (Unmixed JIS) | Nein | Ja[H] | Ja[H] | Normalerweise[ICH] | Ja | Nein (codiert)[J] | Normalerweise verfügbar[K] | Nein | Nein |
Unicode Formate zum Vergleich[L] | ||||||||||
UTF-8 | Nein | Nein | Ja | Ja | Ja | Nein (codiert) | Verfügbar | Ja | Normalerweise[M] | |
UTF-16 | "Unicode"[N] | Nein | Nein | Ja | Nein | Nein | Nein (codiert) | Verfügbar | Nur über 16-Bit-Wörter. | Nein |
GB 18030 | Nein | Nein[Ö] | Ja | Ja | Isolierte Bytes können nicht ascii sein | Nein (codiert) | Verfügbar | Nein | Nein | |
UTF-32 | Nein | Nein | Ja | Nein | Nein | Nein (codiert) | Verfügbar | Normalerweise in der Praxis[P] | Nein |
- ^ d.h. nicht erforderlich 8-Bit sauber Übertragung.
- ^ d.h. die zur codierende Sequenz, die zur Codierung eines bestimmten Zeichens verwendet wird, ist immer gleich, unabhängig von den vorherigen Zeichen (en). Sehen Staat (Informatik).
- ^ a b ISO-2022-JP ist a Staatsbürgerlich Codierung: Alle Charsets werden über 0x21–7e codiert und zwischen den Verwendung von ANSI -Flucht umgeschaltet. Während es in seinem Anfangszustand ASCII ist, können ganze Sequenzen von Nicht-ASCII-Zeichen mit ASCII-Bytes codiert werden.
- ^ JIS X 0201 Katakana sind in JIS X 0202 und ISO 2022 erhältlich, aber nicht im Basis-ISO-2022-JP-Profil enthalten, obwohl sie eine gemeinsame Erweiterung sind.
- ^ JIS X 0212 ist in JIS X 0202 und ISO 2022 erhältlich und in den ISO-2022-JP-1- und ISO-2022-JP-2-Profilen enthalten, jedoch nicht im grundlegenden ISO-2022-JP-Profil.
- ^ Single -Byte -Zeichen 0x21–7e in Shift_jis sind ordnungsgemäß ISO-646-JPUm ein Superset von 8-Bit-Jis x 0201 zu sein, werden jedoch oft als ASCII dekodiert (nicht unbedingt angezeigt), was nur an zwei Stellen unterschiedlich ist.
- ^ Einige (nicht alle) ASCII-Bytes können als zweite Bytes, aber nicht als erste Bytes, von Doppel-Byte-Zeichen in Shift_jis erscheinen. Daher sind in einer Sequenz von zwei oder mehr ASCII-Bytes das zweite Byte notwendigerweise ASCII-Zeichen (oder ISO-646-JP).
- ^ a b EUC mit gepacktem Format basiert auf ISO 2022-Mechanismen, wobei Charset-Bezeichnungen voranordnet werden. Charset-Bezeichnung entkommt und Verriegelungsverschiebungen werden vermieden, während die Verwendung einzelner Verschiebungen auf nicht staatliche Weise implementiert werden kann. Die Einschränkungen von ISO 2022 werden dennoch befolgt.
- ^ Einzel-Byte-Zeichen 0x21–7e in EUC-JP werden im Allgemeinen als ASCII angesehen, aber manchmal als behandelt ISO-646-JP.
- ^ Im Gegensatz zu Shift_JIS wird EUC-JP aufgrund der unterschiedlichen Darstellung des JIS x 0201 Katakana (mit Einzelverschiebungen) ohne vorherige Umwandlung (mit Einzelverschiebungen) keine einfache 8-Bit-JIS x 0201-Eingabe ohne vorherige Konvertierung verarbeitet.
- ^ JIS X 0212 in EUC-JP wird nicht immer implementiert.
- ^ Neben den Eigenschaften der Encodings selbst haben Unicode -Formate weitere Vorteile, die sich aus dem zugrunde liegenden Charakter -Set ergibt internationale Verwendung. Sie sind aufgrund ihres größeren Grundrepertoires und ihres bezeichneten privaten Gebrauchsbereichs weniger stark betroffen von kollidierenden proprietären Erweiterungen.
- ^ Die meisten bitgewiehenen Frameshifts des UTF-8-kodierten Textes erzeugen ungültige UTF-8, aber es ist möglich, Sequenzen von Zeichen zu konstruieren, die auch dann gültig bleiben, selbst wenn sie von einem oder mehreren Bits vorgefertigt sind.
- ^ Nur von Microsoft.
- ^ Während GB 18030 und GBK Erweiterungen der EUC-CN-Form von GB/T 2312 sind, folgen sie im Gegensatz zu EUC-JP (oder dem ursprünglichen EUC-CN) nicht den Einschränkungen von EUC oder ISO 2022.
- ^ Obwohl UTF-32 theoretisch nur über 32-Bit-Dwords selbstsynchronisiert ist, bedeutet die Verwendung eines 32-Bit-Werts, um einen 21-Bit-Wert darzustellen 11 Nullbits am oberen Ende jedes Zeichens, die normalerweise verwendet werden können, um sich an Zeichengrenzen auszurichten, abhängig von den beteiligten CodePoint (en).
Geschichte
Bis fünf Jahre vergangen, nachdem ein japanischer Industriestandard festgelegt, bekräftigt oder überarbeitet wurde, erfährt der vorherige Standard einen Prozess der Bestätigung, Überarbeitung oder Rücknahme. Seit der Gründung wurde der Standard dreimal überarbeitet und derzeit ist der vierte Standard gültig.
Erster Standard
Der erste Standard ist JIS C 6226-1978 "Code des japanischen Grafikzeichens für Informationsaustausch" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei), gegründet von den Japanern Minister für internationale Handel und Industrie am 1. Januar 1978. Es heißt auch 78JIS kurz. Von der Agentur für Industrialwissenschaft und Technologie anvertraut, a Jipdec Der Ausschuss für Forschungs- und Studienkomitee des Kanji -Code -Standardisierungsforschungs- und Studienausschusses hat den Entwurf erstellt. Der Ausschussvorsitzende war Moriguchi Shigeichi.
Der Code umfasste 453 Nicht-Kanji (einschließlich Hiragana, Katakana, die römischen, griechischen und kyrillischen Alphabete und Interpunktion) und 6349 Kanji (2965 Level 1 Kanji und 3384 Level 2 Kanji).[12] Es beinhaltete noch nicht Box-Drawing-Zeichen. Der Standard selbst wurde in Shaken Co., Ltds Ishii Mincho -Schrift festgelegt.
Zweiter Standard
Der zweite Standard JIS C 6226-1983 "Code des japanischen Grafikzeichens für Informationsaustausch" (情報交換用漢字符号系, Jōhō Kōkan'yō Kanji Fugōkei) Überarbeitete den ersten Standard am 1. September 1983. Er heißt auch 83JIS. Der von der AIST betraute Jipdec Kanji-Code-bezogene JIS-Komitee hat den Entwurf erstellt. Der Ausschussvorsitzende war Motooka Tōru.
Der Entwurf des zweiten Standards beruhte auf der Berücksichtigung von Faktoren wie der Veröffentlichung der Jōyō Kanjidie Durchsetzung der Jinmeiyō Kanjiund die Standardisierung der japanischen Sprache Teletex bis zum Ministerium für Beiträge und Telekommunikation; Außerdem wurde die nächste Modifikation durchgeführt, um mit JIS C 6234-1983 (24-Pixel-Matrix-Drucker-Zeichenformen; derzeit JIS x 9052) Schritt zu halten.
- Zugabe von Sonderzeichen
- 39 Zeichen wurden zu den Sonderzeichen hinzugefügt. Unter diesen 39, gemäß JICST-Empfehlungen und aus solchen Maßstäben wie JIS z 8201-1981 (mathematische Symbole) und JIS z 8202-1982 (Menge, Einheit und chemische Symbole) wurden Dinge, die nicht durch Zusammensetzung dargestellt werden konnten.
- Neu hinzugefügte Box-Drise-Zeichen
- 32 Box-Drawing-Zeichen wurden hinzugefügt.
- Tausch von Itaiji Codepunkte
- Codepunkte für 22 Variante Paar von Kanji wurden getauscht, so dass die Variante in Stufe 2 auf Stufe 1 verschoben wurde und umgekehrt.[12][13] Zum Beispiel (Stufe 1) Zeile 36 Zelle 59 im ersten Standard (壺) wurde in (Stufe 2) Zeile 52 Zelle 68 bewegt; Der Punkt ursprünglich in Reihe 52 Zelle 68 (壷) war wiederum in Reihe 36 Zelle 59 bewegt.
- Ergänzungen zum Level 2 Kanji
- Drei Zeichen aus Level 1 und einem Zeichen aus Stufe 2 wurden in zuvor nicht zugewiesenen Codepunkten in Zeile 84 als Level 2 Kanji neue Codepunkte angegeben. Itaiji Für jeden dieser Codepunkte wurden der ursprünglichen Standorte neu zugeordnet.[14] Zum Beispiel Zelle 84 Zelle 1 im zweiten Standard (堯) wurde dorthin gebracht, um ein anderes Formular aufzunehmen, das nicht im ersten Standard in Reihe 22 Zelle 38 als Kanji (Stufe 1) enthalten ist (Kanji (尭).
- Modifikation von Zeichenformen
- Die Charakterformen von ungefähr 300 Kanji wurden geändert.[15]
Unter den Veränderungen in diesen rund 300 Kanji -Charakterformen, viele Glyphen der Stufe 1, die sich im Stil des Stils befanden Kangxi -Wörterbuch wurden in Varianten und insbesondere vereinfachte Formen verwandelt (z. Ryakuji und erweiterter Shinjitai). Zum Beispiel sind einige Codepunkte, die aufgrund der starke Veränderung häufig Kritikpunkte sind, Row 18 Cell 10 (78JIS: 鷗, 83jis: 鴎) und Reihe 38 Zelle 34 (78JIS: 瀆, 83jis: 涜).
Es gab viele kleinere Veränderungen von den Varianten im Kangxi-Stil; Zum Beispiel Zeile 25 Zelle 84 (鵠) Verlorene Teil eines Schlaganfalls. Auch wenn einige Glyphen für Level 1 Kanji keine Formen im Kangxi-Stil waren, wurden einige in ihre Formen im Kangxi-Stil geändert. Zum Beispiel Zeile 80 Cell 49 (靠) gewann einen Teil eines Schlaganfalls (d. H. Der gleiche Teil des Schlaganfalls, den 25-84 verloren hat).
Um die ursprüngliche Absicht des ersten Standards aufzuklären, fielen diese in Parameter für Vereinigungskriterien im vierten Standard. Der Unterschied in der Form für die oben genannten Beispiele ("鵠" und "靠") fällt unter die Parameter für das Vereinigungskriterium 42 (in Bezug auf die Komponente"告").[s]
Der Großteil der Veränderungen an Charakterformen sind Unterschiede zwischen Level 1 und 2 Kanji. Insbesondere wurde die Vereinfachung häufiger für Kanji Level 1 als für Kanji Level 2 durchgeführt; Vereinfachungen, die auf Kanji Level 1 angewendet werden (z. B. "潑" zu "溌" und "醱" zu "醗") wurden in der Ebene 2 (" im Allgemeinen nicht auf Kanji angewendet ("撥"Bleib als Is). Die oben erwähnte 25-84 (鵠) und 80-49 (靠) erhielten eine andere Behandlung ebenfalls, da erstere in Stufe 1 und letzteres in Stufe 2 ist. Trotzdem gab es einige Änderungen, unabhängig vom Level; Zum Beispiel Charaktere, die die "Tür" enthalten (Tür "(戸) und "Winter" (冬) Die Komponenten wurden ohne unterschiedliche Behandlung zwischen Level 1 und Level 2 Kanji geändert.
Für 29 Codepunkte (z. Für diese gibt es spezielle Vereinigungskriterien, um die Kompatibilität mit den vorherigen Standards an diesen Codepunkten aufrechtzuerhalten.
Als die neue "X" -Kategorie für japanische Industriestandards (für informationsbezogene Felder) eingeführt wurde, wurde der zweite Standard erneut gestellt JIS X 0208-1983[12] am 1. März 1987.
Dritter Standard
Der dritte Standard JIS X 0208-1990 "Code des japanischen Grafikzeichens für Informationsaustausch" (情報交換用漢字符号, Jōhō Kōkan'yō Kanji Fugō) Überarbeitete den zweiten Standard am 1. September 1990. Er heißt auch 90JIS kurz. Vom AIST, einem Komitee bei der Japanische Standardvereinigung Für die Überarbeitung von JIS x 0208 erstellte der Entwurf. Der Ausschussvorsitzende war Tajima Kazuo.
225 Kanji-Glyphen wurden geändert, und zwei Zeichen wurden zu Stufe 2 (84-05 "hinzugefügt.凜"und 84-06"熙"). Dies war eine Uneinigkeit von Itaiji Für zwei bereits enthaltene Zeichen (49-59 "凛"und 63-70"煕"). Einige der Änderungen und die beiden Ergänzungen entsprachen dem 118 Jinmeiyō Kanji hinzugefügt im März 1990.[12] Der Standard selbst wurde in Heisei Mincho festgelegt.
Vierter Standard
Der vierte Standard JIS X 0208: 1997 "7-Bit- und 8-Bit-Doppel-Byte-kodierte Kanji-Sätze für Informationsaustausch" (7ビット及び8ビットの2バイト情報交換用符号化漢字集合, Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō) Überarbeitete den dritten Standard am 20. Januar 1997. Er heißt auch 97JIS kurz. Vom AIST betraut, einem JSA -Komitee für Forschung und Untersuchung codierter Charakter -Sets, erzeugte den Entwurf. Der Ausschussvorsitzende war Shibano Kōji.
Die grundlegenden Richtlinien dieser Revision bestand darin, die Zeichensatz nicht zu ändern, mehrdeutige Bestimmungen zu klären und den Standard relativ einfacher zu verwenden. Additions-, Entfernungs- und Codepunkt -Umlagerung wurden nicht durchgeführt, und ausnahmslos wurden auch die Beispielglyphen unverändert gelassen. Die Bestimmungen des Standards wurden jedoch vollständig neu geschrieben und/oder ergänzt. Während der dritte Standard ohne die Erklärungen 65 Seiten lang war, betrug der vierte Standard 374 Seiten ohne Erklärungen.
Die Hauptpunkte der Revision sind:
- Definition von Codierungsmethoden
- Bis zum dritten Standard wurde nur die Codierungsmethode basierend auf JIS X 0202 -Codeerweiterung definiert. Dies ist etwas Ungewöhnliches, was codierte Zeichensätze betrifft. Im vierten Standard wurden Codierungsmethoden, die keine Escape -Sequenzen zum Zweck der Codeerweiterung verwenden, definiert.
- Definition des allgemeinen Verbots der Verwendung nicht zugewiesener Codepunkte und Verwendungsmethoden für nicht zugewiesene Codepunkte
- Der dritte Standard in einer Erklärung, die nicht Teil des Standards war, beschrieb die Dinge, als gäbe es Orte, an denen es für einige nicht zugewiesene Codepunkte gäbe, Gaiji zuzuweisen. Im vierten Standard wurde klargestellt, dass die Verwendung nicht zugewiesener Codepunkte im Allgemeinen verboten ist. Auch die Bedingungen für die Verwendung von nicht zugewiesenen Codepunkten wurden angegeben.
- Allgemeine Eliminierung doppelter Codierungen
- Jedem Charakter erhielt einen "Charakternamen", der den anderen Standards abbildet. Außerdem wurden Codierungsmethoden zur Verwendung zusammen mit der internationalen Referenzversion von ISO/IEC 646 oder JIS X 0201 angegeben. Wenn JIS X 0208 zusammen mit beiden verwendet wird, ist unter zwei zugewiesenen Codepunkten für Zeichen mit demselben Namen nur einer zulässig. Somit wurden doppelte Codierungen im Allgemeinen beseitigt.
- Untersuchung von Kanji -Quellen
- Charaktere, die bisher im Standard enthalten sind und in keinem der beiden gefunden werden Kangxi -Wörterbuch Noch der Dai Kanwa Jiten wurden identifiziert. Dementsprechend wurde genau untersucht, mit welchem Einschluss und aus welcher Quellen diese Kanji während der Zusammenstellung des ersten Standards kamen.
- Definition von Kanji -Vereinigungkriterien
- Basierend auf Dingen wie den Materialien für die Erstellung des ersten Standards wurde versucht, die Absicht des ersten Standards für den Umfang der Glyphen, die jeder Codepunkt darstellt, wiederherzustellen. Darüber hinaus wurden die Kriterien für die Vereinigung von Kanji -Glyphen klar definiert.
- Einbeziehung von De -facto -Standards
- Zum Zeitpunkt des vierten Standards die Codierungsmethoden Schicht jis und ISO-2022-JP hatte geworden de facto Standards für persönliches Computing bzw. E-Mail. Diese Codierungsmethoden wurden als "schichtkodierte Darstellung" und "RFC 1468-codierte Darstellung" (oben beschrieben) eingeschlossen.
Nachfolger
Jis x 0213 (Extended Kanji) wurde "mit dem Ziel konzipiert, einen ausreichenden Charakter anzubieten, der für die Zwecke der Codierung der modernen japanischen Sprache, die JIS X 0208 von Anfang an beabsichtigt hatte, anbietet.[16] Es definiert einen Zeichensatz, der sich auf den Kanji -Satz von JIS x 0208 erweitert. Hyōgai Kanji Glyphe Liste und mit neuer Jinmeiyō Kanji.
Im Gegensatz zu den Erwartungen der Verfasser war die Annahme von JIS X 0213 seit seinem Inkrafttreten im Jahr 2000 alles andere als schnell. Die Mehrheit der Informationssysteme kann gemeinsam verwenden. (JIS X 0213: 2000, Anhang 1: 2004, Abschnitt 2.9.7)
Zum Microsoft Windows, der vorherrschende Betriebssystem (und damit die vorherrschende Versorgung Desktop -Umgebung) Im Personal Computing Sektor das JIS X 0213 Repertoire wurde seitdem aufgenommen Windows Vista, veröffentlicht im November 2006. Mac OS X ist seit der Version mit JIS x 0213 kompatibel 10.1 (veröffentlicht im Jahr 2001). Viele Unix-Likes wie zum Beispiel Linux kann (optional) bei Wunsch JIS x 0213 unterstützen. Daher wird angenommen, dass die Unterstützung von JIS X 0213 auf PCs mit der Zeit kein Hindernis für seine spätere Einführung ist.
Unter den Verfasser von JIS X 0213 gibt es diejenigen, die eine Mischung aus JIS X 0208 und JIS X 0213 sehen, bevor JIS X 0213 angenommen wird (Satō, 2004). JIS X 0208 wird jedoch weiterhin zur Gegenwart verwendet, und viele prognostizieren es als Standard. Es gibt Hindernisse, die überwunden werden müssen, wenn JIS X 0213 JIS X 0208 in gemeinsamer Verwendung ersetzen soll:
- Das auf Japanisch verwendete Charakterrepertoire Mobiltelefone gegenwärtig[wenn?] basieren auf JIS X 0208. Es gibt keine offiziell angekündigten Pläne, diese in die Kompatibilität von JIS X 0213 zu migrieren. Da Mobiltelefone jetzt ein allgegenwärtiger Aspekt der japanischen Textkommunikation sind (siehe Japanische Handykultur) als weit verbreiteter, allgemein zugegriffenes Medium zum Senden Email und Zugriff auf die Weltweites NetzEin Mangel an Adoption für Mobiltelefone schützt die Nutzung anderswo.
- JIS x 0213 ist mit JIS x 0208 in Bezug auf die Vereinigungkriterien nicht streng nach oben und mit JIS x 0208 (siehe siehe unter). Für groß angelegte Archive (z. Bibliographische Datenbanken und Aozora Bunko), Die JIS X 0208 verwenden und den Einheitungskriterien streng befolgen, wird angenommen, dass es äußerst schwierig wäre, alle Daten in JIS X 0213 umzuwandeln und den gleichen Standard der Textintegrität zu bewahren.
- In der Praxis definieren und verwenden viele Systeme nicht zugewiesene Codepunkte in JIS x 0208. Windows weist beispielsweise IBM- und NEC-erweiterte Zeichen und benutzerdefinierte Zeichenbereiche zu (siehe Windows-932) und Mobiltelefone zuweisen Emoji an einigen solchen Orten. Die Codepunkte davon Gaiji Konflikt mit den Codepunkten, die JIS x 0213 Codes verwenden UCS/Unicode und verwenden Sie das JIS X 0213 -Repertoire von dort aus, aber bis ein Systemadministrator in der Lage ist, zu beurteilen, dass die Implementierungen von UCS/Unicode Ersatzpaare und Charakterzusammensetzungen sind ausreichend stabil, er oder sie zögert wahrscheinlich, das Repertoire von JIS X 0213 zu verwenden, das diese Implementierungen erfordert.
- Die von JIS x 0213 bereitgestellten Verbesserungen sind hauptsächlich im Bereich der Zeichen, die nicht so oft verwendet werden wie die, die bereits in JIS X 0208 enthalten sind. Da es fast doppelt so viele Glyphen gibt, die für die geringere Verwendung dieser zusätzlichen Glyphen implementiert werden müssen Es kann in vielen Fällen eine geringe Kapitalrendite sein, insbesondere wenn Ressourcen eingeschränkt sind.
Implementierungen
Weil jis x 0208 / jis c 6226 in erster Linie a ist Zeichensatz und nicht streng definiert ZeichenkodierungMehrere Unternehmen haben ihre eigenen Kodierungen des Charaktersatzes implementiert.
- Apple Computer Inc.: Makjapaner (SHIFT_JIS -Basis)
- Fujitsu: Jef Kanji Code (Ebcdic basiert)
- Hitachi Ltd.: Keis (Ebcdic basiert)
- IBM: verschiedene, einschließlich IBM-932 und IBM-942 (beide revers_jis basierend)
- Microsoft: Windows-932 (SHIFT_JIS -Basis)
- NEC: JIPS
Einige davon beinhalten anstelle von nicht zugewiesenen Regionen des Standards näherspezifische Zeichenzuordnungen. Dazu gehören Windows-932 und Macjapanese sowie NEC's PC98 Zeichenkodierung. Während IBM-932 und IBM-942 auch Anbieteraufgaben enthalten, umfassen sie sie außerhalb der Region, die für JIS X 0208 verwendet wird.
Beziehung zu anderen Standards
ISO/IEC 646 IRV und ASCII
Wie oben erwähnt, ist das Kanji -Set nicht nach oben kompatibel mit dem iSO/IEC 646: 1991 IRV (ASCII) Grafikzeichen. Das Kanji-Set und der IRV-Grafikzeichen können zusammen verwendet werden, wie in JIS x 0208 (IRV + 7-Bit-Code für Kanji und IRV + 8-Bit-Code für Kanji) angegeben. Sie können zusammen in der Verwendung verwendet werden EUC-JP auch.
Jis x 0201
Das Kanji -Set fehlt drei Charaktere, die in enthalten sind Jis x 0201's grafischer Zeichen für lateinische Zeichen festgelegt: 2/2 (Zitatmarke), 2/7 (Apostroph) und 2/13 (Hyphen-Minus). Das Kanji -Set enthält alle Charaktere, die in JIS X 0201's Graphic Character Set für Katakana enthalten sind.
Das Kanji-Set und der grafische Zeichen für lateinische Zeichen können zusammen in JIS x 0208 (lateinische Zeichen + 7-Bit-Code für Kanji und den lateinischen Zeichen + 8-Bit-Code für Kanji) zusammen verwendet werden. Das Kanji-Set, das grafische Zeichen für lateinische Zeichen und das grafische Zeichen des JIS X 0201 für Katakana können zusammen verwendet werden, wie in JIS x 0208 angegeben (der schichtkodierte Zeichensatz; d.h. Schicht jis). Das Kanji -Set und das grafische Zeichen für Katakana können gemeinsam verwendet werden EUC-JP.
Jis x 0212
Jis x 0212 (ergänzende Kanji) definiert zusätzliche Zeichen mit Codepunkten für die Zwecke der Informationsverarbeitung, bei der Zeichen erforderlich sind, die in JIS X 0208 nicht zu finden sind mit zusätzlichen Zeichen enthalten.
JIS x 0212 kann mit JIS x 0208 in verwendet werden EUC-JP. Auch JIS X 0208 und JIS X 0212 sind beide Quellstandards für UCS/Unicode's Han -VereinigungDies bedeutet, dass Kanji aus beiden Sätzen in einem Unicode-Format-Dokument aufgenommen werden kann.
Unter den Codepunkten, die die zweite Version von JIS X 0208 geändert haben, spiegeln 28 Codepunkte in JIS X 0212 die Zeichenformen vor den Änderungen wider.[17] Auch Jis x 0212 hat das "das" neu zuzuordnen "Schließzeichen"Dieser Jis x 0208 hatte als Nicht-Kanji (〆, in Reihe 1 Zelle 26) als Kanji (乄, in Reihe 16 Zelle 17). JIS X 0212 hat keine gemeinsamen Zeichen mit JIS x 0208 als diese. Daher ist es nicht für den allgemeinen Gebrauch für sich geeignet.
In der vierten Version von JIS X 0208 wurde die Verbindung zu JIS X 0212 jedoch überhaupt nicht definiert. Es wird angenommen, dass dies daran liegt, dass das Entwurfskomitee des vierten JIS X 0208 -Standards eine kritische Meinung der Auswahl- und Identifikationsmethoden von JIS X 0212 hatte.[18] Die Charakterbedeutungen und die Selektionsrationale wurden nicht ordnungsgemäß dokumentiert, was es schwierig machte, festzustellen, ob der gewünschte Kanji denen in seinem Repertoire entsprach.[19] Der Text des vierten Standards sowie auf die problematischen Punkte der Charakterauswahl von JIS x 0212 zeigen: "Es wird angenommen, dass nicht nur die Charakterauswahl unmöglich ist, es ist auch unmöglich, zusammen zu verwenden; die Verbindung zu jis X 0212 ist überhaupt nicht definiert. " (Abschnitt 3.3.1)
Jis x 0213
Jis x 0213 (Erweiterung Kanji) definiert ein Kanji 0208 von Anfang an sein. "[16]
Der Kanji -Satz von JIS X 0213 enthält alle Zeichen, die im Kanji -Set von JIS X 0208 dargestellt werden können, mit vielen Ergänzungen. Insgesamt definiert JIS X 0213 1183 Nicht-Kanji und 10.050 Kanji (für insgesamt 11.233 Zeichen) innerhalb von zwei 94 mal 94 Flugzeugen (面, men). Das erste Flugzeug (Nicht-Kanji und Level 1–3 Kanji) basiert auf JIS X 0208, während die zweite Ebene (Level 4 Kanji) für die nicht zugewiesenen Zeilen von JIS x 0212 ausgelegt ist, wobei die Verwendung in die Verwendung in der Verwendung in ermöglicht wird EUC-JP.[20] JIS x 0213 definiert auch Revers_jisx0213, Eine Variante von Shift_JIs, die die gesamte JIS x 0213 codieren kann.
For most intents and purposes, JIS X 0213 plane 1 is a superset of JIS X 0208. However, different unification criteria are applied to some code points in JIS X 0213 compared to JIS X 0208. Consequently, some pairs of kanji glyphs that were represented Durch einen jis x 0208 -Codepunkt, der aufgrund der einheitlichen Einheit in JIS X 0213 separate Codepunkte erhalten, werden beispielsweise die Glyphe in Zeile 33 Zelle 46 von JIS X 0208 ("僧", beschrieben Oben) vereint einige Varianten aufgrund seiner rechten Komponente. In jis x 0213 zwei Formen (diejenigen, die die Komponente enthalten "丷") sind in der Ebene 1 Zeile 33 Zelle 46 und der anderen (mit der Komponente enthält" einheitlich.八") befindet sich in der Ebene 1 Zeile 14 Zelle 41. Daher sollte JIS x 0208 Zeile 33 Zelle 46 auf JIS x 0213 Ebene 1 Zeile 33 Zelle 46 oder Ebene 1 Zeile 14 Zelle 41 nicht automatisch bestimmt werden.[t] Dies begrenzt das Ausmaß, in dem JIS X 0213 mit JIS X 0208 nach oben kompatibel angesehen werden kann, wie vom JIS X 0213 -Ausschuss aus dem Ausschuss zugelassen.[21]
Zum größten Teil die Reihe m Zelle n in JIS x 0208 entspricht der Ebene 1 Zeile m Zelle n in jis x 0213; Daher entsteht in der Praxis nicht viel Verwirrung. Dies liegt daran, dass die meisten Schriften die in JIS X 0208 veranschaulichen Glyphen verwendet haben, und die meisten Benutzer sind sich der Vereinigungskriterien bewusst nicht bewusst.
ISO/IEC 10646 und Unicode
Der Kanji -Set von Jis x 0208 gehört zu den ursprünglichen Quellstandards für die Han -Vereinigung in ISO/IEC 10646 (UCS) und Unicode. Jeder Kanji in jis x 0208 entspricht seinem eigenen Codepunkt in UCS/Unicode's Grundlegende mehrsprachige Ebene (BMP).
Der Nicht-Kanji in JIS X 0208 entspricht auch ihren eigenen Codepunkten im BMP. Für einige Sonderzeichen implementieren einige Systeme jedoch andere Korrespondenzen als die von UCS/Unicode (die auf den Zeichennamen basieren, die JIS x 0208: 1997 angegeben sind).
Fußnoten
Erläuternd
- ^ a b c d (Zurückgezogen)
- ^ JIS und Apple: U+2014.
Unicode,[a] Microsoft und Whatwg: U+2015. - ^ Microsoft und Whatwg: U+FF5E.
Unicode,[a] JIS und Apple: U+301c. - ^ Microsoft und Whatwg: U+2225.
Unicode,[a] JIS und Apple: U+2016. - ^ Microsoft: U+FF0D.
Unicode,[a] Jis und Apple: U+2212.
WHITWG: U+FF0D zum Decodieren, außergewöhnlich bei Codierung. - ^ a b c d In jis x 0213 hinzugefügt
- ^ Fehlt in der ursprünglichen Version der Erweiterung, die vor den Vorgängen der Heisei Ära. Codeposition, ausgewählt von NEC oder Microsoft.[5] Nicht in Macintosh Postscript.
- ^ a b c d e f g h i Dupliziert durch Ergänzungen zu Reihe 2 im Jahr 1983. hier nicht codiert (aber nicht zugewiesen) in jis x 0213,[5] Aber hier von Microsoft und Whatwg kodiert. Was die Macintosh -Postscript -Codierung betrifft, wird eine private Verwendung U+F87F an das mit dem dekodierte Formular angehängt Mac OS Bibliotheksfunktionen, um Roundtripsen zu ermöglichen.
- ^ Wie in den im internationalen Register der codierten Zeichensätze registrierten Code -Tabellen gezeigt, die mit Escape -Sequenzen vor dem vierten Standard (1997) verwendet werden sollen, ist die ku (区) und ten (点) wurden in Englisch als "Abschnitt" bzw. "Position" bezeichnet. In Bezug übersetzt in gun (群), men (面), ku (区), und ten (点). Die Reihe und die Zelle von Jis x 0208 und die Reihe und Zelle der UCS sind verschiedene Ideen.
- ^ Charakternamen werden in römischen Buchstaben angegeben und international verwendet, sodass sie als internationale Konvention angesehen werden können, ähnlich wie die Wissenschaftliche Namen von lebenden Organismen. In Bezug auf diese Analogie wären die japanischen gebräuchlichen Namen für die Zeichen wie die Verwendung gebräuchliche Namen für Organismen.
- ^ Für eine vollständig vorgestellte Suche oder Sorte von Kana-Orden müssen Wortlesungen, Wiederholungsmarken usw. berücksichtigt werden. Die Sortierung japanischer Charakterzeichenfolge ist in JIS x 4061 (Zusammenstellung japanischer Charakterzeichenfolgen) vorgeschrieben.
- ^ Laut Yasuoka (2001a) scheinen es einige zufällige Versehen zu geben. Er bemerkt zum Beispiel, dass die ba (旛, 58-57) von Inba und die shi (泗, 61-89) von Shisui, Kumamoto sind nicht Teil von Level 1.
- ^ Liste: 丼傲 刹哺喩嗅 嘲毀彙恣惧慄憬拉摯 曖楷 鬱璧 瘍箋 籠 緻羞訃諧 辣 錮 錮
- ^ Der Jōyō Kanji ist nur in seine offizielle Variantenform 叱 enthalten.
- ^ Liste: 乘亞佛侑來 俐傳 僞價 儉兒 凉凛 劍勁 勳卷單 嚴圈 國圓團 壞壘 壯壽奎奧 奬孃 實寢 專峽 專峽 崚巖巫 已 帶廣廳 彈彌彗 彈彌彗 彈彌彗從 徠恆惡惠 惺愼 應 懷戰 搜搖 攝收敍 昊昴晏 晄晝 晨 晟暉曉檜 栞條 梛椰 榮樂樣 橙檢櫂櫻盜毬氣洸 洵 淨 渾滉 漱滯 漱滯澁澪 濕煌 燒 燎燿爭 狹默獸 珈珀琥瑶 疊 皓 盡眞眸碎 祕祿 禪 禮 稟稻穗 絆綺綸縣 縱纖 縱纖 飜聽 脩臟 脩臟 苺茉 莊莉菫 莊莉菫萠 萬蕾藏藝 藥 衞 裝 諄謠 讓 賣 赳 轉迪 逞醉 釀釉鎭 鑄陷 險 顯颯騷 顯颯騷 驍驗 髮鷄麒黎齊堯 槇 遙凜熙 遙凜熙 遙凜熙
- ^ Liste: 焰鷗俠 繫 繡渚 蔣醬蟬 簞摑 顚禱萊蠟 增德 橫瀨 猪神 祥福 綠緖薰諸賴郞 都 黑逸 謁緣 黃溫禍悔海渴漢器 祈虛 響勤謹揭 響勤謹揭 響勤謹揭擊穀 祉 視煮 社者 涉狀 節祖僧層 巢 憎贈 卽嘆 著 徵禎 突難 梅繁 晚卑碑 勉步 墨 墨 每 欄虜 淚類 曆歷 練 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 賓敏侮 勉步 勉步 卽嘆 著 練 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 鍊錄俱瘦 -吞寬 廊 朗懲
- ^ Für die Zellen 19 Zellen 30 und 31 wird die Reihenfolge für ihre repräsentativen Messwerte durcheinander gebracht. Folglich sollte die richtige Reihenfolge sein kaeru (蛙, "Frosch") gefolgt von kaori (馨, "Aroma")ihre Positionen werden so transponiert, dass Kaori voraus Kaeru.
- ^ Zusätzlich die hauptsächlich verwendete Variante (剣) ist in Zeile 23 Zelle 85 auf Stufe 1 und eine andere Variante (Variante (釼) kann als gruppiert gefunden werden wie das "Gold" radikal in Zeile 78 Zelle 63 auf Level 2.
- ^ Die Frage, welche Glyphen innerhalb der Vereinigungskriterien verwendet werden sollen, bleibt dem Typdesigner überlassen. Abhängig davon (und die Umstände des Endbenutzers) ist es möglich, dass weder, sowohl, eine noch der andere dieser beiden ihre Form im Kangxi-Stil folgen.
- ^ Dies ist die gleiche Unsicherheit darüber, ob der "Byphen-Minus" in ISO/IEC 646 in JIS x 0208 auf "Bindestrich" oder "Minuszeichen" zugeordnet werden sollte.
Referenz Fußnoten
- ^ "Warum Japan den iPod nicht erstellt hat". Gatunka. 5. Mai 2008.
- ^ JIS X 0208 war keiner der in der enthaltenen Standards Liste der anwendbaren Zielsysteme für die Anzeige der neuen JIS -Marke angekündigt von der Ministerium für Wirtschaft, Handel und Industrie am 17. Januar 2007.
- ^ a b c Steele, Shawn (15. April 1998). "CP932.txt: CP932 an Unicode -Tabelle". Microsoft. (Codes in Shift_JIS-Format; SJIS 0x815C = 1-29 = jis 0x213d;
- ^ a b "Karte (externe Version) von Mac OS Japanische Codierung zu Unicode 2.1 und später". Apfel. (Codes in Shift_JIS-Format; SJIS 0x815C = 1-29 = jis 0x213d;
- ^ a b c d Lunde, Ken (21. März 2019). "Eine kurze Geschichte des Japans -Ära -Namens Ligaturen". CJK -Blog. Adobe Inc.
- ^ a b c Japanische Industriestandardausschuss. ISO-IR-233: Japanischer Grafikzeichen für Informationswechsel, Ebene 1 (Update von ISO-IR 228) (PDF). Itcj/Ipsj.
- ^ Unicode, Inc. (14. Oktober 2011). "Jis x 0208 (1990) zu Unicode".
- ^ Van Kesteren, Anne, "Index JIS0208", Codierungsstandard, Waswg
- ^ a b Jungshik Shin (14. Oktober 2011). "KSX1001.TXT: KS X 1001 bis Unicode Table". Unicode, Inc.
- ^ JIS C 6225-1979 (Kontrollzeichencodes für den Zweck des japanischen Grafikzeichens für Informationsaustausch) bereitete Steuerzeichen für den Beginn und das Ende der Komposition bereit. JIS C 6225 wurde erneut verurteilt Jis x 0207 1987 und wurde 1997 zurückgezogen.
- ^ In der Iana Zeichensätze, Shift JIS wird definiert, indem sie sich auf JIS x 0208: 1997 anhang 1 beziehen.
- ^ a b c d "15. Geschichte von Jis x 0208" (PDF), IBM Japanischer Grafikzeichen für Extended Unix Code (EUC), Ibm, p. 371, archiviert (PDF) Aus dem Original am 8. Dezember 2017, abgerufen 8. Dezember 2017
- ^ Lunde, Ken. "Anhang Q § 78-VS-83-3". CJKV -Informationsverarbeitung (Ergänzungsmaterial). O'Reilly. Beachten Sie, dass die Kutencodes mit Bindestrich weggelassen werden.
- ^ Lunde, Ken. "Anhang Q § 78-VS-83-2". CJKV -Informationsverarbeitung (Ergänzungsmaterial). O'Reilly. Beachten Sie, dass die Kutencodes mit Bindestrich weggelassen werden.
- ^ Laut Nomura (1984) beträgt die Anzahl der Charakterformen, einschließlich der Bewegungen zwischen Codepunkten, 294. Laut Shibano (1997a) und der Text des vierten Standards beträgt die Zahl von Charakterformen 300.
- ^ a b Original Japanisch: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」
- ^ Lunde, Ken. "Anhang Q § TJ2". CJKV -Informationsverarbeitung (Ergänzungsmaterial). O'Reilly. Beachten Sie, dass die Kutencodes mit Bindestrich weggelassen werden.
- ^ Zum Beispiel erklärte Shibano Kōji (1997a), der als Vorsitzender des Entwurfsausschusses für den vierten Standard fungierte, diese über die Auswahlmethode: "Es basiert auf einem oberflächlichen Verständnis der Charakter -Set -Auswahl von JIS X 0208; es ist ein Fehler Verständnis "(Original Japanisch: 「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」) und "Es gibt ein großes Problem bei der Untersuchung des gesamten Charakterssatzes, der 10000 Zeichen übersteigt." (Original Japanisch: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」)
- ^ Marukawa, Kazushi. "JIS -Charakter -Sets - JIS X 0212: 1990". Archiviert von das Original am 22. Mai 2005.
- ^ Chang, Hyeshik (31. Oktober 2021). "Readme für CJKCodecs". cpython. Python Software Foundation.
- ^ JIS X 0213: 2000 Abschnitt 5.3.2, JIS x 0213: 2000 Anhang 1: 2004 Abschnitt 3.2.2
Siehe auch
- Jis codierte Zeichensätze
- Jis x 0201 "7-Bit- und 8-Bit-codierte Zeichensätze für den Informationsaustausch"
- JIS X 0202 "Informationstechnologie - Charaktercode -Struktur und Erweiterungstechniken" (ISO/IEC 2022)
- JIS X 0208 "7-Bit- und 8-Bit-Doppel-Byte-kodierte Kanji-Sätze für Informationsaustausch"
- JIS X 0211 "Steuerungsfunktionen für codierte Zeichensätze" (ISO/IEC 6429)
- Jis x 0212 "Code des ergänzenden japanischen Grafikzeichens für Informationswechsel für den Informationswechsel"
- Jis x 0213 "7-Bit- und 8-Bit-Doppel-Byte-Codierte erweiterte Kanji-Sätze für Informationsaustausch"
- JIS X 0221 "Universal Multiple-Octet-Coded-Zeichenset (UCS)" (ISO/IEC 10646)
- Extended shinjitai
- Hilfe: Japanisch
Verweise
Für die Zwecke des Zitats sind diese Japanische Namen werden so dargestellt, als wären sie in westlicher Reihenfolge, wo sie romanisiert sind, und behalten östliche Ordnung, wo nicht.
- Nishimura, Hirohiko [西村 恕彦], 1978. The Kanji Jis [漢字のJIS]. Standardisierungsjournal [標準化ジャーナル], 171: 3–8.
- Nomura, Masaaki [野村 雅昭], 1984. Überarbeitung von JIS C 6226: Kanji -Codes für Informationsaustausch [JIS C 6226 情報交換用漢字符号系の改正]. Standardisierungsjournal [標準化ジャーナル], 14 (3): 4–9.
- Ogata, Katsuhiro [小形 克宏], 2006a. [Permanent Dead Link] Dinge, die in 97JIs nicht einheitlich waren, unter den Beispiele, die in JIS C 6226-1983 (83JIS) geändert wurden [) [JIS C 6226-1983 (83JIS) で例示字体を変更したうち、97JISで包摂とされなかったもの][Permanent Dead Link] (Zugriff am 29. Januar 2007).
- Ogata, Katsuhiro [小形 克宏], 2006b. [Permanent Dead Link] Dinge, die in den Umfang der Vereinigung unter den Beispiele der Glyphen in JIS C 6226-1983 (83JIS) fiel [JIS C 6226-1983 (83JIS) 例示字体変更のうち、包摂の範囲内だったもの][Permanent Dead Link] (Zugriff am 29. Januar 2007).
- Satō, Takayuki [佐藤 敬幸], 2004. In Bezug auf die Überarbeitung von JIS x 0213 (7-Bit- und 8-Bit-Doppel-Byte-Coded Extended Kanji-Sets für Informationsaustausch) [JIS X 0213 (7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合) の改正について]. Standardisierungsjournal [標準化ジャーナル], 34 (4): 8–12.
- Shibano, Kōji [芝野 耕司], 1997a. In Bezug auf die Überarbeitung von JIS x 0208 (7-Bit- und 8-Bit-Doppel-Byte-kodierte Kanji-Sätze für den Informationsaustausch) [JIS X0208 (7ビット及び8ビットの2バイト情報交換用符号化漢字集合) の改正について]. Standardisierungsjournal [標準化ジャーナル], 27 (3): 8–12.
- Shibano, Kōji [芝野 耕司], 1997b. Planen Sie die Erweiterung des Jis Kanji [JIS漢字の拡張計画]. Standardisierungsjournal [標準化ジャーナル], 27 (7): 5–11.
- Shibano, Kōji [芝野 耕司], 2000. Einrichtung von JIS X 0213 (7-Bit- und 8-Bit-Doppel-Byte-Coded Extended Kanji-Sets für Informationsaustausch) [JIS X 0213 (7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合) の制定]. Standardisierungsjournal [標準化ジャーナル], 30 (3): 3–7.
- Shibano, Kōji [芝野 耕司], 2001. über Jis Kanji [漢字について]. Standardisierung und Qualitätskontrolle [標準化と品質管理], 54 (8): 44–50.
- Shibano, Kōji [芝野 耕司] (Herausgeber), 2002. Jis Kanji Dictionary, erweiterte und überarbeitete Ausgabe [増補改訂 JIS漢字字典]. Tokio: Japanische Standardvereinigung ( ISBN4-542-20129-5).
- Shibano, Kōji [芝野 耕司], 2002. Die Entwicklung von Kanji und japanischen Sprachverarbeitungstechnologien: Die Standardisierung von Kanji -Codes [漢字・日本語処理技術の発展: 漢字コードの標準化]. IPSJ Magazine [情報処理], 43 (12): 1362–1367
- Tajima, Kazuo [田嶋 一夫], 1979. Probleme in Bezug auf die Verwendung der Jis Kanji -Auflistung: Design und Umgang mit Kanji in Kanji -Verarbeitungssystemen [JIS漢字表の利用上の問題: 漢字処理システムにおける漢字のデザインと管理]. Journal of Information Processing Society of Japan [情報管理], 21 (10): 753–761.
- Uchida, Tomio [内田 富雄], 1990. Einrichtung von JIS X 0212 (Kanji -Codes für Informationsaustausch - ergänzende Kanji) [JIS X 0212 (情報交換用漢字符号―補助漢字) の制定]. Standardisierungsjournal [標準化ジャーナル], 20 (11): 6–11.
- Yasuoka, Kōichi [安岡 孝一], 2001a. Situation der neuesten Charaktercodes in Japan (früherer Teil) [日本における最新文字コード事情 (前編)]. Systeme, Steuerung und Informationen [システム/制御/情報], 45 (9): 528–535.
- Yasuoka, Kōichi [安岡 孝一], 2001b. Situation der neuesten Zeichencodes in Japan (letzterer Teil) [日本における最新文字コード事情 (後編)]. Systeme, Steuerung und Informationen [システム/制御/情報], 45 (12): 687–694.
- Yasuoka, Kōichi [安岡 孝一], 2006 "Unterschiede zwischen dem Jis Kanji-Plan (1976) und JIS C 6226-1978" [JIS漢字案 (1976) とJIS C 6226-1978の異同] am 17. "Computerverbrauch für orientalische Studien" [東洋学へのコンピュータ利用] Forschungsseminar. 3–51.
- Yasuoka, Kōichi [安岡 孝一] & Motoko Yasuoka [安岡 素子], 2006. Die Geschichte der Charaktercodes: Europa, Amerika und Japan [文字符号の歴史: 欧米と日本編]. Tokio: Kyōritsu Shuppan ( ISBN4-32012102-3).
Externe Links
- Das internationale Register dass das ipsj/itcj überwacht.
- (auf Japanisch) Die Datenbank -Suche der japanischen Industrial Standards Committee (Der neueste Standard kann hier gelesen werden).
- (auf Japanisch) Datenbanksuche der japanischen Standards Association: (Eine Kopie des neuesten Standards kann hier gekauft werden).
- (auf Japanisch) Vereinigung bezogene Bestimmungen in den Standards JIS X 0208 und 0213
- (auf Japanisch) Cyber -Bibliothekar - Jis Kanji Listing