Tron (Codierung)

Tron
Sprachen) Englisch, Chinesisch, Japanisch, Koreanisch
Erstellt von Tron -Projekt
Einstufung DBCs
Transformationen / codiert Jis x 0208, Jis x 0212, Jis x 0213, GB 2312, KS x 1001, Die großen 5, GB 18030, Andere

Tron -Code ist ein Multi-Byte Zeichenkodierung verwendet in der Tron -Projekt. Das ist vergleichbar mit Unicode Verwendet aber keine Unicode Han -Vereinigung Prozess: Jedes Zeichen von jedem CJK Das Charakter -Set ist separat codiert, einschließlich archaischer und historischer Äquivalente moderner Charaktere. Dies bedeutet, dass chinesischer, japanischer und koreanischer Text ohne Zweideutigkeit in Bezug auf die genaue Form der Zeichen gemischt werden können. Es bedeutet jedoch auch, dass viele[die?] Charaktere mit äquivalenter Semantik werden mehr als einmal codiert und einige Operationen erschweren.

Tron hat Platz für 150 Millionen Codepunkte. Separate Codepunkte für chinesische, koreanische und japanische Varianten der über 70.000 Han -Zeichen in Unicode 4.1 (wenn dies als notwendig erachtet) würden in Tron mehr als 200.000 Codepunkte erfordern. Tron enthält die Nicht-Han-Zeichen von Unicode 2.0, hat sich jedoch nicht über die jüngsten Ausgaben nach Unicode auf dem neuesten Grundlegende mehrsprachige Ebene und fügt Zeichen vorhandenen Skripten hinzu. Die Tron -Codierung wurde aktualisiert, um andere aktuelle Code -Seiten -Updates zu enthalten Jis x 0213.[1]

Schriftarten für die Tron -Codierung sind verfügbar, sie haben jedoch Einschränkungen für die kommerzielle Verwendung.[2]

Struktur

Jedes Zeichen im Tron -Code besteht aus zwei Bytes. ähnlich zu ISO/IEC 2022Das Tron -Charakter -Codierung verarbeitet Zeichen in mehreren Zeichensätzen innerhalb einer einzelnen Zeichencodierung, indem Escape -Sequenzen, die als Sprachspezifizierer Codes bezeichnet werden, zwischen Ebenen mit 48.400 Codepunkten wechseln. In den Tron -Code eingebaute Zeichensätze enthalten vorhandene Zeichensätze wie z. B. Jis x 0208 und GB 2312sowie andere Charakterquellen wie die Dai Kan-Wa Jitenund einige Skripte, die nicht in anderen Kodierungen enthalten sind, z. Dongba -Symbole.

Aufgrund der Einbeziehung der gesamten Zeichensätze in den Tron -Code werden viele Zeichen mit äquivalenter Semantik mehrmals codiert. Zum Beispiel empfangen alle Kanji -Zeichen im GT -Schrift ihre eigenen Codepoints, obwohl sich viele von ihnen mit anderen Kanji -Zeichensätzen überlappen, die bereits enthalten sind, wie z. +4e9c), das in der Region JIS X 0208 bei 1-3021, der GT-Schriftregion 2-2464 und der Region Dai Kan-Wa Jiten bei 8-2373 erscheint.

Kontrollcodes

Bytes im Bereich 0x00 bis 0x20 und 0x7f sind für die Verwendung in Kontrollcodes reserviert.

Zeichencodes

Die Zeichen in jeder Ebene sind in vier Zonen unterteilt. Jede Zone wird separat zugewiesen; Beispielsweise befinden sich in der Ebene 1 JIS x 0208 Zeichen in der Zone A ab 0x2121, JIS X 0213 Zeichen sowohl in Zone A als auch in Zone B und GB 2312 -Zeichen stehen ab 0x2180 in Zone C.

Zone Erster Byte Zweites Byte
Zone a 0x21 - 0x7e 0x21 - 0x7e
Zone b 0x80 - 0xfd 0x21 - 0x7e
Zone c 0x21 - 0x7e 0x80 - 0xfd
Zone d 0x80 - 0xfd 0x80 - 0xfd

Codepoints sind als X-YJJYY notiert, wobei X die Ebenenzahl in der Dezimalzahl und die jJJJ ist der CodePoint in Hexadezimal. Alternativ kann die Notation 0xnnyyyy verwendet werden, wobei NN das zweite Byte des Code des Sprachspezifizierers ist. Ein Textformat "& tnnyyyy;" kann verwendet werden, um einen Tron -CodePoint im ASCII -Text auf ähnliche Weise wie zu bezeichnen Numerische Zeichenreferenzen in HTML.

Sprachspezifizierer -Codes

Sprachspezifizierercodes werden mit 0xFE vorangestellt. Gültige Suffixe sind 0x21 bis 0x7e und 0x80 bis 0xFe, von denen viele nicht zugewiesen sind.

Spezial- und Fluchtcodes

Spezielle Codes werden mit 0xff vorangestellt.

Flugzeuge

Im Folgenden sind die Flugzeuge für die Verwendung im Tron -Code zusammen mit ihren entsprechenden Sprachspezifikator -Codes und einer Beschreibung der in jeder Ebene enthaltenen Zeichensätze zugewiesen.

Ebene Sprachspezifizierer Code Beschreibung
1 Fe 21 Jis x 0208, Jis x 0212, Jis x 0213, GB 2312, KS x 1001 und Blindenschrift
2 Fe 22 GT -Schriftzeichen
3 Fe 23 GT -Schriftzeichen fortgesetzt
6 Fe 26 Die großen 5
8 Fe 28 Dai Kan-Wa Jiten Figuren
9 Fe 29 Dai Kan-Wa Jite fuhr fort, Hentaigana und verschiedene Charaktere
10 Fe 2a Minderheitenskripte (Dongba -Symbole)
16 Fe 30 Unicode 2.0 (ohne CJK Unified und Hangul)
17 Fe 31 Unicode 2.0 (mit Ausnahme von CJK Unified und Hangul) fuhr fort
22 Fe 36 GB 18030
23 Fe 37 GB 18030 fuhr fort

Die Flugzeuge 11 bis 15 wurden ursprünglich für die Aufbewahrung des Mojikyō Zeichensatz, aber Streitigkeiten haben dazu geführt, dass die Flugzeuge ausgeschlossen wurden. Alle anderen Flugzeuge bis zu 31 sind derzeit für die zukünftige Zuteilung reserviert.

Siehe auch

Externe Links

Verweise

  1. ^ "Der Name des T-Engine-Forums wurde in das Tron-Forum geändert". T-Engine.org. 2015-04-01. Abgerufen 2018-09-16.
  2. ^ "T フォント プロジェクト 利用 規定". Charcenter.t-Engine.org. Abgerufen 2018-09-16.