Die großen 5

Die großen 5
Mime / Iana Die großen 5
Alias ​​(e) Big-5, 大 五 碼
Sprachen) Traditionelles Chinesisch, Englisch
Teilunterstützung:
Vereinfachtes Chinesisch, griechisch, japanisch, Russisch, bulgarisch, einige IPA Briefe für den phonetischen Gebrauch.[1]
Erstellt von Institut für Informationsindustrie
Einstufung Erweiterte ASCII,[a][b] Codierung der variablen Breite, DBCs, CJK -Codierung
Erweitert ASCII[b]
Erweiterungen Windows-950, Big5-Hkscs, zahlreiche andere
Andere verwandte Kodierungen (en) ZNS 11643
  1. ^ Nicht im strengsten Sinne des Begriffs, da ASCII -Bytes als Trail -Bytes erscheinen können.
  2. ^ a b Big5 gibt keine Single-Byte-Komponente an. ASCII (oder eine Erweiterung) wird jedoch in der Praxis verwendet.

Die großen 5 oder Die großen 5 ist ein Chinesische Charaktercodierung Methode verwendet in Taiwan, Hongkong, und Macau zum Traditionelle chinesische Charaktere.

Das Volksrepublik China (VR China), was verwendet vereinfachte chinesische Charaktere, verwendet die GB 18030 Charakter stattdessen eingestellt.

Big5 hat seinen Namen aus dem Konsortium von fünf Unternehmen in Taiwan, die es entwickelt haben.[2]

Organisation

Das ursprüngliche Big5 -Charakter -Set wird zuerst nach Verwendung der Nutzungsfrequenz sortiert, zweitens nach Schlaganfall, schließlich nach Kangxi radikal.

Dem ursprünglichen Big5 -Charakter -Set fehlten viele häufig verwendete Charaktere. Um dieses Problem zu lösen, entwickelte jeder Anbieter eine eigene Erweiterung. Die ETEN -Erweiterung wurde durch Popularität Teil des aktuellen Big5 -Standards.

Die Struktur von Big5 entspricht nicht dem ISO 2022 Standard, sondern eine gewisse Ähnlichkeit mit der Schicht jis Codierung. Es ist ein Doppel-Byte-Zeichenset (DBCs) mit der folgenden Struktur:

Erstes Byte ("Lead Byte") 0x81 bis 0xFe (oder 0xa1 bis 0xF9 für nicht Benutzerdefinierte Zeichen)
Zweites Byte 0x40 bis 0x7e, 0xa1 bis 0xfe

(Das Präfix 0x, das Hexadezimalzahlen bedeutet).

Standardzuweisungen (ohne Anbieter oder benutzerdefinierte Erweiterungen) verwenden die Bytes 0x7f nicht bis 0xa0 oder 0xff, entweder als Lead (zuerst) oder Trail (zweite) Bytes. Bytes 0xa1 bis 0xfe werden sowohl für Blei- als auch für Trail-Bytes für Doppel-Byte (Big5) -Codes verwendet. Bytes 0x40 bis 0x7e werden als Trail-Bytes nach einer Lead-Byte oder für Einzelbyte-Codes verwendet. Wenn sich das zweite Byte nicht in beiden Bereichen befindet, Verhalten ist nicht spezifiziert (d.h. variiert von System zu System). Zusätzlich bestimmte Varianten des Big5 -Charakters Set, zum Beispiel die HkscsVerwenden Sie einen erweiterten Bereich für das Lead -Byte, einschließlich der Werte im Bereich 0x81 bis 0xa0 (ähnlich wie Schicht jis), während andere reduzierte Lead-Byte-Bereiche verwenden (z. B. die Apple Macintosh-Variante verwendet 0xFD über 0xff als Single-Byte-Codes, wodurch der Lead-Byte-Bereich auf 0xa1 bis 0xfc beschränkt wird).[3]

Der numerische Wert einzelner Big5-Codes wird häufig als 4-stellige Hexadezimalzahl angegeben, die die beiden Bytes beschreibt, die den Big5-Code umfassen, als ob die beiden Bytes a Big Endian Darstellung einer 16-Bit-Zahl. Zum Beispiel wird der Big5-Code für einen Platz in voller Breite, das die Bytes 0xa1 0x40 sind, normalerweise als 0xa140 oder nur A140 geschrieben.

Streng genommen enthält die Big5 -Codierung nur DBCS -Zeichen. In der Praxis werden die Big5-Codes jedoch immer zusammen mit einem nicht spezifizierten, systemabhängigen Single-Byte-Zeichenset verwendet (ASCII, oder ein 8-Bit-Zeichenset wie z. Code Seite 437), so dass Sie eine Mischung aus DBCs-Zeichen und Single-Byte-Zeichen in Big5-kodierter Text finden. Bytes im Bereich 0x00 bis 0x7f, die nicht Teil eines Doppel-Byte-Zeichens sind, wird als Single-Byte-Zeichen angenommen. (Eine detailliertere Beschreibung dieses Problems finden Sie in der Diskussion über "Die passenden SBCs" unten.)

Die Bedeutung von Nicht-ASCII-einzelnen Bytes außerhalb der zulässigen Werte, die nicht Teil eines Doppel-Byte-Zeichens sind, variiert von System zu System. In alten MSDOS-basierten Systemen werden sie wahrscheinlich als 8-Bit-Zeichen angezeigt. In modernen Systemen liefern sie wahrscheinlich entweder unvorhersehbare Ergebnisse oder generieren einen Fehler.

Ein detaillierterer Blick auf die Organisation

Im ursprünglichen Big5 ist die Codierung in verschiedene Zonen unterteilt:

0x8140 bis 0xa0fe Reserviert für benutzerdefinierte Zeichen 造字
0xa140 bis 0xa3bf "Grafische Zeichen" 圖形碼
0xa3c0 bis 0xa3fe Reserviert, nicht Für benutzerdefinierte Zeichen
0xa440 bis 0xc67e Häufig verwendete Zeichen 常用 字
0xc6a1 bis 0xc8fe Reserviert für benutzerdefinierte Zeichen
0xc940 bis 0xf9d5 Weniger häufig verwendete Zeichen 次 常 用字
0xf9d6 bis 0xfefe Reserviert für benutzerdefinierte Zeichen

Die "grafischen Zeichen" umfassen tatsächlich Interpunktionsmarken, teilweise Zeichenzeichen (z. B. die Hälfte eines Armaturenbretts, die Hälfte einer Ellipsis; siehe unten). Dingbats, fremde Charaktere und andere Sonderzeichen (z. B. Präsentationsformen "Vollbreite", Ziffern für Suzhou Ziffern, Zhuyin Fuhao, etc.)

In den meisten Anbieter-Erweiterungen werden erweiterte Zeichen in den verschiedenen Zonen platziert, die für benutzerdefinierte Zeichen reserviert sind, von denen jeder normalerweise als mit der vorhergehenden Zone verbunden angesehen wird. Beispielsweise wird erwartet, dass zusätzliche "grafische Zeichen" (z. B. Interpunktionsmarkierungen) in den Bereich 0xa3C0–0xA3FE platziert werden, und zusätzliche Logogramme würden entweder in der 0xC6A1–0xc8fe oder in der 0xF9D6–0xfe -Reichweite platziert. Manchmal ist dies aufgrund der großen Anzahl erweiterter Zeichen nicht möglich. zum Beispiel, kyrillisch Briefe und Japanisch Kana wurden in die Zone platziert, die mit "häufig verwendeten Zeichen" verbunden ist.

Was für ein Big5 -Code tatsächlich codiert

Ein einzelner Big5 -Code repräsentiert nicht immer eine vollständige semantische Einheit. Die Big5 -Codes von Logogrammen sind immer Logogramme, aber Codes im Abschnitt "Grafische Zeichen" sind nicht immer "grafische Zeichen" abgeschlossen. Was Big5 codes spezifische grafische Darstellungen von Charakteren oder Teil der Zeichen sind, die in den Raum passen, der von zwei monospaierten ASCII -Zeichen eingeführt wurde. Dies ist eine Eigenschaft von Doppel-Byte-Zeichensätzen, die normalerweise in CJK-Computing (chinesischer, japanischer und koreanischer) Computing verwendet werden, und ist kein einzigartiges Problem von Big5.

(Das oben oben genannte Erklärung benötigt möglicherweise eine Erklärung, indem Sie es in historischer Perspektive setzen, so wie es ist theoretisch Falsch: Zurück, als das Personal Computing des Textmodus immer noch die Norm war, wurden Zeichen normalerweise als einzelne Bytes dargestellt und jedes Zeichen nimmt eine Position auf dem Bildschirm ein. Es gab daher einen praktischen Grund, darauf zu bestehen, dass Doppel-Byte-Charaktere zwei Positionen auf dem Bildschirm einnehmen müssen, nämlich dass die von Amerika hergestellte Software dann ohne Änderung in einem DBCS-basierten System verwendet werden kann. Wenn ein Charakter eine willkürliche Anzahl von Bildschirmpositionen einnehmen kann Byte Der Text nimmt eine Bildschirmposition ein, die eine falsche Ausgabe erzeugt. Wenn sich ein Computer nie mit dem Textbildschirm befassen müsste, würde der Hersteller diese künstliche Einschränkung nicht durchsetzen. Der Apple Macintosh ist ein Beispiel. Trotzdem muss die Codierung selbst so gestaltet werden, dass es korrekt für Systeme auf textbildschirmbasierten Systemen funktioniert.)

Um diesen Punkt zu veranschaulichen, betrachten Sie den Big5 -Code 0xa14b (…). Für englische Sprecher sieht dies wie eine Ellipsis aus und der Unicode -Standard identifiziert es als solche; Auf Chinesisch besteht die Ellipsis jedoch aus sechs Punkten, die in den Raum von zwei chinesischen Charakteren passen (……). Tatsächlich gibt es tatsächlich keinen Big5 -Code für die chinesischen Ellipse, und der Big5 -Code 0xa14b repräsentiert nur die Hälfte einer chinesischen Ellipse. . Es repräsentiert nur die Hälfte einer Ellipse, da die gesamte Ellipse den Raum zweier chinesischer Charaktere einnehmen sollte, und in vielen DBCS -Systemen muss ein DBCS -Charakter genau den Raum eines chinesischen Charakters einnehmen.

In Big5 codierte Zeichen repräsentieren nicht immer Dinge, die in Klartextdateien leicht verwendet werden können. Ein Beispiel ist "Zitiermarke" (0xa1ca, ﹋), das bei Verwendung unter dem Titel der literarischen Werke erforderlich ist, wenn sie verwendet werden. Ein anderes Beispiel ist das Suzhou Ziffern, was eine Form von ist wissenschaftliche Schreibweise Dies erfordert, dass die Anzahl in einem 2-D-Formular aus mindestens zwei Zeilen ausgelegt wird.

Die passenden SBCs

In der Praxis kann Big5 nicht ohne Matching verwendet werden Einzel -Byte -Zeichenset (SBCS); Dies ist hauptsächlich mit einem Kompatibilitätsgrund zu tun. Wie bei anderen CJK -DBCS -Zeichensätzen wurde jedoch die zu verwendende SBCs nie angegeben. Big5 wurde immer als DBCs definiert, obwohl es bei der Verwendung mit einem geeigneten, gepaart werden muss, nicht spezifiziert SBCs und daher als das verwendet, was manche Leute a nennen MBCs; Dennoch ist Big5, wie definiert, ausschließlich ein DBCs.

Die SBCs, die nicht spezifiziert werden, impliziert, dass die verwendeten SBCs theoretisch von System zu System variieren können. Heutzutage ist ASCII der einzig mögliche SBCs, den man verwenden würde. Allerdings in alt DOS-basierte Systeme, Code Seite 437- Mit seinen besonderen Symbolen im Kontrollcodebereich, einschließlich Position 127 - war viel häufiger. Auf einem Macintosh -System mit dem chinesischen Sprach -Kit oder auf einem Unix -System, das den Cxterm Terminal -Emulator ausführt, wäre der mit Big5 gepaarte SBCS nicht Code Seite 437.

Außerhalb des gültigen Bereichs von Big5 würden die alten DOS-basierten Systeme die Dinge routinemäßig nach den SBCs interpretieren, die mit Big5 in diesem System gepaart sind. In solchen Systemen wurden beispielsweise die Charaktere 127 bis 160 sehr wahrscheinlich nicht vermieden, da sie ungültige Big5 produzieren, aber verwendet wurden, da sie in Code -Seite 437 gültige Zeichen wären.

Die moderne Charakterisierung von Big5 als MBCs, bestehend aus den DBCs von Big5 plus den SBCs von ASCII, ist daher historisch falsch und möglicherweise fehlerhaft, da die Wahl der passenden SBCs war und theoretisch immer noch ist, recht unabhängig vom Geschmack der Verwendung von Big5, die verwendet wurde, und der verwendete Big5 ist ziemlich unabhängig .

Geschichte

Die Unfähigkeit von ASCII Um große Charaktere wie Chinesisch, Japanisch und Koreanisch zu unterstützen, führten zu Regierungen und Industrie, um kreative Lösungen zu finden, damit ihre Sprachen auf Computern gerendert werden können. Eine Vielzahl von Ad -hoc- und normalerweise proprietären Inputmethoden führte zu Bemühungen zur Entwicklung eines Standardsystems. Infolgedessen wurde die Big5 -Codierung durch die definiert Institut für Informationsindustrie von Taiwan im Jahr 1984. Der Name "Big5" ist anerkannt, dass der Standard aus der Zusammenarbeit von fünf der größten IT -Unternehmen Taiwans hervorging: Acer (宏碁); MitaC (神通); Jiajia (佳佳), Zero One Technology (零 壹 壹 oder 01Tech); und, Erster internationaler Computer (FIC) (大眾).

Big5 wurde in Taiwan und weltweit bei Chinesen, die den traditionellen chinesischen Charakter durch seine Einführung in mehreren kommerziellen Softwarepaketen verwendeten, schnell populär gemacht E-Ten Chinesisch DOS Eingabesystem (ETen Chinese System). Das Republik China Regierung erklärt Die großen 5 als ihren Standard Mitte der 1980er Jahre, seit dies bis dahin war, die de facto Standard für die Verwendung herkömmlicher Chinesen auf Computern.

Erweiterungen

Der ursprüngliche Big-5 enthält nur CJK-Logogramme aus dem Diagramme von Standardformen von gemeinsamen nationalen Charakteren (4808 Charaktere) und weniger als kommunischen nationalen Charakteren (6343 Zeichen), aber nicht von Buchstaben aus den Namen der Menschen, Ortsnamen, Dialekten, Chemie, Biologie, Japanisch Kana. Infolgedessen enthalten viele Big-5-unterstützende Software Erweiterungen, um die Probleme anzugehen.

Die Fülle von Variationen machen UTF-8 oder UTF-16 Eine konsistentere Code -Seite für die moderne Verwendung.

Verkäuferverlängerungen

ETEN -Erweiterungen

Im Eten (倚天) Chinesisches Betriebssystem, die folgenden Codepunkte werden hinzugefügt, um Unterstützung für einige in der vorhandene Zeichen hinzuzufügen IBM 5550's Code -Seite, aber nicht von generischer Big5:

  • A3C0 - A3E0: 33 Kontrollzeichen.
  • C6A1 - C875: Kreis 1–10, Halterung 1–10, römische Zahlen 1–9 (i - IX), CJK -Radikalglyphen, Japanisch Hiragana, Japanisch Katakana, kyrillisch Figuren
  • F9D6 - F9FE: Die Charaktere '碁', '銹', '恒', '裏', '墻', '粧' und '嫺', gefolgt von 34 zusätzlichen semigraphisch Symbole.

In einigen Versionen von ETen gibt es zusätzliche grafische Symbole und vereinfachte chinesische Charaktere.

Microsoft -Code -Seiten

Microsoft (微軟) erstellte eine eigene Version von Big5 -Erweiterung als Code Seite 950 zum Gebrauch mit Microsoft Windows, was die F9D6-F9FE-Codepunkte aus ETens Erweiterungen unterstützt. In einigen Versionen von Windows die Euro Währungszeichen wird dem Big-5-Codepunkt A3E1 zugeordnet.

Nach der Installation von Microsoft's HKSCS Patch Auf den herkömmlichen chinesischen Fenstern (oder einer beliebigen Version von Windows 2000 und oben mit geeignetem Sprachpaket) verwenden Anwendungen, die mit Code Seite 950 automatisch eine versteckte Code -Tabelle 951 verwenden. Die Tabelle unterstützt alle Codepunkte in HKSCS-2001, mit Ausnahme der vom Standard angegebenen Kompatibilitätscodepunkte.[4]

IBM -Code -Seiten

Im Gegensatz zu Microsofts Code Seite 950, IBMs Ccsid 950 umfasst Single Byte Code Seite 1114 (CCSID 1114) und Doppel -Byte Code Seite 947 (CCSID 947).[5][6][7] Es enthält ETEN -Erweiterungen für Blei Bytes 0xa3,[8] 0xc6,[9][10] 0xc7[11] und 0xc8,[9][12] Wenn Sie diejenigen mit Lead -Byte 0xf9 weglassen (was Microsoft enthält), haben Sie sie stattdessen auf die abgebildet Privatnutzungsbereich Als benutzerdefinierte Zeichen.[9][13] Es umfasst auch zwei Nicht-ANDE-Erweiterungsregionen mit Trail-Bytes 0x81-A0, d. H. Außerhalb der üblichen Big5-Trail-Byte-Reichweite, jedoch ähnlich dem Big5+ Trail-Byte-Bereich: Area 5 verfügt 9 hat Lead-Bytes 0x81–8c und ist eine benutzerdefinierte Region.[14]

IBM bezieht sich auf das Euro-Zeichen-Update ihrer BIG-5-Variante als CCSID 1370, das sowohl Single-Byte (0x80) als auch Double-Byte (0xA3E1) Euro-Zeichen umfasst.[15] Es umfasst ein Byte -Code -Seite 1114 (CCSID 5210) und Doppel -Byte -Code Seite 947 (CCSID 21427).[15][16][17] Für eine bessere Kompatibilität mit der Variante von Microsoft in IBM DB2IBM definiert auch die Pure Double-Byte-Code Seite 1372[18] und die zugehörige variable Breiten-CCSID 1373, die der Code-Seite 950 von Microsoft entspricht.[19]

IBM weist dem CCSID 5471 dem zu Hkscs-2001 Big5 Code -Seite (mit CPGID 1374 als CCSID 5470 als Doppel -Byte -Komponente),[20][21] CCSID 9567 zur HKSCS-2004-Codeseite (mit CPGID 1374 als CCSID 9566 als Doppel-Byte-Komponente),[22] und CCSID 13663 zur HKSCS-2008-Codeseite (mit CPGID 1374 als CCSID 13662 als Doppel-Byte-Komponente),[23] Während CCSID 1375 einer wachsenden HKSCS -Codeseite zugeordnet ist, die derzeit CCSID 13663 entspricht.[24]

Chinasea -Schrift

Chinasea -Schriftarten (中國 海字集)[25] sind traditionelle chinesische Schriftarten von Chinasea. Die Schriftarten werden selten separat verkauft, aber mit anderen Produkten gebündelt, wie beispielsweise die chinesische Version von Microsoft Office 97. Die Schriftarten unterstützen Japanisch Kana, Kokujiund andere Charaktere, die in Big-5 fehlen. Infolgedessen sind die Chinasea-Erweiterungen populärer geworden als die von der Regierung unterstützten Erweiterungen.[ab?] Einige Hongkong Bbses hatte Codierungen in Chinasea -Schriftarten vor der Einführung von verwendet Hkscs.

Schriftart "Sakura"

Das Schriftart "Sakura" (日和 字集 字集 Sakura -Version) ist in Hongkong entwickelt und ist so konzipiert, dass sie mit kompatibel ist Hkscs. Es fügt Unterstützung für die Unterstützung Kokuji und proprietär Dingbats (einschließlich Doraemon) nicht in HKSCs gefunden.

Unicode-at-On

Unicode-at-on (Unicode補完計畫), formerly BIG5 extension, extends BIG-5 by altering code page tables, but uses the ChinaSea extensions starting with version 2. However, with the bankruptcy of ChinaSea, late development, and the increasing Popularität von Hkscs und Unicode (Das Projekt ist nicht mit HKSCS kompatibel), der Erfolg dieser Erweiterung ist bestenfalls begrenzt.

Trotz der Probleme werden Charaktere, die zuvor auf den privaten Gebrauchsbereich von Unicode abgebildet sind, beim Exportieren von Zeichen in das Unicode -Format in die standardisierten Äquivalente umgewandelt.

Opg

Die Websites der Orientalische Tagesnachrichten und Sonne täglich, gehört zu Oriental Press Group Limited (東方報業集團有限公司) in Hong Kong, used a downloadable font with a different Big-5 extension coding than the Hkscs.

Offizielle Erweiterungen

Taiwanische Bildungsministerium

Das Taiwan -Bildungsministerium lieferte eine eigene Schriftart, das Taiwan -Bildungsministerium (臺灣 教育部 造字檔 造字檔 造字檔 造字檔 造字檔 造字檔 造字檔 造字檔 造字檔).

Taiwan Council of Agriculture Font

Der Taiwans Rat für Landwirtschaftsbekenntnis, der Exekutive Yuan, führte eine maßgefertigte Schriftart mit 133 Charakter, die Taiwan Council of Agriculture Font (臺灣 農委會 常 用 中文 外字集 外字集 外字集) vor .

Big5+

Die chinesische Grundlage für die Digitalisierungstechnologie (中文 數 位化 技術 推廣 推廣 委員會 委員會) führte 1997 Big5+ ein, bei dem über 20000 Codepunkte alle CJK -Logogramme in Unicode 1.1 einbezogen wurden. Die zusätzlichen Codepunkte überschritten jedoch die ursprüngliche Big-5-Definition (Big5+ verwendet hohe Byte-Werte 81-FE- und Low-Byte-Werte 40-7E und 80-FE) und verhindern, dass sie ohne neue Codepage-Dateien auf Microsoft Windows installiert werden.

Big-5e

Damit Windows-Benutzer benutzerdefinierte Schriftarten verwenden konnten, führte die chinesische Grundlage für die Digitalisierungstechnologie Big-5E ein, die 3954 Zeichen (in drei Blöcken von Codepunkten: 8E40-A0FE, 8140-86DF, 86E0-875C) hinzugefügt und die japanische Kana von entfernen Die ETEN -Erweiterung. Im Gegensatz zu Big-5+erweitert Big5e Big-5 innerhalb seiner ursprünglichen Definition. Mac OS X 10.3 und unterstützt später Big-5e in den Schriftarten Lihei Pro (儷 黑 pro.ttf) und lisong pro (儷 宋 pro.ttf).

Big5-2003

Die chinesische Grundlage für die Digitalisierungstechnologie machte eine Big5 -Definition und steckte sie ein ZNS 11643 In Anmerkung Form ist es Teil des offiziellen Standards in Taiwan.

Big5-2003 enthält alle Big-5-Charaktere, die in den ETEN-Erweiterungen von 1984 (Codepunkte A3C0-A3E0, C6A1-C7F2 und F9D6-F9FE) und das Euro-Symbol eingeführt wurden. Kyrillische Charaktere wurden nicht einbezogen, da die Behörde behauptete, ZNS 11643 enthält keine solchen Charaktere.

CDP

Das Akademien Sinica Ende der neunziger Jahre machte eine chinesische Datenverarbeitungsschrift (漢字 構形 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫 資料庫) Mojikyo Schriftarten.

Hkscs

Hongkong Auch Big5 für die Charaktercodierung übernommen. Jedoch, geschriebenes Kantonesisch hat seine eigenen Charaktere im normalen Big5 -Charakter -Set nicht verfügbar. Um dieses Problem zu lösen, die Die Regierung von Hongkong schuf die Big5 -Erweiterungen Regierungs chinesischer Charakter Set (GCCS) im Jahr 1995 und Hongkong ergänzender Charakter -Set 1999. Die Hongkong -Erweiterungen wurden üblicherweise als Patch verteilt. Es wird immer noch als Patch von Microsoft verteilt, aber eine vollständige Unicode -Schriftart ist auch auf der Website der Regierung von Hongkong erhältlich.

Es gibt zwei Codierungsschemata von HKSCs: Ein Codierungsschema ist für den Big-5-Codierungsstandard und das andere für die ISO 10646 Standard. Nach der ersten Veröffentlichung gibt es auch HKSCS-2001 und HKSCS-2004. Der HKSCS-2004 ist technisch mit dem ISO/IEC 10646: 2003 und seiner Änderung 1 im April 2004 von der International Organization for Standardization (ISO) ausgerichtet.

HKSCS enthält alle Zeichen aus der gemeinsamen ETEN -Erweiterung sowie einige Zeichen aus vereinfachtes Chinesisch, Ortsnamen, Namensnamen und kantonesische Phrasen (einschließlich Profanität).

Ab 2020Die neueste Ausgabe von HKSCS ist HKSCS-2016; Die letzte Ausgabe von HKSCS, um alle ihre Charaktere in BIG5 zu codieren, war jedoch HKSCS-2008, während die in neueren Ausgaben hinzugefügten Charaktere ISO 10646 / zugeordnet sind Unicode nur (als a CJK Unified Ideographs Horizontale Glyphenerweiterung gegebenenfalls).[26] Ähnlich wie in Hongkongs Situation gibt es auch Charaktere, die von Macao benötigt werden, aber weder in Big5 noch in HKSCs enthalten sind, daher die Macao ergänzende Zeichenset wurde entwickelt und umfasste Charaktere, die nicht in Big5 oder HKSCs gefunden wurden; Dies ist jedoch auch in Big5 nicht kodiert. Die erste Charge von 121 MSCS -Zeichen wurde 2009 zur Aufnahme in die Zuordnung zu Unicode eingereicht.[27] und die erste endgültige Version von MSCS wurde im Jahr 2020 eingerichtet.[26]

Kana und kyrillisch

Es gibt zwei große Big5 -Erweiterungslayouts für die Codierung Kana, Russisch -kyrillisch und listen Markierungen im Bereich 0xc6a1 bis 0xc875 auf. Diese sind nicht miteinander kompatibel.[28] Sie werden in der folgenden Tabelle verglichen.

Das Eten -Layout von Kana und Cyrillic wird auch von der verwendet Hkscs[29] (einschließlich HTML5)[30] und Unicode-at-on[31] Varianten sowie nach IBM -Version von Code Seite 950,[32][33][34] und das Eten-Layout der Kana (mit kyrillisch weggelassen) wird auch von der Big5-2003-Variante verwendet.[35] Die veröffentlichten Mapping -Dateien für Windows-950 auch keine einschließen, und dieser Big5 -Bereich wird dem zugeordnet Privatnutzungsbereich durch die Windows-950-Implementierung von Internationale Komponenten für Unicode.[36] Python's eingebaut cp950 Die Codec-Implementierung, die auf Nicht-Windows-Systemen verwendet wird oder wenn Code-Seite 950 nicht die aktive Windows-Code-Seite ist, verwendet das Layout von Big55.txt.[37] Das Klassischer Mac OS Die Version enthält kein Layout.[3]

Siehe auch

Verweise

  1. ^ "Big5 (traditionelle chinesische) Charaktercode -Tabelle".
  2. ^ "Charaktersätze". chinesemac.org. Abgerufen 2021-08-31.
  3. ^ a b Apple Inc (2005-04-04) [1996-06-31]. Karte (externe Version) von Mac OS chinesische traditionelle Codierung zu Unicode 3.0 und später. Unicode -Konsortium.
  4. ^ "狗爺語錄» Blog -Archiv »Was ist Code Seite 951 (CP951)?". Archiviert von das Original am 2007-02-22. Abgerufen 2006-09-27.
  5. ^ "CCSID 950 Informationsdokument". Archiviert von das Original Am 2014-12-02.
  6. ^ "CCSID 1114 Informationsdokument". Archiviert von das Original am 2016-03-27.
  7. ^ "CCSID 947 Informationsdokument". Archiviert von das Original Am 2014-12-01.
  8. ^ "Lead Byte A3: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  9. ^ a b c Zhu, Hf.; Hu, Dy.; Wang, Zg.; Kao, TC.; Chang, Wch.; Crispin, M. (1996). "Chinesische Charaktercodierung für Internetnachrichten". Anfragen nach Kommentaren. Ietf. doi:10.17487/rfc1922. RFC 1922.
  10. ^ "Lead Byte C6: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  11. ^ "Lead Byte C7: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  12. ^ "Lead Byte C8: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  13. ^ "Lead Byte F9: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  14. ^ "IBM traditioneller chinesischer Grafikzeichen für IBM Big-5-Code" (PDF). IBM. 1999. C-H 3-3220-131 1999-04.
  15. ^ a b "CCSID 1370 Informationsdokument". Archiviert von das Original am 2016-03-27.
  16. ^ "CCSID 5210 Informationsdokument". Archiviert von das Original Am 2014-11-29.
  17. ^ "CCSID 21427 Informationsdokument". Archiviert von das Original am 2016-03-27.
  18. ^ "CPGID 01372: MS T-Chinese Big-5 (Special für DB2)". IBM Globalisierung - Code -Seiten -Kennungen. Archiviert von das Original Am 2016-03-17.
  19. ^ "IBM-1373_P100-2002". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  20. ^ "CCSID 5471: gemischt Big-5 EXT für HKSCS-2001". IBM Globalisierung - codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  21. ^ Internationale Komponenten für Unicode (ICU), IBM-5471_P100-2006.UCM, 2007-05-09
  22. ^ "CCSID 9567: gemischt Big-5 EXT für HKSCS-2004". IBM Globalisierung - codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  23. ^ "CCSID 13663: gemischt Big-5 EXT für HKSCS-2008". IBM Globalisierung - codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  24. ^ "CCSID 1375: gemischt Big-5 Ext für HKSCs". IBM Globalisierung - codierte Zeichensatzkennungen. IBM. Archiviert von das Original Am 2014-11-29.
  25. ^ 黃國書. "Chinasea 1.0 中國 海字集". ISU FTP. Archiviert von das Original Am 2005-03-19. Abgerufen 2016-12-05.
  26. ^ a b Macao Special Administrative Region Government (2020-06-11). "Einreichung der vertikalen Erweiterung von Macao (UNC -Zeichen), horizontaler Erweiterung und IVSES -Registrierung für MSCs" (PDF). ISO/IEC JTC 1/SC 2/Wg 2 Irgn 2430.
  27. ^ Computer chinesische Charaktere, die Workgroup codieren (2009-06-12). "Einreichung von Zeichen von Macao Information Systems Charakter Set" (PDF). ISO/IEC JTC 1/SC 2/Wg 2 Irgn 1580. archiviert von das Original (PDF) Am 2015-01-04.
  28. ^ Lunde, Ken (1996-07-12). "2.3.1: Big Five". Cjk.inf Version 2.1.
  29. ^ "Big5HKSCS-2004". Mozilla Taiwan.
  30. ^ Van Kesteren, Anne. "die großen 5". Codierungsstandard. Waswg.
  31. ^ "UAO 2.41 B2U". Mozilla Taiwan.
  32. ^ "Lead Byte C6: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  33. ^ "Lead Byte C7: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  34. ^ "Lead Byte C8: IBM-950_P110-1999". ICU -Demonstration - Konverter -Explorer. Internationale Komponenten für Unicode.
  35. ^ "Big5-2003 B2U". Mozilla Taiwan.
  36. ^ IBM; Unicode -Konsortium (2002-12-03). "Windows-950-2000". Internationale Komponenten für Unicode.
  37. ^ Skript mit Ausgabe von CP950 Codec für Lead -Bytes 0xc6 und 0xc7
  38. ^ Unicode -Konsortium (2015-12-02) [1994-02-11]. Big5 bis Unicode Tabelle (vollständig).
  39. ^ "Big5-ten gegen Unicode-Mapping-Tabelle". Mozilla Taiwan. 2002-02-24.

Externe Links