CCSID

A Ccsid (codierte Zeichensatzkennung) ist eine 16-Bit-Zahl, die eine bestimmte darstellt Codierung von einem bestimmten Codepage. Zum Beispiel, Unicode ist eine Code -Seite, die mehrere Codierungsformen (so genannte "Transformation") enthält, wie UTF-8, UTF-16 und UTF-32, aber das kann tatsächlich von einer CCSID -Nummer begleitet werden, um anzuzeigen, dass diese Codierung verwendet wird.

Unterschied zwischen einer Codeseite und einem CCSID

Die Begriffe Codepage und Ccsid werden oft austauschbar verwendet, obwohl sie nicht synonym sind. Eine Code -Seite kann nur Teil dessen sein, was ein CCSID ausmacht. Die folgenden Definitionen von IBM helfen dabei, diesen Punkt zu veranschaulichen:

  • A Glyphe ist das tatsächliche physikalische Muster von Pixeln oder Tinten, das auf einem Display oder Ausdruck angezeigt wird.
  • A Charakter ist ein Konzept, das alle Glyphen abdeckt, die mit einem bestimmten Symbol verbunden sind. Zum Beispiel "f", ","F","F","F","F", und " F"Sind alle unterschiedliche Glyphen, aber verwenden Sie denselben Charakter. Die verschiedenen Modifikatoren (mutig, kursiv, unterstreicht, Farbe und Schriftart) ändern die wesentliche F-Ness nicht.
  • A Zeichensatz Enthält die erforderlichen Zeichen, um einem bestimmten Menschen eine sinnvolle Interaktion mit dem Computer durchzuführen. Es wird nicht angegeben, wie diese Zeichen in einem Computer dargestellt werden.[1] Dieses Niveau ist das erste, das Zeichen in verschiedene Alphabete (lateinisch, arabisch, hebräisch, kyrillisch usw.) oder ideografische Gruppen (z. B. Chinesisch, Koreanisch) trennen. Es entspricht einem "Charakterrepertoire" in der Unicode -Codierungsmodell.
  • A Codepage repräsentiert eine bestimmte Zuordnung von Codepunktwerten zu Zeichen.[1] Es entspricht einem "codierten Zeichensatz" im Unicode -Codierungsmodell. EIN Codepunkt Für ein Zeichen ist die interne Darstellung dieses Zeichens durch den Computer in einer bestimmten Codeseite.[1] Viele Zeichen werden durch verschiedene Codepunkte auf verschiedenen Codeseiten dargestellt. Bestimmte Zeichensätze können mit Single-Byte-Code-Seiten angemessen dargestellt werden (mit maximalen 256 Codepunkten, daher maximal 256 Zeichen), aber viele benötigen mehr als das. Beispiele beinhalten Jis x 0208 und Unicode.
  • Ein Codierungsschema ist das Byte -Format einer Codeseite. Es birgt die Codepunktwerte an Sequenzen eines oder mehrerer Byte -Werte in einem Computer.[2] Zum Beispiel, UTF-8 und UTF-16BE sind zwei Codierungen derselben Unicode -Code -Seite. (Variiert nur in der Art, wie viele Bytes benötigt werden, um einen bestimmten Unicode -Charakterwert darzustellen, wie er in diesen Bytes enthalten ist und wie das Vorhandensein von Unicode -Informationen angezeigt wird.) In der Zwischenzeit in IBMs Charakterdatenrepräsentationsarchitektur (CDRA) ist dies typischerweise mit einem ESID (Codierungsschema -Kennung) dargestellt.[3] EUC und ISO-2022 sind andere Beispiele für Codierungsschemata.
  • A codierte Zeichensatzkennung (Ccsid) Enthält alle Informationen, die erforderlich sind, um die Bedeutung und das Rendern von Zeichen in verschiedenen Phasen der Verarbeitung und des Austauschs zuzuweisen und zu bewahren. Diese Informationen enthalten immer mindestens eine Codeseite, können jedoch mehrere Codeseiten mit unterschiedlichen Byt-Längen enthalten. Das CCSID verfügt auch über ein zugehöriges Codierungsschema, das regelt, wie verschiedene Codepunkte behandelt werden sollen. Dieser Mechanismus ermöglicht es einem Programm zu erkennen bidirektional Orientierung, Charakterformung (hauptsächlich arabische Zeichen) und andere komplexe Codierungsinformationen.

Beispiele

Die folgenden Beispiele zeigen, wie einige CCSIDs aus anderen CCSIDs bestehen.

CCSID 932[4]
Zeichensatz Codepage Ccsid Codierungsschema
01122 00897 897 SBCS
00370 00301 301 DBCs
CCSID 942[5]
Zeichensatz Codepage Ccsid Codierungsschema
01172 01041 1041 SBCS
00370 00301 301 DBCs
CCSID 5028[6]
Zeichensatz Codepage Ccsid Codierungsschema
01170 00897 4993 SBCS
00370 00301 301 DBCs

Alle drei Varianten Shift-Jis CCSIDs sind Multi-Byte-Zeichensets (MBCS): Der SBCS-Teil (Single-Byte-Zeichenset) jedes CCSID ist unterschiedlich. Das Doppel-Byte-Zeichensatz (DBCS) Der Teil ist über jeden CCSID gleich. CCSID 5028 verwendet eine aktualisierte Code Seite 897 namens CCSID 4993. CCSID 932 verwendet die ursprüngliche Code Seite 897, die CCSID 897 ist.

Beachten Sie auch, wie CCSID 5028 und 4993 durch 4096 (1000 in Hexadezimal) vom Vorgänger CCSID mit derselben Code -Seitenkennung unterschiedlich sind. Dies ist eine häufige Art und Weise, wie CDRA einen verbesserten CCSID bezeichnet.

Es gibt einige Gründe für diese Komplexität:

  • Viele der CCSIDs werden in IBM -Datenbanken verwendet, wie IBM DB2, wobei ein Datenbankfeld nur eine SBCS-, DBCS- oder MBCS -String unterstützt. CCSIDs ermöglichen es Programmen, zwischen dem zu differenzieren, zwischen denen man verwendet wird.
  • Wenn Zeichen hinzugefügt oder ersetzt werden, wie die Einführung des Euro -Währungszeichens, kann man wissen, ob die gespeicherten Strings unterstützen oder diese Charaktereradten nicht unterstützen, da ein anderer CCSID verwendet wird. Diese Versionierung ist wichtig für die Integrität der Daten.
  • Es ermöglicht die Wiederverwendung von Ressourcen zwischen ähnlichen CCSIDs.[7]

Verweise

  1. ^ a b c "IBM -Terminologie - TERMS C". IBM. Abgerufen 2013-01-25.
  2. ^ "Charakterdatenrepräsentation Architektur". IBM. Anhang A. Codierungsschemata. Abgerufen 2019-06-29.
  3. ^ "Charakterdatenrepräsentation Architektur". IBM. Kapitel 3. CDRA-Identifikatoren, Abschnitt "Langformidentifikation". Abgerufen 2019-06-29.
  4. ^ "Japanische PC -Daten gemischt einschließlich 1880 UDC". Globalisierung. IBM. Archiviert von das Original am 20. Februar 2012. Abgerufen 29. November, 2011.
  5. ^ "Japanische PC -Daten gemischt einschließlich 1880 UDC, erweiterte SBCs". Globalisierung. IBM. Archiviert von das Original am 1. Dezember 2014. Abgerufen 29. November, 2011.
  6. ^ "Japanische PC -Daten gemischt einschließlich 1880 UDC (Katakana - PC Common Set für SBCs)". Globalisierung. IBM. Archiviert von das Original am 29. November 2014. Abgerufen 29. November, 2011.
  7. ^ "Us-en_software_hp". 9. November 2020.

Externe Links