T.51/ISO/IEC 6937

T.51
Lateinbasierte codierte Zeichensätze für telematische Dienste
Status In voller Stärke
Jahr begann 1984
Letzte Version (09/92)
September 1992
Organisation Itu-t
Komitee Studiengruppe VIII
Verwandte Standards T.61, ETS 300 706, ISO/IEC 10367, ISO/IEC 2022, ISO 5426
Domain Codierung
Lizenz Kostenlos erhältlich
Webseite https://www.itu.int/rec/t-rec-t.51

T.51 / ISO / IEC 6937: 2001, Informationstechnologie - codierter Grafikzeichen für Textkommunikation - Lateinisches Alphabet, ist eine Multibyte -Erweiterung von ASCII, oder besser gesagt von ISO/IEC 646-IRV.[1] Es wurde gemeinsam mit entwickelt mit Itu-t (dann Ccitt) für telematische Dienste unter dem Namen von T.51und wurde erstmals 1983 zu einem ISO -Standard. Bestimmte Byte -Codes werden als Lead -Bytes für Briefe mit verwendet Diakritik (Akzente). Der Wert des Blei-Byte zeigt häufig an, welchen diakritischen Wert der Buchstabe und das folgende Byte dann den Ascii-Wert für den Buchstaben, auf dem sich der Diakritiker befindet, hat.

Die Architekten von ISO/IEC 6937 waren Hugh McGregor Ross, Peter Fenwick, Bernard Marti und Loek Zeckendorf.

ISO6937/2 definiert 327 Zeichen in modernen europäischen Sprachen mit der Lateinisches Alphabet. Nicht-latinische europäische Charaktere wie z. kyrillisch und griechisch, sind nicht im Standard enthalten. Auch einige Diakritiker, die mit dem lateinischen Alphabet wie dem verwendet werden rumänisch Komma sind nicht enthalten, mit Cedilla, stattdessen, da zu diesem Zeitpunkt keine Unterscheidung zwischen Cedilla und Comma unten gemacht wurde.

Iana hat die Charset -Namen registriert ISO_6937-2-25 und ISO_6937-2-add für zwei (ältere) Versionen dieses Standards (plus Steuercodes). Aber in der Praxis ist diese Charaktercodierung im Internet nicht genutzt.

Einzel -Byte -Zeichen

Der primäre Set (erste Hälfte) wurde ursprünglich befolgt ISO 646-IRV Vor das ISO/IEC 646: 1991 Revision, das heißt, hauptsächlich folgt ASCII aber mit Charakter 0x24 immer noch als "als" bezeichnet "Internationales Währungszeichen"(¤) anstelle des Dollar -Zeichens ($). Die Ausgabe von ITU T.51 von 1992 ermöglicht die vorhandenen CCITT -Dienste, 0x24 weiterhin als internationales Währungszeichen zu interpretieren, aber festgelegt, dass neue Telekommunikationsanträge es für das Dollar -Zeichen verwenden sollten (Dollar -Zeichen d.h. nach dem aktuellen ISO 646-IRV) und stattdessen das internationale Währungszeichen mit dem ergänzenden Satz darstellen.[2]

Der ergänzende Set (zweite Hälfte) enthält eine Auswahl des Abstands und nicht-Abstandsgrafikzeichens, zusätzlichen Symbole und einigen Orten, die für die zukünftige Standardisierung reserviert sind.

Beide sind ISO/IEC 2022 Grafische Zeichensätze, wobei der primäre Satz ein 94-Code-Set und der sekundäre Satz ein 96-Code-Satz ist. In Kontexten, in denen ISO 2022 Code -Erweiterungstechniken nicht verwendet werden, wird der primäre Satz als G0 -Set bezeichnet und über GL aufgerufen (über GL ()0x20..0x7f), während der ergänzende Set als G2-Set bezeichnet und über GR (0xa0..0xff) in einer 8-Bit Umgebung.[3] Diese Codierung des Zwei -Shift -Two -Codes entspricht seinem Standort in ISO-IR-106.[4]

Die ISO/IEC 2022 Fluchtabfolge Um den ergänzenden Satz von ISO/IEC 6937 als G2 -Set zu bezeichnen, ist es ESC . R (verhexen 1b 2e 52).[2][5][6] Die ältere ISO 6937/2: 1983 Die ergänzende Menge ist als 94-Code-Set registriert und für G2 mitgewiesen Esc * l (verhexen 1b 2a 6c).[5][7]

Zwei Byte -Charaktere

Akzent -Briefe, denen keine einzelnen Codes im primären oder ergänzenden Satz zugewiesen werden, werden unter Verwendung von zwei Bytes codiert. Auf das erste Byte, auf die "diakritische Abstandsmarke", folgt ein Buchstaben aus dem Basissatz, z. B.:

klein e mit akutem Akzent (é) = [akut]+e

Die ITU T.51 -Standard zuordnet Spalte 4 des ergänzenden Satzes (d. H. 0xC0-CF, wenn sie im 8-Bit-Format verwendet werden) zu diakritischen Zeichen nicht abzuwehren.[2] ISO/IEC 6937 definiert jedoch ein vollständig spezifiziertes Zeichenrepertoire, das eine Liste von Kompositionssequenzen zuordnen ISO/IEC 10646 Charakternamen. Die isolierten Nicht -Spalt -Bytes sind in diesem Repertoire nicht enthalten, obwohl Abstandsvarianten der Diakritik nicht ansonsten in ASCII enthalten sind, wobei der ASCII -Raum das Trail -Byte ist.[5][8] Daher entspricht nur bestimmte Kombinationen von Blei -Byte und folgen Byte dem ISO/IEC -Standard.

Dieses Repertoire ist auch an der ITU -Version der Spezifikation als Anhang A befestigt, obwohl die ITU -Version sie nicht aus dem Haupttext verweist. Es wird als "einheitliches Superset" des lateinamerikanischen Zeichenrepertoires beschrieben.[2] Es entspricht dem Repertoire von ISO/IEC 10367 Wenn der ASCII, Latein-1 (oder Latin-5), Latein-2 und Zusätzliches Latein Sets werden verwendet.[5]

Dieses System unterscheidet sich auch vom Unicode Charakter kombinieren Das System insofern der diakritische Code dem Brief vorausgeht (im Gegensatz dazu, ihm zu folgen), was ihn ähnlicher macht Ansel.

Eine kleine Anomalie ist das Lateinischer kleiner Buchstabe g mit Cedilla wird so codiert, als wäre es mit einem akuten Akzent, dh mit einer 0xC2 -Blei -Byte, da der Kleinbuchstaben aufgrund seines Nachwuchs eine Cedilla normalerweise mit einem gedrehten Komma oben ist: Ģ ģ.

Insgesamt können 13 diakritische Markierungen von den ausgewählten Zeichen aus dem Primärsatz folgen:

Akzent Code Zweiter Charakter Ergebnis
Grab 0xc1 Aeiouaaeiou Àèìòùàèìòù
Akut 0xc2 Aceilnorsuyzacegilnorsuyz Áćéíĺńóŕśúýáćéģíĺńóŕśúnehm
Zirkumflex 0xc3 Aceghijosuwyaceghijosuwy Âĉêĝĥîĵôŝûŵŷŵŷĉĝĥîĵôŝûŵŷ
Tilde 0xc4 Ainouainou Ãĩñũũãĩñũũ
Längezeichen 0xc5 Aeiouaaeiou Āēīōūāēīōū
Breve 0xc6 Aguagu Ăğŭŭŭ
Punkt 0xc7 Cegizcegz Ċėġİċėġċėġ
Umlaut oder Diæresis 0xc8 Aeiouyaeiy Äëïö sollenäëïöühlen
Ring 0xca Au Au Au Au
Cedilla 0xCB Cgklnrstcklnrst Çģķļņŗşţçķļņŗşţ
Doppelt akut 0xcd Ouou Őűőű
Ogonek 0xce Aeiuaeiu Ąęįųąęįų
Caron 0xcf Cdelnrstzcdelnrstz Čěľňřěľňřšťžčěľňřěľňřšťž

Codepage -Layout

Der Verweis auf Charaktere kombinieren im u+0300 - u+036F -Bereich für die Codes im Bereich 0xC1—0xcf unterliegt den oben genannten Vorbehalten; Sie können nicht einfach den aufgeführten CodePoints zugeordnet werden. Auch Unicode unterscheidet 0xe2 in Großbuchstaben D mit Schlaganfall und Großbuchstaben Eth, die normalerweise für die Kleinbuchstaben (0xf2 und 0xf3) anders aussehen.

Die ältere Ausgabe von ITU T.51 von 1988 definierte zwei Versionen des ergänzenden Sets, wobei die erste Version dem fehlte Nicht bahnbrechender Raum, weicher Bindestrich, nicht unterschreiben (¬) und gebrochene Bar (¦) in der zweiten Version vorhanden. Die erste Version wurde als Erweiterung der definiert T.61 Ergänzungssatz und die zweite Version als Erweiterung der ersten Version.[9] Die aktuelle Ausgabe (1992) enthält nur die zweite Version, verwertet bestimmte Zeichen und aktualisiert den primären Satz für den aktuellen ISO-646-IRV (ASCII), obwohl bestehende telematische Dienste das ältere Verhalten beibehalten dürfen.[2]

ISO/IEC 6937 oder ITU T.51 (Latein)
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x
1x
2x  Sp  ! " # $/¤[a] % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
8x
9x
Axt NBSP ¡ ¢ £ $[b] ¥ #[b] § ¤ «
BX ° ± ² ³ × µ · ÷ » ¼ ½ ¾ ¿
CX ◌̀ ◌́ ◌̂ ◌̃ ◌̄ ◌̆ ◌̈ ◌̊ ◌̧ ◌̲[c] ◌̋ ◌̨ ◌̌
Dx ¹ ® © ¬ ¦
Ex Æ Đ/Ð ª Ħ IJ Ŀ Ł Ø Œ º Þ Ŧ Ŋ ʼn
Fx ĸ æ đ ð ħ ı ij ŀ ł ø œ ß þ ŧ ŋ SCHÜCHTERN
 Unterschiede aus T.61

Videotex -Version

Die Versionen des ergänzenden Satzes, der vom ITU T.101 -Standard für verwendet wird Videotex basieren auf dem ersten ergänzenden Satz der Ausgabe von 1988 von T.51.

Der Standard -G2 -Satz für die Datensyntax 2 fügt a hinzu ΅ bei 0xc0 für Kombination mit Codes von a griechisch Primärsatz.[10]

Der ergänzende Satz für die Datensyntax 3 fügt Nicht-Abstandsmarken für eine "Vektor-Überbär" hinzu und fügt nicht den Abstandsmarken hinzu. Solidus und mehrere Semigraphische Charaktere.[11]

ETS 300 706 Version

Der ETS 300 706 Standard für World System TeleText stützt es G2 -Set auf ISO 6937.[12] Es ist ein Superet des ergänzenden Satzes von T.61und ein Superset des ersten ergänzenden Satzes der Ausgabe von 1988 von T.51, kollidiert aber mit der aktuellen Ausgabe von T.51 in bestimmten Positionen. Diakritische Codes in der ETS -Version werden als "für die Assoziation mit" Zeichen aus dem angegeben G0 -Set in Gebrauch,[12] wie zum Beispiel US-Ascii oder BS_ViewData. Diese Version ist in der Tabelle unten angezeigt.

World System TeleText, Latein G2 Set (ETS 300 706: 1997)[12]
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
Axt  Sp  ¡ ¢ £ $ ¥ # § ¤ «
BX ° ± ² ³ × µ · ÷ » ¼ ½ ¾ ¿
CX ◌̀ ◌́ ◌̂ ◌̃ ◌̄ ◌̆ ◌̈ ̣◌̣ ◌̊ ◌̧ ◌̲ ◌̋ ◌̨ ◌̌
Dx ¹ ® © α
Ex Æ Đ/Ð ª Ħ IJ Ŀ Ł Ø Œ º Þ Ŧ Ŋ ʼn
Fx ĸ æ đ ð ħ ı ij ŀ ł ø œ ß þ ŧ ŋ
 Unterschiede zu T.51

Siehe auch

Fußnoten

  1. ^ Fortsetzung der Nutzung von ¤ nur für bestehende CCITT -Dienste.[2]
  2. ^ a b Nur für bestehende CCITT -Dienste zulässig, sonst sollte die ASCII -Darstellung verwendet werden.[2]
  3. ^ In der ITU -Version des Standards als vorhandene Verwendung für für vorhanden unterstrichen Text, in Kombination mit jedem anderen Charakter, einschließlich Akzentzeichen. Obwohl die ITU -Ausgabe von 1988 diesen Code enthält,[9] Die ITU -Ausgabe von 1992 entmutigt, diesen Code zugunsten von zu senden ANSI Escape -Sequenzenobwohl erwähnt wird, dass es korrekt interpretiert werden sollte, wenn sie von geltenden Systemen empfangen werden.[2] Frühere Ausgaben der ISO/IEC -Version des Standards erlaubten auch, diesen Code mit jedem Zeichen im definierten Repertoire zu kombinieren.[7] Neuere Überarbeitungen enthalten diesen Code nicht.[5]

Verweise

  1. ^ "T.51: Lateinbasierte codierte Zeichensätze für telematische Dienste". www.itu.int. Archiviert vom Original am 2019-10-08. Abgerufen 2019-11-14.
  2. ^ a b c d e f g h Ccitt (1992-09-18). Lateinbasierte codierte Zeichensätze für telematische Dienste (1992 ed.). Empfehlung T.51.
  3. ^ Itu-t (1995-08-11). Empfehlung T.51 (1992) Änderung 1.
  4. ^ Itu (1985-08-01). TeletEx Primärer Kontrollfunktionen (PDF). Itcj/Ipsj. ISO-IR-106.
  5. ^ a b c d e ISO/IEC JTC 1/SC 2/WG 3 (1998-04-15). WD 6937, codierter Grafikzeichen für Textkommunikation - Lateinisches Alphabet (PDF). JTC1/SC2/N454.
  6. ^ ISO/IEC JTC 1/SC 2/WG 3 (1991-12-15). Ergänzende Menge von ISO/IEC 6937: 1992 (PDF). Itcj/Ipsj. ISO-IR-156. (Die linke Seite ist US-Ascii.))
  7. ^ a b ISO/TC97/SC2/WG4 (1985-01-10). Ergänzende Menge von lateinischen alphabetischen und nicht alphabetischen Grafikzeichen (PDF). Itcj/Ipsj. ISO-IR-90.
  8. ^ Petersen, J. K. (2002-05-29). Die Telekommunikation veranschaulicht das Wörterbuch. CRC Press. p. 888. ISBN 978-1-4200-4067-8.
  9. ^ a b Ccitt (1988). Codierte Zeichensätze für telematische Dienste (1988 ed.). Empfehlung T.51.
  10. ^ Ccitt (1988-11-01). Ergänzende Grafikzeichen für Videotex (PDF). Itcj/Ipsj. ISO-IR-70.
  11. ^ Ccitt (1986-11-30). Ergänzende Grafikzeichen für die CCITT -Empfehlung T.101, Datensyntax III (PDF). Itcj/Ipsj. ISO-IR-128.
  12. ^ a b c ETSI (1997). "15.6.3 Latin G2 Set". Verbesserte TeleText -Spezifikation (PDF) (PDF). p. 116. ETS 300 706.

Externe Links