C0- und C1 -Kontrollcodes

Das C0- und C1 -Kontrollcode oder Steuerzeichen Sets Definieren Sie Steuercodes für die Verwendung in Text nach Computersystemen, die verwendet werden ASCII und Derivate von ASCII. Die Codes repräsentieren zusätzlich Informationen über den Text, wie die Position eines Cursors, eine Anweisung zum Starten einer neuen Zeile oder eine Nachricht, die der Text empfangen wurde.

C0 -Codes sind der Bereich 00VERHEXEN–1fVERHEXEN und der Standard -C0 -Set wurde ursprünglich in definiert in ISO 646 (ASCII). C1 -Codes sind der Bereich 80VERHEXEN–9fVERHEXEN und der Standard -C1 -Set wurde ursprünglich in definiert in ECMA-48 (Harmonisiert später mit ISO 6429). Das ISO/IEC 2022 Das System zur Angabe von Kontroll- und Grafikzeichen ermöglicht es anderen C0- und C1 -Sätzen für spezielle Anwendungen zur Verfügung, sie werden jedoch selten verwendet.

C0 -Steuerelemente

ASCII Definierte 32 Steuerzeichen sowie ein notwendiges zusätzliches Zeichen für das Del -Zeichen, 7fVERHEXEN oder 01111111BEHÄLTER (musste alle Löcher auf einem Papierband ausstechen und es löschen).

Diese große Anzahl von Codes war zu diesem Zeitpunkt wünschenswert, da Multi-Byte-Steuerelemente die Implementierung einer Zustandsmaschine im Terminal erfordern würden, was bei zeitgenössischen Elektronik und mechanischen Terminals sehr schwierig war. Seitdem haben nur wenige der ursprünglichen Steuerelemente ihre Verwendung beibehalten: den Bereich "Whitespace" von BS, Tab, LF, VT, FF und CR; der BEL -Code; und ESC (aber fast immer als Teil eines ESC '[' CSI Repräsentation beginnt an Ansi Escape -Sequenz). Andere sind ungenutzt oder haben verschiedene Bedeutungen erworben, wie z. B. NUL sind das C String -Terminator.

Einige serielle Übertragungsprotokolle wie z. ANPA-1312, Kermit, und Xmodem Nehmen Sie für die Zwecke ihrer ursprünglichen Definitionen eine umfassende Verwendung von Kontrollzeichen SOH, STX, ETX, EOT, ACK, NAK und Syn.

Grundlegende ASCII -Kontrollcodes

Dies sind die Standard -ASCII -Kontrollcodes, die ursprünglich in definiert wurden Ansi x3.4. Wenn Sie die verwenden ISO/IEC 2022 Verlängerungsmechanismus, sie werden als aktives C0 -Kontrollzeichen mit der Oktettsequenz bezeichnet 0x1b 0x21 0x40 (ESC ! @).[1]

Dezimal
Hexadezimal
Abkürzung
Symbol
Name Beschreibung
^@ 00 00 Nul Null \0 Ursprünglich verwendet, um Lücken für Änderungen auf Papierband zu lassen. Später für das Polsterung nach einem Code verwendet, der ein Terminal einige Zeit benötigt, um zu verarbeiten (z. B. eine Wagenrückgabe- oder Leitungsfutter am Druckterminal). Jetzt oft als String -Terminator verwendet, insbesondere in der Programmiersprache C.
^A 01 01 Soh Übergangsstart In der Nachrichtenübertragung begrenzt der Beginn eines Nachrichtenheaders. Das Format dieses Headers kann durch ein anwendbares Protokoll definiert werden, wie z. IPTC 7901 Für die journalistische Textübertragung wird sie normalerweise von STX beendet.[2] Im HadoopEs wird oft als Feldabscheider verwendet.
^B 02 02 Stx Textstart Erster Zeichen des Nachrichtentextes und kann verwendet werden, um die Nachricht zu beenden.
^C 03 03 ETX Textende In der Nachrichtenübertragung begrenzt das Ende des Haupttextes einer Nachricht. Möglicherweise folgen "Post-Text-Informationen" (d. H. Eine strukturierte Fußzeile), die durch ein anwendbares Protokoll definiert ist[2] oder nach zusätzlichen Texten,[3] gefolgt von eot.[2][3] In der Tastatureingabe, die häufig als "Break" -Scharakter (Strg-C) verwendet wird, um ein Programm oder ein Prozess zu unterbrechen oder zu beenden.
^D 04 04 Eot Ende der Übertragung Begrenzt das Ende einer übertragenen Nachricht, die einen Header, einen Nachrichtentext und einen Post-Text-Fußzeile enthalten kann.[2] oder sogar mehrere Texte und zugehörige Überschriften.[3] Kann auch verwendet werden, um Terminals in Standby -Unternehmen zu platzieren.[3] Oft verwendet auf Unix Um das Dateiend der Datei an einem Terminal anzuzeigen, das von der Schale als Befehl interpretiert wird exit oder logout.
^E 05 05 Enq Anfrage Das Signal soll eine Antwort am empfangenden Ende auslösen, um festzustellen, ob es noch vorhanden ist.
^F 06 06 Ack Anerkennen Antwort auf einen ENQ oder einen Hinweis auf einen erfolgreichen Erhalt einer Nachricht.
^G 07 07 Bel[a] Glocke, Alarm \a Ursprünglich verwendet, um a zu klingen Glocke auf dem Terminal. Später für einen Piepton für Systeme verwendet, der keine physische Glocke hatte. Kann auch schnell ein- und ausschalten Inverse Video (eine visuelle Glocke).
^H 08 08 BS Rücktaste \b Bewegen Sie den Cursor eine Position nach links. Bei der Eingabe kann dies das Zeichen links vom Cursor löschen. Bei Output, wo in der frühen Computertechnologie ein Charakter, das einst gedruckt wurde, nicht gelöscht werden konnte, wurde der Rückraum manchmal verwendet, um Akzentzeichen in ASCII zu erzeugen. Zum Beispiel, à könnte unter Verwendung der drei Zeichensequenz produziert werden a bs ` (oder mit den Hex -Werten der Zeichen der Zeichen, 0x61 0x08 0x60). Diese Nutzung wird jetzt im Allgemeinen nicht unterstützt (zum Beispiel ist sie in verboten ISO/IEC 8859).[9] Um eine Disambiguation zwischen den beiden potenziellen Nutzungen von Rückenraum zu ermöglichen, die Charakter abbrechen Der Kontrollcode wurde Teil des Standard -C1 -Kontrollsatzes.
^I 09 09 Ht Charakter Tabelle, Horizontale Tabellierung \t Position zum nächsten Charakter Tabulator.
^J 10 0a Lf Zeilenvorschub \n An Schreibmaschinen, Drucker, und einige Terminalemulatorenbewegt den Cursor eine Zeile nach unten, ohne die Säulenposition zu beeinflussen. Auf Unix, verwendet, um zu markieren Ende der Linie. Im DOS, Fensterund verschiedene Netzwerkstandards, LF wird nach CR als Teil der Markennennzeichen verwendet.
^K 11 0b Vt Zeilentabelle, Vertikale Tabelle \ v Positionieren Sie das Formular am Registerkarte "nächste Zeile".
^L 12 0c Ff Formfutter \f Laden Sie die nächste Seite auf Druckern. In vielen Programmiersprachen als Whitespace behandelt und kann verwendet werden, um logische Abteilungen im Code zu trennen. In einigen terminalen Emulatoren löscht es den Bildschirm. Es erscheint immer noch in einigen gemeinsamen Klartextdateien als Seitenumbruch Charakter, wie der RFCs herausgegeben von Ietf.
^M 13 0d Cr Kutschenrückkehr \r Ursprünglich verwendet, um den Cursor auf Spalte Null zu verschieben, während Sie in derselben Zeile bleiben. An Klassischer Mac OS (Vor-Mac OS X) sowie in früheren Systemen wie dem Apple II und Commodore 64, verwendet, um zu markieren Ende der Linie. Im DOS, Fensterund verschiedene Netzwerkstandards wird vor LF als Teil der Markennennzeichen verwendet. Die Eingabetaste oder Eingabetaste Auf einer Tastatur sendet dieses Zeichen, kann jedoch durch ein Terminalprogramm in eine andere End-of-Line-Sequenz konvertiert werden.
^N 14 0e ALSO Verschieben Wechseln Sie zu einem alternativen Zeichensatz.
^O 15 0f Si Verschieben Kehren Sie nach dem Ausschalten zum regulären Charakter zurück.
^P 16 10 Dle Datenverbindung Escape Verursachen eine begrenzte Anzahl von zusammenhängenden folgenden Oktetten, die auf andere Weise interpretiert werden können,[10] Zum Beispiel als Rohdaten (im Gegensatz zu Kontrollcodes oder grafischen Zeichen). Die Details dazu sind abhängig.

Standards wie (inzwischen inzwischen) ECMA-37 bestand für bestimmte Anwendungen des Datenverbindungs-Escape-Zeichens für den Zugriff auf zusätzliche Übertragungssteuerungsfunktionen.[11]

Standardkomprimierungsschema für Unicode schlägt vor, dass alle C0-Bytes durch DLE ersetzt werden, gefolgt von dem Byte plus 0x40, wenn SCSU-Daten über ein System übertragen werden müssen, das durch die Wiedergutmachung der C0-Bytes durch SCSU verwirrt wäre.[12]

^Q 17 11 DC1 Gerätesteuerung eines (Xon) Diese vier Kontrollcodes sind für die Gerätesteuerung reserviert, wobei die Interpretation von dem Gerät abhängt, an das sie verbunden waren. DC1 und DC2 waren hauptsächlich dazu gedacht, ein Gerät zu aktivieren, während DC3 und DC4 hauptsächlich dazu gedacht waren, eine Pause oder das Ausschalten eines Geräts anzuzeigen. DC1 und DC3 (in dieser Verwendung auch als Xon bzw. XOFF bekannt) stammt als "Start und Stopp-Remote-Papier-Tape-Reader" in ASCII Telex Netzwerke. Diese Verwendung von Teleprinser wurde die De facto Standard zum Software -Flow -Steuerung.[13]
^R 18 12 DC2 Gerätesteuerung zwei
^S 19 13 DC3 Gerätesteuerung drei (Xoff)
^T 20 14 DC4 Gerätesteuerung vier
^U 21 15 Nak Negative Anerkennung Von einer Station als negative Antwort auf die Station gesendet, mit der die Verbindung hergestellt wurde. Im binären synchronen Kommunikationsprotokoll wird der NAK verwendet, um anzuzeigen, dass im zuvor empfangenen Block ein Fehler festgestellt wurde und der Empfänger bereit ist, die Wiedervermittlung dieses Blocks zu akzeptieren. In Multipoint-Systemen wird die NAK als nicht fähige Antwort auf eine Umfrage verwendet.
^V 22 16 Syn Synchroner Leerlauf Wird in synchronen Übertragungssystemen verwendet, um ein Signal bereitzustellen, aus dem zwischen den Datenanschlussgeräten eine synchrone Korrektur erreicht werden kann, insbesondere wenn kein anderer Zeichen übertragen wird.
^W 23 17 ETB Ende des Übertragungsblocks Zeigt das Ende eines Übertragungsblocks an Daten an, wenn Daten für Übertragungszwecke in solche Blöcke unterteilt werden.

Wenn es nicht für einen anderen Zweck verwendet wird, IPTC 7901 empfiehlt die Interpretation von ETB als Ende des Absatzscharakteres.[2]

^X 24 18 KANN Absagen Zeigt an, dass die Daten, die sie vorgehen, fehlerhaft sind oder nicht berücksichtigt werden sollen.
^Y 25 19 Em Ende des Mediums Als Mittel zur Anzeige auf Papier oder Magnetbändern vorgesehen, dass das Ende des nutzbaren Teils des Bandes erreicht worden war. Es kann auch das Ende des gebrauchten Teils des Mediums markieren und entspricht nicht unbedingt dem physikalischen Ende des Mediums.[1]

Wenn es nicht für einen anderen Zweck verwendet wird, IPTC 7901 empfiehlt, sie als umzuwandeln als EM Raum für die Einführung der ersten Zeile eines Absatzes[2] (siehe auch EMSP).

^Z 26 1a Sub Ersatz Ursprünglich für die Verwendung als Getriebekontrollcharakter bestimmt, um anzuzeigen, dass verstümmelte oder ungültige Zeichen empfangen wurden. Es wurde oft für andere Zwecke verwendet, wenn die In-Band-Signalübertragung von fehlern, die es liefert, ist nicht benötigt, insbesondere wenn robuste Methoden von Fehlererkennung und Korrektur werden verwendet, oder wenn von Fehlern erwartet wird, dass sie selten genug sind, um den Charakter für andere Zwecke zu verwenden. Im DOS, Fenster, CP/mund Derivate von Digital Equipment Corporation Betriebssysteme, es wird verwendet, um das Ende der Datei sowohl beim Eingeben des Terminals als auch manchmal in Textdateien anzugeben, die auf der Festplatte gespeichert sind.
^[ 27 1b ESC Flucht \ e
[b]
Das Esc -Schlüssel Auf der Tastatur wird dieser Charakter auf die meisten Systeme gesendet. Es kann in Software-Benutzeroberflächen verwendet werden, um aus einem Bildschirm, einem Menü oder Modus oder in Geräte-Kontroll-Protokollen (z. B. Drucker und Klemmen) zu signalisieren, dass das folgende Sonderbefehlssequenz eher eine spezielle Befehlssequenz als einen normalen Text ist. In Systemen basierend auf ISO/IEC 2022Selbst wenn ein anderer Satz von C0 -Steuercodes verwendet wird, ist dieses Oktett erforderlich, um immer das Fluchtzeichen darzustellen.

^\ 28 1c Fs Dateiabscheider Kann als verwendet werden als Grenzwerte Zu markieren Felder von Datenstrukturen. Wenn wir für hierarchische Ebenen verwendet werden, ist die USA die niedrigste Ebene (Dividierung von Daten zu den Textelementen), während RS, GS und FS zu zunehmendem Niveau sind, um Gruppen zu teilen, die sich aus Elementen des darunter liegenden Niveaus zusammensetzen.

Das Unix Info Das Format verwendet uns, gefolgt von einer optionalen Formfütterung und einem Zeilenumbruch, um den Beginn eines Knotens zu markieren.[14]

Marc 21 verwendet uns als Teilfeld -Trennzeichen, RS als Feldterminator und GS als Rekordterminator.[15]

In der aktuellen Ausgabe von IPTC 7901Wenn sie nicht für andere Zwecke verwendet werden, wird uns für die Verwendung als Säulenabscheider in Tabellen, FS als "zentraler Feldabscheider" in Tabellen und GS bzw. RS empfohlen Bindestrich-Minus wie nicht brechen oder Sanft jeweils (in Charakter liefert keine explizite NBSP- und schüchterne Zeichen).[2]

Python's splitlines Die String-Methode behandelt FS, GS und RS, aber nicht die USA als Trennzeichen zusätzlich zu den Zeilenspatenschiffe.[16]

^]] 29 1d Gs Gruppenabscheider
^^ 30 1E Rs Aufzeichnungsabscheider
^_ 31 1f UNS Einheitsabscheider
Obwohl dies technisch nicht Teil des C0 -Steuerungsscharakterbereichs ist, sind die folgenden zwei Zeichen in definiert ISO/IEC 2022 Wie immer verfügbar ist, unabhängig davon, welche Kontrollzeichen und Grafikzeichen registriert wurden. Sie können als einige Eigenschaften von Kontrollfiguren angesehen werden.
  32 20 Sp Platz Raum ist ein grafischer Charakter. Es hat eine visuelle Darstellung, die aus dem Fehlen eines grafischen Symbols besteht. Es führt dazu, dass die aktive Position durch eine Charakterposition weiterentwickelt wird. In einigen Anwendungen kann der Raum als "Wortabscheider" auf niedrigster Ebene angesehen werden, der mit den benachbarten Separatorzeichen verwendet werden kann.
^? 127 7f Del Löschen Technisch gesehen nicht Teil des C0 -Kontrollcharakterbereichs und wurde ursprünglich zum Markieren gelöschter Zeichen auf Papierband verwendet, da jeder Charakter auf allejenigen geändert werden konnte, indem Sie überall Löcher schlagen. An VT100 Kompatible Terminals, dies ist das Zeichen, das durch den Schlüssel, der ⌫ gekennzeichnet ist, normalerweise genannt Rücktaste auf modernen Maschinen und entspricht nicht dem PC Schlüssel löschen.

Namen der Kategoriennummer

Einige der grundlegenden ASCII -Kontrollcodes werden in einige Kategorien eingeteilt und manchmal alternative abgekürzte Namen, die aus dieser Kategorie und einer Zahl bestehen:[1]

  • Getriebekontrollen:[1] TC1 (SOH), TC2 (STX), TC3 (ETX), TC4 (EOT), TC5 (ENQ), TC6 (ACK), TC7 (DLE), TC8 (NAK), TC9 (Syn), TC10 (ETB).
  • Format -Effektoren:[1] Fe0 (Bs), fe1 (Ht), fe2 (Lf), fe3 (Vt), fe4 (Ff), fe5 (Cr).
  • Gerätesteuerung:[1] DC1, DC2, DC3, DC4.
  • Informationsabscheider:[1] IST1 (UNS IST2 (Rs), ist3 (GS), ist4 (Fs).
  • Verriegelungsverschiebungen:[17] Ls0 (Si), ls1 (ALSO).
  • Andere: Nul, Bel, Can, Em, Sub, Esc.

ISO/IEC 2022 (ECMA-35) bezieht sich auf die C0-Verriegelungsverschiebungen als LS0 und LS1 in 8-Bit-Umgebungen und als Si und so in 7-Bit-Umgebungen.[17]

Die erste Ausgabe von 1963 von ASCII klassifizierte Dle als Gerätesteuerung und nicht als Übertragungsregelung und gaben ihm den Abkürzung DC0 ("Gerätesteuerung für die Datenverbindungs ​​-Flucht reserviert").[18]

Format -Effektor (FE) -Codes definieren und betätigen die Formatierung (wie z. Zeilenumbrüche) was beeinflusst, wie grafische Zeichen angelegt und gerendert werden, anstatt andere Funktionen von Hardware -Geräten zu kontrollieren oder andere Nebenwirkungen zu haben. Die C0 -Format -Effektoren sind in ISO/IEC 6429 gestattet DCS, OSC, PM und APC Sequenzen. Die Informationsabscheider und C0 -Format -Effektoren (minus BS) sind die einzigen C0-Kontrollcodes mit Semantik, die durch den Unicode-Standard definiert sind, die Interpretation des Restes der C0-Kontrollen, die Protokollen auf höherer Ebene überlassen werden.[19]

ISO/IEC 2022 (ECMA-35) verlangt, dass C0-Kontrollcode-Sets, wenn C0-Codes zehn ASCII-Transmissionskontrolle (TC) enthalten, sie an ihren ASCII-Stellen codiert werden müssen.[20] Es verbietet auch, dass diese zehn Übertragungssteuerungen in einem C1 -Kontrollcodessatz einbezogen werden.[21] und verbietet die Übertragungssteuerung neben denen, die in einem C0 -Steuerungssatz aufgenommen werden.[20]

Modifizierte C0 -Steuercodessätze

Obwohl C0 -Kontrollcode -Sets in der Regel unverändert die meisten ASCII -Steuercodes erhalten, werden eine Nummer registriert, die bestimmte Steuerfunktionen durch Alternativen ersetzen. Eine Auswahl davon ohne diejenigen, die sich auf Videotex beziehen, sind unten gezeigt.

Seq Dez Verhexen Ersetzt In Code -Sets (en) Abbrev Name Beschreibung
^I 09 09 Ht Nats,[22] IPTC[23] Fo Formatierung Wird in tabellarischen Daten verwendet, um in die nächste Tabulationsposition zu wechseln (in dieser Hinsicht "Registerkarte" Registerkarte "zu erhalten) und in Standardformaten, um die nächste Phase zu bezeichnen. Die aktuelle IPTC -Spezifikation empfiehlt stattdessen die Verwendung regulärer ASCII -C0 -Steuerelemente und die Verwendung der UNS Steuerung als Spaltenunterbrechung in Tabellen.[2]
^K 11 0b Vt Nats,[22] IPTC[23] ECD Ende der Anweisung Begrenzt das Ende einer typografischen Anweisung, die für das Typensatzvorrichtung bestimmt ist.
^L 12 0c Ff Nats,[22] IPTC[23] SCD Anweisungsbeginn Begrenzt den Beginn einer typografischen Anweisung für das Typensatzgerät.
^M 13 0d Cr Nats,[22] IPTC[23] Ql Quad links Beendet eine Linie und zeigt an, dass sie links ausgerichtet werden sollte. Die aktuelle IPTC -Spezifikation empfiehlt stattdessen die Verwendung regulärer ASCII -C0 -Steuerelemente und repräsentiert diese Funktion mit dem < CR LF Reihenfolge.[2]
^N 14 0e ALSO Nats[22] Ur Oberschiene Beginnt eine betonte Textregion. Verwendet in der skandinavischen journalistischen Textübertragung ab 1975;[22] IPTC -Empfehlungen wurden ab 1976 stattdessen FT2 und FT3 verwendet (siehe unten).[23] Die aktuelle IPTC -Spezifikation empfiehlt stattdessen die Verwendung regulärer ASCII -C0 -Steuerelemente und markiert diese Funktion mit dem ^ Charakter.[2]
^O 15 0f Si Nats[22] Lr Niedrigere Schiene Beendet einen betonten Textbereich. Verwendet in der skandinavischen journalistischen Textübertragung ab 1975;[22] IPTC -Empfehlungen wurden ab 1976 stattdessen FT1 verwendet (siehe unten).[23] Die aktuelle IPTC -Spezifikation empfiehlt stattdessen die Verwendung regulärer ASCII -C0 -Steuerelemente und markiert diese Funktion mit dem @ Charakter.[2]
^Q 17 11 DC1 IPTC[23] Ft1 Schriftart eins Schaltet zu einer regulären Schrift, d. H. Deaktiviert fett oder kursiv.
^R 18 12 DC2 IPTC[23] Ft2 Schriftart zwei Schaltet auf eine kursive Schrift.
^S 19 13 DC3 IPTC[23] Ft3 Schriftart drei Schaltet zur fetthaltigen Schrift.
^X 24 18 KANN Nats,[22] IPTC[23] KW Word töten Löscht das vorhergehende Wort (löscht zurück und einschließlich des letzten Raums oder zurück in die vorherige Zeilenpause und ausgeschlossen, je nachdem, was zuerst begegnet wird). Beibehält in dieser Hinsicht die Semantik "Abbrechen", hat aber eine spezifischere Funktion.
^Y 25 19 Em T.61/T.51,[24] Eigenständige[25] SS2 Einzelschicht zwei Nicht sperren Schaltcode für G2; Eine C0-Darstellung, die es ermöglicht, in einer 7-Bit-Umgebung mit einem Byte dargestellt zu werden.
^\ 28 1c Fs Nats,[22] Iptc,[23] Eigenständige[26] SS, SS2 Super Shift oder Single Shift Two Nicht sperren Schaltcode.
JIS C 6225[27] CEX Steuererweiterung Führt eine Kontrollsequenz ein, die vom inzwischen verwickelten JIS C 6225 angegeben ist, der in späteren Quellen JIS X 0207 bezeichnet wird.[28] Dazu gehörten Sequenzen zur Kontrolle des vertikalen Textverhaltens, der Überschreibungen und der Einreise.[29] und zum Senden benutzerdefinierte Zeichengrafiken.[28]
^]] 29 1d Gs Nats,[22] IPTC[23] QC Quad -Center Beendet eine Linie und zeigt an, dass sie zentriert werden sollte.
T.61/T.51[24] SS3 Einzelschicht drei Nicht sperren Schaltcode für G3; Eine C0-Darstellung, die es ermöglicht, in einer 7-Bit-Umgebung mit einem Byte dargestellt zu werden.
^^ 30 1E Rs Nats,[22] IPTC[23] Qr Quad rechts Beendet eine Linie und zeigt an, dass sie rechts ausgerichtet sein sollte.
^_ 31 1f UNS Nats,[22] IPTC[23] Jy Rechtfertigen Beendet eine Zeile, die gerechtfertigt sein soll.

Andere C0 -Kontrollcodesätze

Teletetext definiert an völlig unterschiedliche Kontrollcodes. In Formaten, in denen die Kompatibilität mit C0-Steuercodes von ECMA-48 nicht erforderlich ist, werden diese Steuercodes manchmal transparent auf den Unicode C0-Kontrollcodebereich (U+0000 über U+001F) abgebildet.[30]

C1 -Kontrollen

Parallel zur Entwicklung der 1972er Ausgabe von 1972 ISO 646, was den Standard überarbeitete, um das Konzept von vorzustellen Nationale Versionen Der Code zusätzlich zu den US-Original-ASCII wurde auch die Arbeiten im Gange, um Erweiterungsmechanismen für ASCII zu definieren, die sowohl für 7-Bit- als auch für 8-Bit-Umgebungen gilt, die als veröffentlicht werden würden als ECMA-35 und ISO 2022.[31]

Diese Mechanismen wurden so konzipiert, dass jeder konformante 8-Bit-Code in einen entsprechenden 7-Bit-Code umgewandelt werden konnte, und und umgekehrt.[32] In einer 7-Bit-Umgebung, die Verschiebung (ALSO) Kontrolle würde die Bedeutung der 94 Bytes ändern 0x21 durch 0x7e (d. H. Die grafischen Codes, mit Ausnahme des Raums), um Zeichen aus einem alternativen Satz aufzurufen, und die Verschiebung in ((Si) Die Kontrolle würde sie wieder ändern.[33] In einer 8-Bit-Umgebung wurde das achte Bit auf ein Byte eingestellt, das den zusätzlichen grafischen Zeichensatz bezieht. Dies bedeutete, dass Bytes 0xa1 durch 0xfe wurden für die zusätzlichen grafischen Zeichen verwendet. Die C0-Kontrollzeichen, die von dem Schichtzustand eines 7-Bit-Code nicht betroffen waren, sollten immer in einem 8-Bit-Code mit dem achten Bit nicht festgelegt werden.[32] Die ansonsten nicht verwendeten Bytes im Bereich 0x80 durch 0x9f könnte für zusätzliche Kontrollcodes verwendet werden, die stattdessen als als dargestellt werden 0x1b 0x40 durch 0x1b 0x5f (ESC @ durch ESC _) in einem 7-Bit-Code.[32] Diese zusätzlichen Kontrollcodes werden als die bekannt C1 -Kontrollcodes. Um die Kompatibilität mit der 7-Bit-Darstellung des Verhaltens von Bytes zu behalten, 0xa0 und 0xff wurde ursprünglich undefiniert gelassen.[34]

Der erste C1 -Kontrollcode, der für die Verwendung mit ISO 2022 registriert werden soll, war DIN 31626,[35] Ein spezialisiertes Set für die bibliografische Verwendung, die 1979 registriert wurde.[36] Das allgemeine ISO/IEC 6429-Set wurde 1983 registriert.[37] Obwohl die ECMA-48-Spezifikation, auf der sie basiert, 1976 erstmals veröffentlicht worden war.[38]

Weitere Ausgaben der Standards veränderten die Bestimmungen in gewissem Maße. Beispielsweise führte eine weitere Überarbeitung von ECMA-35 und ISO 2022 im Jahr 1985 das Konzept eines grafischen Charakters mit 96-Code ein.[39] In einem 8-Bit-Code ermöglichte dies den gesamten Bereich von 0xa0 zu 0xff für grafische Zeichen verwendet werden. Die Verwendung von 96-Code-Sätzen bedeutete auch die Bedeutung der Bytes 0x20 und 0x7f Im entsprechenden 7-Bit-Code kann sich von "Space" und "Löschen" unterscheiden, es sei denn, der Code befand sich in der Verschiebung im Zustand.[40] Die Verwendung von 96-Code-Sätzen für den G0-Set (Schalteinschalt) wurde nicht ermöglicht.[39]

In Übereinstimmung mit dieser überarbeiteten 8-Bit-ISO 2022-Codestruktur, ISO 8859 Definiert Sätze von Zeichen, die über 0xa0-FF in Kombination mit den ASCII-grafischen Zeichen über 0x20–7e codiert werden sollen, und behält sich die Bytes außerhalb dieser Bereiche zur Verwendung als nicht grafische Codes durch andere Spezifikationen wie ISO/IEC 6429 vor.[41] Unicode erbt seine ersten 256 Codepunkte aus ISO 8859-1, wodurch auch ein Bereich für einen C1-Kontrollcode-Satz reserviert ist, obwohl es hauptsächlich ihre Funktion durch höhere Ebenenprotokolle definiert lässt, mit ISO/IEC 6429 als Standard vorgeschlagen.[19]

C1 -Kontrollcodes für den allgemeinen Gebrauch

Dies sind die häufigsten erweiterten Kontrollcodes und sind in definiert ISO/IEC 6429, ECMA-48 und Jis x 0211 (ehemals JIS C 6323).[42] Wenn Sie die verwenden ISO/IEC 2022 Verlängerungsmechanismus, sie werden als aktives C1 -Kontrollzeichen mit der Sequenz bezeichnet 0x1b 0x22 0x43 (Esc "c).[37] Obwohl Unicode erfordert keinen bestimmten C1-Kontrollcodesatz, wobei deren Interpretation durch Protokolle höherer Ebene angegeben wird, und legt nur ein Verhalten für U+0085 fest. Es wird vorgeschlagen, C1-Kontrollcodes zu interpretieren, wie in ISO/IEC 6429 in Abwesenheit der Verwendung angegeben Für andere Zwecke.[19] Ebenfalls in der folgenden Tabelle aufgeführt sind drei Kontrollcodes, die neben den ISO/IEC 6429 -Codes in aufgeführt sind RFC 1345, aber nicht wirklich definiert durch ISO/IEC 6429 (PAD, Hüpfen und SGC).[5][43]

Ausser für SS2 und SS3 in EUC-JP Text und Nel im Text transkodiert von EbcdicDie 8-Bit-Formen dieser Codes werden fast nie verwendet. CSI, DCS und OSC werden verwendet, um zu kontrollieren Text Terminals und Terminalemulatoren, aber fast immer mit ihren 7-Bit-Fluchtcode-Darstellungen. Ihr ISO/IEC 2022 konforme Einzelbyte-Darstellungen sind ungültig in UTF-8, und die UTF-8-Codierungen ihrer entsprechenden CodePoints sind zwei Bytes, die ihre Escape-Code-Formulare lang sind (z. B. CSI bei U+009b ist als Bytes 0xc2, 0x9b in UTF-8 codiert, sodass kein Vorteil verwendet wird, um die Verwendung zu verwenden. sie eher als die äquivalente Zwei-Byte-Fluchtsequenz. Wenn diese Codes in modernen Dokumenten, Webseiten, E-Mail-Nachrichten usw. erscheinen, sollen sie normalerweise Zeichen in einer proprietären Codierung wie z. Windows-1252 oder Mac OS Roman Dadurch werden die C1 -Codes verwendet, um zusätzliche grafische Zeichen bereitzustellen.

Die offiziellen englischsprachigen Namen einiger C1-Codes wurden in der jüngsten Ausgabe des Standards für Kontrollcodes im Allgemeinen (ISO 6429: 1992 oder ECMA-48: 1991) in Bezug auf die mit ihnen verwendeten grafischen Zeichen neutral überarbeitet Um nicht anzunehmen, dass Zeilen wie im lateinischen Skript auf einer Seite von oben nach unten geschrieben sind und dass Zeichen auf einer Zeile von links nach rechts geschrieben sind. Die verwendeten Abkürzungen wurden nicht geändert, da der Standard bereits angegeben hatte, dass diese unverändert bleiben würden, wenn der Standard in andere Sprachen übersetzt wird. Wenn der Name geändert wurde, wird der ursprüngliche Name, von dem die Abkürzung abgeleitet wurde, auch in Klammern in den folgenden Tabellen angegeben.

Esc+ Dez Verhexen Acro Name Beschreibung[44]
@ 128 80 PAD[6] Polstercharakter Nicht Teil von ISO/IEC 6429 (ECMA-48). In frühen Entwürfen von ISO 10646 wurde als Teil eines vorgeschlagenen Mechanismus verwendet, um Nicht-ASCII-Zeichen zu codieren. Diese Verwendung wurde in späteren Entwürfen entfernt.[5][43] Wird dennoch von der internen Nutzung mit zwei Byte festgelegtem Längenform der ISO-2022-basierten Basis verwendet Erweiterter Unix -Code (EUC) Für die linken Padding-einzelne Byte-Zeichen in den Codesätzen 1 und 3, während NUL dieselbe Funktion für Codesätze 0 und 2 erfüllt.[45]
A 129 81 Hüpfen[6] Hoch Oktett Preset Nicht Teil von ISO/IEC 6429 (ECMA-48). In frühen Entwürfen von ISO 10646 war es als Mittel zur Einführung einer Abfolge von ISO 2022 konform Mehrere Byte -Zeichen mit dem gleichen ersten Byte ohne wiederholtes erstes Byte, wodurch die Länge verringert wird; Dieses Verhalten war nie Teil einer Standard- oder veröffentlichten Implementierung. Sein Name wurde dennoch als beibehalten RFC 1345 Standard-Codepunktname.[5][43]
B 130 82 BPH Break erlaubt hier Folgt einem grafischen Charakter, bei dem ein Linienbruch zulässig ist. Grob äquivalent zu a weicher Bindestrich Außer dass die Mittel zur Anzeige eines Linienbruchs nicht unbedingt ein Bindestrich sind. Nicht Teil der ersten Ausgabe von ISO/IEC 6429.[37] Siehe auch Null-Breitenraum.
C 131 83 NBH Keine Pause hier Folgt dem grafischen Charakter, der nicht gebrochen werden darf. Nicht Teil der ersten Ausgabe von ISO/IEC 6429.[37] Siehe auch Wort Joiner.
D 132 84 Ind Index Bewegen Sie die aktive Position mit einer Linie nach unten, um Unklarheiten über die Bedeutung von LF zu beseitigen. 1988 veraltet und 1992 von ISO/IEC 6429 (1986 bzw. 1991 für ECMA-48) zurückgezogen.
E 133 85 Nel Nächste Zeile Äquivalent zu cr+lf. Wird verwendet, um das Ende der Leine auf einigen IBM-Mainframes zu markieren.
F 134 86 SSA Beginn des ausgewählten Bereichs Benutzt von Blockorientierte Terminals.
G 135 87 ESA Ende des ausgewählten Bereichs
H 136 88 HTS Charakter -Tabellierung eingestellt
Horizontaler Tabellierungssatz
Führt zu einer Charaktertabellierung, die auf die aktive Position eingestellt wird.
I 137 89 Htj Charaktertabellierung mit Rechtfertigung
Horizontale Tabelle mit Rechtfertigung
Ähnlich wie bei der Charaktertabellierung, mit der Ausnahme, dass anstelle von Leerzeichen oder Linien nach den vorhergehenden Zeichen platziert werden, bis der nächste Tab -Stopp erreicht ist, werden die Leerzeichen oder Linien vor dem aktiven Feld platziert, sodass der vorhergehende grafische Zeichen kurz vor dem nächsten Tab -Stop platziert wird.
J 138 8a VTS Zeile Tabellierung eingestellt
Vertikaler Tabulationssatz
Führt zu einer Tabellierung der Linien, die auf die aktive Position eingestellt wird.
K 139 8b PLD Teillinie vorwärts
Teillinie nach unten
Wird verwendet, um Indexs und Superscripts zu erstellen in ISO/IEC 6429z. B. in einem Drucker.
Einweis verwenden PLD Text PLU während Superscripts verwenden PLU Text PLD.
L 140 8c Plu Teillinie rückwärts
Teilaufstellung
M 141 8d Ri Rückwärtsleitungsvorschub
Reverse Index
N 142 8e SS2 Einzelschicht 2 Der nächste Zeichen ruft ein grafisches Zeichen aus den G2- oder G3 -Grafiksätzen auf. In Systemen, die sich entsprechen ISO/IEC 4873 (ECMA-43), auch wenn ein anderer C1-Satz als der Standard verwendet wird, dürfen diese beiden Oktetten nur für diesen Zweck verwendet werden.
O 143 8f SS3 Einzelschicht 3
P 144 90 DCS Gerätesteuerzeichenfolge Gefolgt von einer Reihe druckbarer Zeichen (0x20 bis 0x7e) und Format -Effektoren (0x08 bis 0x0d), beendet von ST (0x9c). Dies kann durch Kontrollsequenzen variabler Länge für Textterminals und terminale Emulatoren verwendet werden, wie z.terminfo Abfragen.[46]
Q 145 91 PU1 Privatnutzung 1 Reserviert für eine Funktion ohne standardisierte Bedeutung für den privaten Gebrauch nach Bedarf, vorbehaltlich der vorherigen Vereinbarung des Absenders und des Empfängers der Daten.
R 146 92 PU2 Privatnutzung 2
S 147 93 Sts Set Sendezustand einstellen
T 148 94 CCH Charakter abbrechen Zerstörerische Rückseite, die Unklarheit über die Bedeutung von beseitigen soll BS.
U 149 95 MW Nachricht Warten
V 150 96 SPA Beginn des Schutzgebiets Benutzt von Blockorientierte Terminals.
W 151 97 EPA Ende des Schutzgebiets
X 152 98 SOS Start der String Gefolgt von einer Kontrollzeichenfolge von beendet von St (0x9c), was im Gegensatz zu denen von initiierten durch DCS, OSC, PM oder APC, kann ein Zeichen außer SOS oder ST enthalten. Nicht Teil der ersten Ausgabe von ISO/IEC 6429.[37]

Marc 21 Verwendet SOS und ST in Unicode-Format-Datensätzen, um eine Zeichenfolge zu markieren, die für Kollationszwecke ignoriert werden sollte, während Marc-8 Formatdatensätze verwenden NS B und NSE Für den gleichen Zweck.[15][47]

Y 153 99 SGC,[6] SGCI[48] Einzelgrafik -Charakter -Einführungs Nicht Teil von ISO/IEC 6429. In frühen Entwürfen von ISO 10646 wurde ein einzelner Multiple-Byte-Zeichen codiert, ohne aus einem auszuschalten Hüpfen Modus,[43] oder um den Zugriff auf das gesamte von UCS-3 festgelegte Zeichen zu ermöglichen, UCS-2 oder Latein-1.[48] Würde von a gefolgt werden UCS-4 Darstellung eines Charakters.[48] In späteren Entwürfen wurde diese Einrichtung entfernt, der Name wurde dennoch als beibehalten RFC 1345 Standard-Codepunktname.[5][43]
Z 154 9A Sci Einzelcharakter -Einführung Zu folgen von einem einzelnen druckbaren Zeichen (0x20 bis 0x7e) oder Format -Effektor (0x08 bis 0x0d). Die Absicht bestand darin, ein Mittel bereitzustellen, mit dem eine Kontrollfunktion oder ein grafisches Zeichen verfügbar wäre, unabhängig davon, welche Grafik- oder Kontrollsätze verwendet wurden, definiert werden. Definitionen dessen, was das folgende Byte aufrufen würde, wurde nie in einem internationalen Standard implementiert. Nicht Teil der ersten Ausgabe von ISO/IEC 6429.[37]
[ 155 9b CSI Kontrollsequenz -Einführung Wird verwendet, um Kontrollsequenzen einzuführen, die Parameter annehmen.
\ 156 9c St String -Terminator Beendet einen Kontrollzeichenfolge mit variabler Länge, der von initiiert wird DCS, SOS, OSC, PM oder APC.
] 157 9d OSC Betriebssystembefehl Gefolgt von einer Reihe druckbarer Zeichen (0x20 bis 0x7e) und Format -Effektoren (0x08 bis 0x0d), beendet von ST (0x9c). Diese drei Kontrollcodes waren für die Verwendung vorgesehen, um die In-Band-Signalübertragung von Protokollinformationen zu ermöglichen, werden jedoch selten für diesen Zweck verwendet.

Etwas Terminalemulatoren, einschließlich XtermUnterstützen Sie OSC -Sequenzen zum Festlegen des Fensters und der Neukonfiguration der verfügbaren Farbpalette. Sie können auch die Beendigung einer OSC -Sequenz mit unterstützen Bel als nicht standardmäßige Alternative zum Standard ST.[49]

APC wird manchmal zum Senden verwendet Kermit Befehle, obwohl dies aus Sicherheitsgründen deaktiviert oder gefiltert werden kann.[50]

^ 158 9e PM Datenschutznachricht
_ 159 9f APC Anwendungsprogrammbefehl

C1 -Kontrollcodes für die bibliografische Verwendung

Der folgende alternative C1 -Kontrollcodessatz ist für bibliografische Anwendungen wie z. B. definiert Bibliothekssysteme. Es befasst sich hauptsächlich mit der String -Zusammenstellung und mit dem Aufschlag von bibliografischen Feldern. Etwas unterschiedliche Varianten sind im deutschen Standard definiert LÄRM 31626[36] (1978 veröffentlicht und seitdem zurückgezogen)[51] und die ISO Standard ISO 6630,[52][53] Letzteres wurde auch in Deutschland als verabschiedet wie Din ISO 6630.[54] Wo diese unterscheiden, sind in der folgenden Tabelle gegebenenfalls festgestellt. Marc-8 verwendet die Codierung von NS B und NSE Aus diesem Satz und einige zusätzliche Format -Effektoren an Orten, die nicht von der ISO -Version verwendet werden; Marc 21 verwendet diesen Steuerungssatz jedoch nur in MARC-8-Datensätzen, nicht in Unicode-Format-Datensätzen.[15]

Wenn Sie die verwenden ISO/IEC 2022 Verlängerungsmechanismus, der DIN 31626 -Set ist als aktives C1 -Steuerzeichen mit der Sequenz bezeichnet 0x1b 0x22 0x45 (Esc "e),[36] und das ISO 6630 / DIN ISO 6630 -Set ist mit der Sequenz ausgewiesen 0x1b 0x22 0x42 (Esc "b).[52] Die Expansion des ISO 6630 -Satzes von 1985 kann ebenfalls explizit unter Verwendung der Sequenz angegeben werden 0x1b 0x26 0x40 0x1b 0x22 0x42 (Esc & @ Esc "B).[53]

Esc+ Dez Verhexen Acro Name Beschreibung[36][52][53]
@…F 128… 134 80… 86 - (reserviert)
G 135 87 Cus Nahaufnahme zum Sortieren (DIN 31626, ISO 6630) erklärt, dass zwei durch einen Raum oder Trennzeichen getrennte aufeinanderfolgende Zeichensequenzen für Kollationszwecke als ein Wort behandelt werden sollten.
H 136 88 NS B Nicht sortierende Zeichen beginnen (DIN 31626, ISO 6630, MARC 21) markiert den Beginn einer Abfolge von Zeichen, die für Kollationszwecke ignoriert werden sollen. Marc 21 Verwendet diesen Charakter in Marc-8 Datensätze, verwendet aber 0x98 ( SOS) in Unicode -Datensätzen für denselben Zweck.[15][47]
I 137 89 NSE Nicht sortierende Zeichen enden (DIN 31626, ISO 6630, MARC 21) markiert das Ende einer Abfolge von Zeichen, die für Kollationszwecke ignoriert werden sollen. Marc 21 verwendet dieses Charakter in Marc-8-Datensätzen, verwendet jedoch 0x9c ( St) in Unicode -Datensätzen für denselben Zweck.[15][47]
J 138 8a File Füllstoffcharakter (DIN 31626) Ersatzteile eines obligatorischen alphanumerischen Charakters in einem Feld.
K 139 8b TCI Tag im Kontextindikator (DIN 31626) In einem bibliografischen Bereich, der verwendet wird, um auf Daten in einem anderen bibliografischen Bereich durch seine Tag -Nummer zu verweisen.
PLD Teillinie nach unten (ISO 6630) Nicht in der Originalausgabe von ISO 6630.[52] In der Ausgabe von ISO 6630 von 1985,,[53] verwendet für die Teillinie nach unten (siehe PLD Oben).
L 140 8c ICI Identifikationsnummer im Kontextindikator (DIN 31626) In einem bibliografischen Bereich, der verwendet wird, um auf Daten in einem anderen bibliografischen Datensatz nach seiner ID -Nummer zu verweisen.
Plu Teilaufstellung (ISO 6630) Nicht in Originalausgabe von ISO 6630.[52] In der Ausgabe von ISO 6630 von 1985,,[53] Wird für die teilweise Linie verwendet (siehe Plu Oben).
M 141 8d OSC[c] Optionale Lehrplanung[d] Kontrolle (DIN 31626) markiert eine Silbengrenze in einem langen Wort. Siehe auch weicher Bindestrich.
Zwj Schreiner (Marc 21) in Marc-8, verwendet für die Null-Breiten-Tischler, während u+200d in unicode-format marc-Datensätzen verwendet wird.[15][47]
N 142 8e SS2 Einzelschicht 2 (DIN 31626) Nicht-speicherischer Schaltcode, siehe SS2 Oben.
Zwnj Nicht-Joiner (Marc 21) in Marc-8, verwendet für die Null-Width-Nicht-Joiner, während u+200c in unicode-format marc-Datensätzen verwendet wird.[15][47]
O 143 8f SS3 Einzelschicht 3 (DIN 31626) Nicht-speicherischer Schaltcode, siehe SS3 Oben.
P 144 90 - (reserviert)
Q 145 91 EAB Eingebetteter Annotation Beginn (DIN 31626, ISO 6630) markiert den Beginn einer Annotation mit variabler Länge, die in ein bibliografisches Gebiet eingebettet ist, im Gegensatz zu getrennt unter Verwendung der Inhaltsbezeichnung.
R 146 92 EAE Eingebettete Annotationende (DIN 31626, ISO 6630) markiert das Ende einer eingebetteten Annotation mit variabler Länge.
S 147 93 IST B Elementspezifikation Beginn (DIN 31626) markiert den Beginn einer Reihe spezifischer Informationen einer Beschreibung als ein Schlüsselwort oder eine Permutationszeichenfolge.
T 148 94 Ise Elementspezifikation Ende (DIN 31626) markiert das Ende einer Reihe spezifischer Informationen.
U 149 95 SIB Sortieren der Interpolation Beginn (ISO 6630) markiert den Beginn einer Abfolge von Zeichen nur, die nur für Kollationszwecke verwendet werden.
V 150 96 Sie Sortieren der Interpolationende (ISO 6630) markiert das Ende einer Abfolge von Zeichen, die nur für Kollationszwecke verwendet werden.
W 151 97 SSB Sekundärsortierwert Beginn (ISO 6630) markiert den Beginn einer Zeichenfolge mit einem untergeordneten Zusammenstellungswert.
X 152 98 Sse Sekundärsortierwertende (ISO 6630) markiert das Ende einer Zeichenfolge mit einem untergeordneten Zusammenstellungswert.
Y 153 99 Inc. Indikator für nicht standardmäßigen Charaktere (DIN 31626) identifiziert einen folgenden nicht standardmäßigen Charakter.
Z 154 9A - (reserviert)
[ 155 9b - (reserviert)
\ 156 9c Kwb Schlüsselwort Beginn (DIN 31626, ISO 6630) markiert den Beginn eines Schlüsselworts in einem bibliografischen Bereich.
] 157 9d Kwe Schlüsselwort Ende (DIN 31626, ISO 6630) markiert das Ende eines Schlüsselworts in einem bibliografischen Bereich.
^ 158 9e PSB Permutationszeichenfolge Beginn (DIN 31626, ISO 6630) markiert den Beginn einer Schnur, die bei Referenzen oder an der Vorderseite des Elements durchdrungen werden soll Indizes sind generiert. Beendet von PSE oder am Ende des Elements.
_ 159 9f Pse Permutation Stringende (DIN 31626, ISO 6630) markiert das Ende einer Schnur, die bis zur Vorderseite des Elements durchdrungen werden soll.

Andere C1 -Kontrollcodesätze

Ebcdic Definiert 16 zusätzliche Kontrollcodes neben denen, die in ASCII vorhanden sind. Wenn zugeordnet auf Unicode oder zu ISO 8859Diese Codes werden auf C1 -Steuerzeichen auf eine Weise zugeordnet, die durch IBMs Charakterdatenrepräsentationsarchitektur (CDRA) angegeben ist.[55][56]

Obwohl die Standardzuordnung des neuen Steuerelements (NL) der neuen Zeile (NL) dem ISO/IEC 6429 entspricht Nel (0x85; obwohl seine Zuordnung manchmal mit LF nach der Unix -Linien -Ending -Konvention ausgetauscht wird),[55] Der Rest der Kontrollcodes entspricht nicht ISO/IEC 6429. Zum Beispiel die Ebcdic -Kontrolle Sps (0x09, auf 0x8d zugeordnet) und die ECMA-48-Kontrolle Plu (0x8c) werden beide verwendet, um ein Superscript zu beginnen oder ein Index zu beenden, aber nicht miteinander zugeordnet. EBCDIC erweitert-ascii-Made kann daher als einen eigenen C1-Set angesehen werden, obwohl es nicht mit dem registriert ist ISO-IR Registrierung für die Verwendung mit ISO/IEC 2022.[35]

Verschiedene spezialisierte C1 -Kontrollcode -Sets werden für die Verwendung von verschiedenen Registrierung registriert Videotex Formate.[35]

Unicode

Unicode legt 65 Codepunkte in der Allgemeine Kategorie Cc (Kontrolle) für die Kompatibilität mit ISO/IEC 2022. Diese sind:

  • U+0000–U+001F (C0 -Steuerelemente) und U+007F (löschen), die dem zugewiesen sind Grundlatein Block, und
  • U+0080–U+009F (C1 -Steuerelemente), die dem zugewiesen sind Latin-1 Supplement Block.

Unicode gibt nur die Semantik für U+0009 - U+000D, U+001C - U+001F und U+0085 an. Die restlichen Kontrollcodes sind für Unicode transparent und ihre Bedeutungen bleiben Protokollen auf höherer Ebene.[19]

Außerdem enthält Unicode zusätzliche Format -Effektor -Zeichen, darunter wie z. Markierungen, Einbettungen, Isolate und Pops Für explizite bidirektionale Formatierung und die Null-Breiten-Tischler und Nicht-Joiner Zur Kontrolle der Ligatur. Diese erhalten jedoch die allgemeine Kategorie Cf (Format) und nicht Cc.

Siehe auch

Fußnoten

  1. ^ Der Name Bell wird von Unicode dem nicht verwandten Verhältnis zugeordnet Emoji Zeichen (U+1F514). Während C0- und C1 -Kontrollzeichen zu diesem Zeitpunkt vom Unicode -Standard selbst nicht formell benannt wurden, kollidierte dies mit der vorhandenen Verwendung von Bell als Name dieses Steuerungszeichens in der Software nach den vorherigen Versionen von UTS#18 (der URICODE -Standard -Ausdrucksstandard). Anwesend[4] z.B. in Perl.[5] Unicode akzeptiert jetzt Alarm und Bel (aber nicht Bell) als formale Aliase für den Kontrollcharakter,[6] Obwohl das Codediagramm noch Bell als ISO 6429 -Alias ​​auflistet, ist es[7] und das entsprechende Steuerungspunkt für den Bildung wird als Symbol für Bell genannt. Perl wechselte anschließend in Version 5.18 zur Verwendung von Bell für das Emoji.[8]
  2. ^ Das '\ e'Escape -Sequenz ist nicht Teil von ISO C und vielen anderen Sprachspezifikationen. Es wird jedoch von mehreren Compilern verstanden, einschließlich GCC.
  3. ^ Nicht das gleiche wie das Betriebssystembefehl (OSC) im ISO/IEC 6429 C1 -Code -Set.
  4. ^ Geschrieben "Silbe [sic] "Im Dokument ISO-IR-040, zusammen mit" Silbe "geschrieben" Lehrplansic] "In der Beschreibung. Dies sind vermutlich typografische Fehler.

Verweise

  1. ^ a b c d e f g ISO/TC 97/SC 2 (1975). Die Menge der Kontrollzeichen des ISO 646 (PDF). Itcj/Ipsj. ISO-IR-1.
  2. ^ a b c d e f g h i j k IPTC (1995). Das IPTC empfohlene Nachrichtenformat (PDF) (5. Aufl.). IPTC TEC 7901.
  3. ^ a b c d "End-of-Transmission-Charakter (EOT)". Bundesstandard 1037c. 1996.
  4. ^ Williamson, Karl. "Re: PRI #202: Erweiterungen zu namenealiases.txt für Unicode 6.1.0".
  5. ^ a b c d e Ken Whistler (20. Juli 2011). "Formelle Name Aliase für Kontrollzeichen, L2/11-281". Unicode -Konsortium.
  6. ^ a b c d "Name Aliase". Unicode -Zeichendatenbank. Unicode -Konsortium.
  7. ^ "C0 -Kontrollen und Grundlatein" (PDF). Unicode -Konsortium.
  8. ^ "Charnames". Perl -Programmierdokumentation.
  9. ^ ISO/IEC JTC 1/SC 2 (1998-02-12). Abschließender Text von Dis 8859-10, Informationstechnologie-8-Bit-Single-Byte-Coded Grafikzeichen-Sets-Teil 10: Lateinischer Alphabet Nr. 6 (PDF). ISO/IEC FDIS 8859-10: 1998, JTC1/SC2 N2992, WG3 N415.
  10. ^ "Data Link Escape Zeichen (DLE)". Bundesstandard 1037c. 1996.
  11. ^ "Ergänzende Übertragungssteuerungsfunktionen (eine Erweiterung der Grundverfahren zur Steuerung der grundlegenden Modus für Datenkommunikationssysteme)". Europäische Computerherstellervereinigung. 1972. ECMA-37.
  12. ^ Wolf, Mischa; Whistler, Ken; Wicksteed, Charles; Davis, Mark; Freytag, Asmus; Scherer, Markus (2005-05-06). "10.1 Vermeiden von Kontroll -Byte -Werten". Ein Standardkomprimierungsschema für Unicode. Unicode -Konsortium. UTS #6.
  13. ^ "Was ist der Sinn von Strg-S?". UNIX- und Linux Stack Exchange. Abgerufen 14. Februar 2019.
  14. ^ Fox, Brian. "Hinzufügen eines neuen Knotens zu Info". Info: Das online-Menügesteuerte GNU-Dokumentationssystem. GNU -Projekt.
  15. ^ a b c d e f g "Steuerfunktionscodes". MARC 21 Spezifikationen für Rekordstruktur, Zeichensätze und Exchange Media. Kongressbibliothek. 2007-12-04.
  16. ^ "Eingebaute Typen § str.splitlines". Die Python Standard Library. Python Software Foundation.
  17. ^ a b ECMA (1994). "7.3: Aufruf von Charakter-Set-Code-Elementen". Charaktercode -Struktur und Erweiterungstechniken (PDF) (ECMA -Standard) (6. Aufl.). p. 14. ECMA-35.
  18. ^ American Standards Association (1963). Amerikanischer Standardcode für den Informationsaustausch: 4. Legende. p. 6. ASA X3.4-1963.
  19. ^ a b c d Unicode -Konsortium (2019). 23.1: Kontrollcodes (PDF). Der Unicode -Standard (12.0.0 ed.). S. 868–870. ISBN 978-1-936213-22-1.
  20. ^ a b ECMA (1994). "6.4.2: Primäre Sätze codierter Kontrollfunktionen". Charaktercode -Struktur und Erweiterungstechniken (PDF) (ECMA -Standard) (6. Aufl.). p. 11. ECMA-35.
  21. ^ ECMA (1994). "6.4.3: Ergänzende Sätze codierter Kontrollfunktionen". Charaktercode -Struktur und Erweiterungstechniken (PDF) (ECMA -Standard) (6. Aufl.). p. 11. ECMA-35.
  22. ^ a b c d e f g h i j k l m Sveriges standardiseringskommission (1975). NATS -Steuerelement für Zeitungstextübertragung (PDF). Itcj/Ipsj. ISO-IR-7.
  23. ^ a b c d e f g h i j k l m n IPTC (1976). Steuerungssatz für Zeitungstextübertragung (PDF). Itcj/Ipsj. ISO-IR-26.
  24. ^ a b Itu (1985). TeletEx Primärer Kontrollfunktionen (PDF). Itcj/Ipsj. ISO-IR-106.
  25. ^ Úřad Pro Normalizaci A Měřeni (1987). Die Anzahl der Kontrollzeichen von ISO 646, wobei EM durch SS2 ersetzt wurde (PDF). Itcj/Ipsj. ISO-IR-140.
  26. ^ ISO/TC 97/SC 2 (1977). Die Anzahl der Kontrollzeichen von ISO 646, wobei IS4 durch eine einzelne Verschiebung für G2 (SS2) ersetzt wird (PDF). Itcj/Ipsj. ISO-IR-36.
  27. ^ ISO/TC 97/SC 2 (1982). Der C0-Satz von Kontrollfiguren des japanischen Standard-JIS C 6225-1979 (PDF). Itcj/Ipsj. ISO-IR-74.
  28. ^ a b ISO/TC97/SC2/WG6. "Verbindungsaussage zu ISO/TC97/SC2/WG8 und ISO/TC97/SC18/WG8" (PDF). ISO/TC97/SC2/WG6 N317.REV.
  29. ^ Printronix (2012). OKI® Programmer Referenzhandbuch (PDF). p. 26.
  30. ^ Ewell, Doug (2020-10-16). "TeleText getrennte Mosaikgrafiken". Unicode Mailing List Archiv. Unicode -Konsortium.
  31. ^ ECMA/TC 1 (1973). "Kurze Geschichte". 7-Bit-Eingangs-/Ausgangscodierter Zeichensatz (PDF) (4. Aufl.). ECMA. ECMA-6: 1973.
  32. ^ a b c ECMA/TC 1 (1971). "8.2: Korrespondenz zwischen dem 7-Bit-Code und einem 8-Bit-Code". Erweiterung des 7-Bit-codierten Zeichensatzes (PDF) (1. Aufl.). ECMA. S. 21–24. ECMA-35: 1971.
  33. ^ ECMA/TC 1 (1973). "4.2: Spezifische Steuerzeichen". 7-Bit-Eingangs-/Ausgangscodierter Zeichensatz (PDF) (4. Aufl.). ECMA. p. 16. ECMA-6: 1973.
  34. ^ ECMA/TC 1 (1974). "5: Notizen zu Tabelle 1". 8-Bit-codierter Zeichensatz (PDF) (1. Aufl.). ECMA. S. 4–5. ECMA-43: 1974.
  35. ^ a b c ISO/IEC Internationales Register codierter Zeichensätze, die mit Escape -Sequenzen verwendet werden sollen (PDF), Itcj/Ipsj, Iso-ir
  36. ^ a b c d LÄRM (1979-07-15). Zusätzliche Kontrollcodes für die bibliografische Verwendung gemäß dem deutschen Standard DIN 31626 (PDF). Itcj/Ipsj. ISO-IR-40.
  37. ^ a b c d e f ISO/TC97/SC2 (1983-10-01). C1 -Kontrollsatz von ISO 6429: 1983 (PDF). Itcj/Ipsj. ISO-IR-77.
  38. ^ ECMA/TC 1 (1979). "Kurze Geschichte". Zusätzliche Steuerungsfunktionen für E/A-Geräte für Charakterbilder (PDF) (2. Aufl.). ECMA. ECMA-48: 1979.
  39. ^ a b ECMA/TC 1 (1985). "5.3.8: Sets von 96 Grafikzeichen". Code -Erweiterungstechniken (PDF) (4. Aufl.). ECMA. S. 17–18. ECMA-35: 1985.
  40. ^ ECMA/TC 1 (1985). "5.2.1: Verwendung von Verriegelungsverschiebungsfunktionen". Code -Erweiterungstechniken (PDF) (4. Aufl.). ECMA. S. 9–10. ECMA-35: 1985.
  41. ^ ISO/IEC JTC 1/SC 2/WG 3 (1998-02-12). Endgültiger Text von Dis 8859-1, 8-Bit-Single-Byte-Coded Grafikzeichen-Sets-Teil 1: Lateinisches Alphabet Nr. 1 (PDF). ISO/IEC FDIS 8859-1: 1998; JTC1/SC2/N2988; WG3/N411. Dieser Satz codierter grafischer Zeichen kann als Version eines 8-Bit-Codes gemäß ISO/IEC 2022 oder ISO/IEC 4873 auf Stufe 1 angesehen werden Grafikzeichen darstellen. Ihre Verwendung liegt außerhalb des Rahmens von ISO/IEC 8859; Es ist in anderen internationalen Standards angegeben, zum Beispiel ISO/IEC 6429.
  42. ^ "Jis x 02xx 符号" (auf Japanisch).
  43. ^ a b c d e Ken Whistler (2015-10-05). "Warum wird nie mehr weg". Unicode Mailingliste.
  44. ^ ECMA (1991). Kontrollfunktionen für codierte Zeichensätze. Standard ECMA-48.
  45. ^ Lunde, Ken (2008). CJKV -Informationsverarbeitung: Chinesisch, Japanisch, Koreanisch und Vietnamesisches Computer. O'Reilly. p. 244. ISBN 9780596800925.
  46. ^ Moy, Edward; Gildea, Stephen; Dickey, Thomas. "Gerätekontrollfunktionen". Xterm -Kontrollsequenzen.
  47. ^ a b c d e "Code -Tabelle erweiterte Latein (Ansel)". MARC 21 Spezifikationen für Rekordstruktur, Zeichensätze und Exchange Media. Kongressbibliothek. 2007-12-05.
  48. ^ a b c Brender, Ronald F. (1989). "ADA 9x -Projektbericht: Charakter -Set -Probleme für ADA 9x". Carnegie Mellon Universität.
  49. ^ Moy, Edward; Gildea, Stephen; Dickey, Thomas. "Betriebssystembefehle". Xterm -Kontrollsequenzen.
  50. ^ Frank da Cruz; Christine Gianone (1997). Verwenden von C-Kermit. Digitale Presse. p. 278. ISBN 978-1-55558-164-0.
  51. ^ "Informationsverarbeitung; bibliografische Kontrollfiguren". Buth: Publishing Din. DIN 31626: 1978-12.
  52. ^ a b c d e ISO/TC 46 (1983-06-01). Zusätzliche Kontrollcodes für die bibliografische Verwendung gemäß dem internationalen Standard -ISO 6630 (PDF). Itcj/Ipsj. ISO-IR-67.
  53. ^ a b c d e ISO/TC 46 (1986-02-01). Zusätzliche Kontrollcodes für die bibliografische Verwendung gemäß dem internationalen Standard -ISO 6630 (PDF). Itcj/Ipsj. ISO-IR-124.
  54. ^ "DIN ISO 6630 Dezember 1997". Afnor Editionen Online -Shop.
  55. ^ a b Umamaheswaran, V.S. (1999-11-08). "3.3 Schritt 2: Byte -Konvertierung". UTF-EBCDIC. Unicode -Konsortium. Unicode Technischer Bericht Nr. 16. Die 64 Kontrollzeichen […], das ASCII -Löschzeichen (U+007F) […] sind in Bezug auf eBCDIC -Konventionen wie in IBM -Charakterdatenrepräsentationsarchitektur, CDRA, mit einer Ausnahme - die Paarung von Ebcdic Line Feed und neu Zeilensteuerungszeichen werden von ihren CDRA -Standardpaarungen gegen ISO/IEC 6429 Line -Feed (U+000A) und Nächste Zeile (U+0085) -Kontrollzeichen ausgetauscht
  56. ^ Steele, Shawn (1996-04-24). CP037_IBMUSCANADA ZU UNICODE -TABELLE. Microsoft/Unicode -Konsortium.