Indischer Skriptcode für den Informationsaustausch

Indischer Skriptcode für den Informationsaustausch (Iscii) ist ein Codierungsschema zur Darstellung verschiedener Schreibsysteme von Indien. Es codiert die Haupt Indic -Skripte und eine römische Transliteration. Die unterstützten Skripte sind: Bengali -assamese, Devanagari, Gujarati, Gurmukhi, Kannada, Malayalam, Oriya, Tamilisch, und Telugu. ISCII kodiert nicht die Schreibsysteme Indiens, die auf persisch, aber seine Schreibsystem -Schaltcodes sorgen dennoch für Kaschmiri, Sindhi, Urdu, persisch, PaShto und Arabisch. Die persischen Schreibsysteme wurden anschließend in der codiert Pascii Codierung.

ISCII wurde außerhalb bestimmter Regierungsinstitutionen nicht weit verbreitet, obwohl eine Variante ohne die ATR Mechanismus wurde verwendet Klassischer Mac OS, Mac OS Devanagari,[1] und es wurde jetzt weitgehend veraltet von Unicode. Unicode verwendet einen separaten Block für jedes Indic -Schreibsystem und bewahrt das ISCII -Layout in jedem Block weitgehend auf.

Hintergrund

Die von Brahmi abgeleiteten Schreibsysteme haben eine ähnliche Struktur. So codiert ISCII Buchstaben mit demselben phonetischen Wert am gleichen Codepunkt und überlagert die verschiedenen Skripte. Beispielsweise repräsentieren die ISCII -Codes 0xB3 0xDB [ki]. Dies wird als കി in gerendert Malayalam, कि in Devanagari, als ਕਿ in Gurmukhi und als கி in Tamil. Das Schreibsystem kann in reichem Text per Markup oder in klarem Text mittels der ausgewählt werden ATR Code unten beschrieben.

Eine Motivation für die Verwendung einer einzelnen Codierung ist die Idee, dass es einfach zulässt Transliteration von einem Schreibsystem zum anderen. Es gibt jedoch genügend Inkompatibilitäten, dass dies nicht wirklich eine praktische Idee ist.

ISCII ist eine 8-Bit-Codierung. Die unteren 128 Codepunkte sind einfach ASCIIDie oberen 128 Codepunkte sind iscii-spezifisch. Zusätzlich zu den Codepunkten, die Zeichen darstellen, verwendet ISCII einen Codepunkt mit Mnemonic ATR Dies weist darauf hin, dass das folgende Byte eine von zwei Arten von Informationen enthält. Ein Satz von Werten ändert das Schreibsystem bis zum nächsten Schreibsystemindikator oder zum Ende der Leitung. Ein weiterer Satz von Werten Wählen Sie Anzeigemodi wie fett und kursiv. ISCII bietet kein Mittel zur Angabe des Standardschreibsystems.

Codepage -Layout

Die folgende Tabelle zeigt den Zeichen für den Zeichen für Devanagari. Der Code setzt für Assamese, Bengali, Gujarati, Gurmukhi, Kannada, Malayalam, Oriya, Tamil und Telugu ähnlich, wobei jede Devanagari -Form durch die ersetzt wird Äquivalente Form in jedem Schreibsystem. Jedes Zeichen wird mit seinem Dezimalcode und seinem gezeigt Unicode Äquivalent.

Iscii Devanagari
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x Nul Soh Stx ETX Eot Enq Ack Bel  BS   Ht   Lf   Vt   Ff   Cr   ALSO   Si  
1x Dle DC1 DC2 DC3 DC4 Nak Syn ETB KANN  Em  Sub ESC  Fs   Gs   Rs &   UNS 
2x  Sp  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ' a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~ Del
8x
9x
Axt
BX
CX य़
Dx Inv ि
Ex ATR
Fx Ext
 Nicht definiert
 Lead -Byte

Spezielle Codepunkte

INV -Zeichen - Code Point D9 (217)
Der Invisible-Konsonant-Charakter wird als pseudo-konsonant verwendet, um Elemente isoliert zu kombinieren. Zum Beispiel क (ka) + ् (halant) + inv = क्‍ (halb ka). Das Unicode -Äquivalent ist U+200d Null -Breiten -Tischler ( Zwj). Wie bereits erwähnt unterDas ISCII -Halantcharakter kann verdoppelt oder mit dem ISCII -Nukta kombiniert werden, um Effekte zu erzielen, die durch erstellt wurden Zwnj oder Zwj in Unicode. Deshalb, Apfel ordnet das ISCII -Inv -Zeichen dem Unicode ab Marke von links nach rechts, um zu garantieren Roundtripping.[1]
ATR -Zeichen - Code Point EF (239)
Das ATR (Attribut) -Schapon, gefolgt von einem Byte -Code, wird verwendet, um zu einem anderen Schriftartattribut (z. Pascii Sprache (wie Bengali) bis zur nächsten ATR -Sequenz oder zum Ende der Linie. Dies hat kein direktes Unicode -Äquivalent, da Schriftstellungsattribute nicht Teil von Unicode sind und jedes Skript eine bestimmte Reihe von Codepunkten hat.
Präsentationsattribute
ATR + Byte Mnemonisch Formatierungsoption
0x30 BLD Fett gedruckt
0x31 Ita Kursivschrift
0x32 Ul Unterstreichen
0x33 Exp Erweitert
0x34 HLT Markieren
0x35 Otl Umriss
0x36 Shd Schatten
0x37 OBEN Obere Hälfte des Zeichen
0x38 NIEDRIG Untere Hälfte des Charakters (verwendet mit oben, um Doppelhöhe Zeichen zu erstellen)
0x39 Dbl Gesamte Reihe Doppelbreite und Doppelhöhe
Verschiebt sich zu ISCII -Skripten
ATR + Byte Mnemonisch Iscii -Skript
0x40 Def Standardskript (d. H. Das Skript, auf das nach einem Zeilenumbruch zurückgeführt wird)
0x41 Rmn Romanisiert Transliteration
0x42 Dev Devanagari
0x43 Bng Bengali -Skript
0x44 Tml Tamilischer Skript
0x45 Tlg Telugu -Skript
0x46 Asm Assamese Skript
0x47 Ori ODIA -Skript
0x48 Knd Kannada Drehbuch
0x49 Mlm Malayalam -Skript
0x4a Gjr Gujarati Drehbuch
0x4b Pnj Gurmukhī
Verschiebungen zu Pascii
ATR + Byte Mnemonisch Pascii -Gebietsschema
0x71 Arb Arabisches Alphabet
0x72 Pes Persischer Alphabet
0x73 URD Urdu Alphabet
0x74 Snd Sindhi Alphabet
0x75 KSM Kashmiri Alphabet
0x76 PST Paschto -Alphabet
Ext -Zeichen - Code Point F0 (240)
Der Ext (-Länger für vedische) Zeichen, gefolgt von einem Byte -Code, zeigt einen vedischen Akzent an. Dies hat kein direktes Unicode -Äquivalent, da vedische Akzente verschiedenen Codepunkten zugeordnet sind.
Halant -Charakter ् - Codepunkt E8 (232)
Der Halantcharakter entfernt den impliziten Vokal aus einem Konsonanten und wird zwischen Konsonanten zur Darstellung von Konsonanten von Konjunkten verwendet. Zum Beispiel क (ka) + ् (halant) + त (ta) = क्त (kta). Die Sequenz appe (halant) + ् (halant) zeigt eine Konjunktion mit einem expliziten Halant, zum Beispiel क (Ka) + ् (halant) + ् (halant) + त (ta) = क्‌त. Die Sequenz Bewegung (halant) + ़ (nukta) zeigt eine Konjunktion mit halben Konsonanten an, falls verfügbar, zum Beispiel क (Ka) + ् (Halant) + ़ (Nukta) + त (ta) = क्‍त.
Korrespondenzen zwischen ISCII und Unicode Halent/Virama Verhalten
Iscii Unicode
Single Halant E8 halant 094d
Halant + Halant E8 E8 Halant + Zwnj 094d 200c
Halant + Nukta E8 E9 Halant + Zwj 094d 200d
Nukta -Zeichen ़ - Codepunkt E9 (233)
Das Nukta Das Zeichen nach einem anderen ISCII -Zeichen wird für eine Reihe seltenerer Zeichen verwendet, die im Haupt -ISCII -Set nicht vorhanden sind. Zum Beispiel क (ka) + ़ (nukta) = क़ (qa). Diese Zeichen haben in Unicode vorkomponierte Formen, wie in der folgenden Tabelle gezeigt.
Einzelne Unicode -Zeichen, die Iscii -Nukta -Sequenzen entsprechen
Iscii
Codepunkt
Original
Charakter
Charakter
mit Nukta
Unicode
Codepunkt
A1 (161) 0950
A6 (166) 090c
A7 (167) 0961
AA (176) 0960
B3 (179) क़ 0958
B4 (180) ख़ 0959
B5 (181) ग़ 095a
BA (186) ज़ 095b
BF (191) ड़ 095c
C0 (192) ढ़ 095d
C9 (201) फ़ 095e
DB (219) ि 0962
DC (220) 0963
DF (223) 0944
EA (234) 093d

Codeseiten für die ISCII -Konvertierung

Um von Unicode (UTF-8) in eine ISCII / ANSI-Codierung umzuwandeln, können die folgenden Codeseiten verwendet werden:

  • 57002: Devanagari (Hindi, Marathi, Sanskrit, Konkani)
  • 57003: Bengali
  • 57004: Tamil
  • 57005: Telugu
  • 57006: Assamesen
  • 57007: Odia
  • 57008: Kannada
  • 57009: Malayalam
  • 57010: Gujarati
  • 57011: Punjabi (Gurmukhi)

Codepunkte für alle Sprachen

Verweise

  1. ^ a b Apfel (2005-04-05) [1998-02-05]. "Karte (externe Version) von Mac OS Devanagari Codierung zu Unicode 2.1 und später". Unicode -Konsortium.

Externe Links