GSM 03.38

Im Mobiltelefonie GSM 03.38 oder 3GPP 23.038 ist ein Zeichenkodierung benutzt in GSM Netzwerke für SMS (Kurzer Nachrichtendienst), CB (Zellenübertragung) und USSD (Unstrukturierte ergänzende Servicedaten). Der 3GPP TS 23.038 Standard (ursprünglich GSM -Empfehlung 03.38) definiert GSM 7-Bit-Standard-Alphabet das ist obligatorisch für GSM -Mobilteile und Netzwerkelemente,[1] Aber der Charaktersatz ist nur für geeignet für Englisch und eine Reihe von westlich-europäischen Sprachen. Sprachen wie Chinesen, Koreanisch oder Japanisch müssen mit dem 16-Bit übertragen werden UCS-2 Zeichenkodierung. Eine begrenzte Anzahl von Sprachen wie Portugiesisch, Spanisch, Türkisch und eine Reihe von Sprachen, die in verwendet werden Indien geschrieben mit a Brahmische Skripte kann 7-Bit-Codierung mit verwenden Nationalsprachverschiebungstabelle definiert in 3GPP 23.038. Zum Binäre NachrichtenEs wird 8-Bit-Codierung verwendet.

GSM 7-Bit-Standard-Alphabet- und Erweiterungstabelle von 3GPP TS 23.038 / GSM 03.38

Die Standardcodierung für GSM-Nachrichten ist das 7-Bit-Standard-Alphabet, wie in der Empfehlung 23.038 definiert.

Sieben-Bit-Zeichen müssen nach einem von drei Verpackungsmodi in Oktetten codiert werden:

  • CBS: Mit dieser Codierung können Sie in einer SMS -Nachricht in einem Mobilfunkdienst bis zu 93 Zeichen (in bis zu 82 Oktetten) in einer SMS -Nachricht senden.
  • SMS: Mit dieser Codierung können Sie in einer SMS -Nachricht im GSM -Netzwerk bis zu 160 Zeichen (in bis zu 140 Oktetten) in einer SMS -Nachricht senden.
  • USSD: Mit dieser Codierung ist es möglich, bis zu 182 Zeichen (verpackt in bis zu 160 Oktetten) in einer SMS -Nachricht unstrukturierter Ergänzungsdaten zu senden.
Grundkennzeichen[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ Sp 0 ¡ P ¿ p
0x01 £ _ ! 1 A Q a q
0x02 $ Φ " 2 B R b r
0x03 ¥ Γ # 3 C S c s
0x04 è Λ ¤ 4 D T d t
0x05 é Ω % 5 E U e u
0x06 ù Π & 6 F V f v
0x07 ì Ψ ' 7 G W g w
0x08 ò Σ ( 8 H X h x
0x09 Ç Θ ) 9 I Y i y
0x0a Lf Ξ * : J Z j z
0x0b Ø ESC + ; K Ä k ä
0x0c ø Æ , < L Ö l ö
0x0d Cr æ - = M Ñ m ñ
0x0e Å ß . > N Ü n ü
0x0f å É / ? O § o à
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Flucht zur Extensionstabelle (Karten zu NBSP).
  • Sp ist ein Weltraumcharakter.
Basis -Charakter -Set -Erweiterung[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03                
0x04   ^            
0x05              
0x06                
0x07                
0x08     {          
0x09     }          
0x0a Ff              
0x0b   SS2            
0x0c       [        
0x0d CR2     ~        
0x0e       ]        
0x0f     \          
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Es ist wichtig (insbesondere wenn eine Nachricht mit Verwendung segmentiert werden soll verkettete SMS Mechanismus), dass Zeichen aus der grundlegenden Charakter -Set -Tabelle ein Septett nehmen, Zeichen aus der grundlegenden Charakter -Set -Erweiterungstabelle zwei Septetten.

Beachten Sie, dass der zweite Teil der Tabelle nur zugänglich ist, wenn das GSM-Gerät den 7-Bit-Erweiterungsmechanismus unter Verwendung des ESC-Zeichenpräfixs unterstützt. Andernfalls wird der ESC -Code selbst als Raum interpretiert, und das folgende Charakter wird so behandelt, als gäbe es keinen führenden ESC -Code.

Der größte Teil des hohen Teils der Tabelle wird im Standard -Zeichensatz nicht verwendet, aber der GSM -Standard definiert einige Sprachcode -Indikatoren, mit denen das System nationale Varianten dieses Teils identifizieren kann, um mehr Zeichen zu unterstützen als die in der obigen Tabelle angezeigten.

In einer Standard-GSM-Textnachricht werden alle Zeichen mit 7-Bit-Code-Einheiten codiert, die zusammengepackt sind, um alle Oktettenbits zu füllen. Also zum Beispiel der 140-Okt-Umschlag von a SMS,[3] ohne andere Sprachanzeige, aber nur das Standardklassenpräfix kann bis zu (140*8)/7 = 160 transportieren, das sind 160 GSM 7-Bit-Zeichen (aber beachten Sie, dass der ESC-Code für eines von ihnen zählt, wenn Zeichen in Der hohe Teil der Tabelle wird verwendet).

Es können längere Nachrichten gesendet werden, erfordern jedoch ein Fortfix und eine Sequenznummer für nachfolgende SMS-Nachrichten (diese Präfix-Bytes und die Sequenznummer werden innerhalb der maximalen Länge der 140-Octet-Nutzlast des Umschlagformats gezählt).

Wenn es 1 bis 6 Ersatzbits im letzten Oktett einer Nachricht gibt, werden diese Bits auf Null gesetzt (diese Bits zählen nicht als Zeichen, sondern nur als Füllstoff). Wenn es im letzten Oktett einer Nachricht 7 Ersatzbits gibt, werden diese Bits auf den 7-Bit-Code der CR-Steuerung (auch als Polsterfüller verwendet) eingestellt, anstatt auf Null eingestellt zu werden (wo sie mit dem verwechselt werden würden 7-Bit-Code eines '@' -Scharakters).

Diese 7-Bit-Codierung ermöglicht den Transport von Texten, die in der grundlegenden lateinischen Untergruppe von ASCII codiert sind, sowie einige Zeichen des ISO-Latein 1-Zeichenssatzes. Es ermöglicht auch die Codierung von Texten, die im griechischen Skript geschrieben wurden, jedoch nur in den Hauptstädten; Für eine solche Verwendung im Griechischen werden die lateinischen Großbuchstaben, die wie die griechischen Buchstaben aussehen, mit demselben Code wiederverwendet werden, so dass der oben genannte Charakter -Set nur für moderne monotonische griechische Griechen abgeschlossen ist, die auf Großbuchstaben beschränkt sind. Eine vollständige Unterstützung für das griechische Alphabet (einschließlich kleiner Buchstaben) erfordert eine nationale Version der verschobenen 7-Bit Verwendung der UCS-2-Codierung (siehe unten).

Beachten Sie, dass der spezielle Code gekennzeichnet ist SS2 In der obigen Tabelle wurde ebenfalls zugewiesen (und als 0x1b, 0x1b codiert), um die Verwendung einer anderen alternativen 7-Bit-Verschiebungstabelle zu ermöglichen. Dieser Mechanismus wurde jedoch nie verwendet und die UCS-2-Codierung wurde bevorzugt.

Beachten Sie, dass das Zeichen 0x09 (Ç, Capital C mit Cedilla) sollte stattdessen durch ersetzt werden ç (klein C mit Cedilla) in der modernen Implementierung, wie von Unicode empfohlen,[4] Da ist die Großbuchstaben von geringem Nutzen.

GSM 8-Bit-Datencodierung

8-Bit-Datencodierungsmodus behandelt die Informationen als Rohdaten. Gemäß dem Standard ist das Alphabet für diese Codierung benutzerspezifisch.

UCS-2-Codierung

Diese Codierung ermöglicht die Verwendung einer größeren Reihe von Zeichen und Sprachen. UCS-2 Kann die am häufigsten verwendeten lateinischen und östlichen Zeichen auf Kosten eines größeren Platzkostens darstellen. Streng genommen ist UCS-2 auf Charaktere in der beschränkt Grundlegende mehrsprachige Ebene. Da moderne Programmierumgebungen jedoch keine Codierer oder Decoder für UCS-2 bereitstellen, einige Mobiltelefone (z. iPhones) verwenden UTF-16 anstelle von ucs-2.[5] Dies funktioniert, da für Zeichen in der grundlegenden mehrsprachigen Ebene (einschließlich der vollständigen Alphabete der meisten modernen menschlichen Sprachen) UCS-2- und UTF-16-Kodierungen identisch sind. Zeichen außerhalb des BMP (in einfacher UCS-2 nicht erreichbar), wie z. Emoji, UTF-16 verwendet Ersatzpaare, was, wenn er mit UCS-2 dekodiert ist Codepunkte.

Eine einzelne SMS -GSM -Nachricht, die diese Codierung verwendet, kann höchstens 70 Zeichen (140 Oktetten) haben.

Beachten Sie, dass bei vielen GSM-Handys keine spezifische Vorauswahl der UCS-2-Codierung vorliegt. Die Standardeinstellung besteht darin, die oben beschriebene 7-Bit-Codierung zu verwenden, bis man in ein Zeichen eintritt, das in der GSM 7-Bit-Tabelle nicht vorhanden ist (zum Beispiel das Kleinbuchstaben 'A' mit akut: 'Á'). In diesem Fall wird die gesamte Meldung mit der UCS-2-Codierung neu eingestellt, und die maximale Länge der in einer einzelnen SMS gesendeten Nachricht wird sofort auf 70 Zeichen anstelle von 160 reduziert. Andere variieren je nach Auswahl und Konfiguration der SMS-Anwendung und die Länge der Nachricht.

Um unerwartete Kosten für Absender zu vermeiden, die ein Abonnement für eine begrenzte Packung gesendeter SMS haben, sollten Bewerbungen[Nach wem?] Zeigen Sie die Anzahl der verwendeten Zeichen und die maximale Anzahl von Zeichen in den komponierten SMS an. Wenn eine Nachricht dieses Maximum überschreitet, wird die Nachricht[Klarstellung erforderlich] Als mehrere aufeinanderfolgende SMS mit Teilen der Nachricht gesendet werden (jeweils eine Sequenznummer, die auch einige führende Zeichen in jedem Teil verwendet); Diese Teile sollen später vom Empfänger wieder zusammengestellt werden.

Einige Anwendungen alarmieren den Benutzer, wenn eine Nachricht aufgeteilt werden muss, oder sendet sogar eine längere Nachricht als a Multimedia -Nachricht (MMS).

Nationalsprachschichttabellen

Seit Release 8 der 3GPP 23.038 Standard im März 2008, auf zusätzliche Zeichensets können mithilfe einer Nationalsprachverschiebungstabellen zugegriffen werden.

Diese Tabellen ermöglichen die Verwendung verschiedener Zeichensätze nach der Sprache, die der Text geschrieben wird. Die Auswahl der Tabelle für eine bestimmte Nachricht wird in der ausgewählt Benutzerdatenheader Abschnitt einer SMS -Nachricht und kann für den gesamten Text (a) angegeben werden Sperren Verschiebungstabelle ersetzt die Standard-GSM 7-Bit-Standard-Alphabet-Tabelle) oder ein einzelnes Zeichen (ein einzelnes Zeichen (Single Verschiebungstabelle ersetzt die GSM 7-Bit-Standard-Alphabet-Erweiterungstabelle). Sperren und Single Schalttabellen in derselben Nachricht sind möglich, wenn sowohl Standard -Standard -Alphabet -Tabelle als auch Standard -Alphabet -Erweiterungstabelle ersetzt werden sollen.

Mit einer Verschiebungstabelle kann eine Nachricht weiterhin 7-Bit-Codierung für die Zeichen verwenden, aber ein anderer Satz kann ausgewählt werden, um akzentuierte und sprachspezifische Zeichen korrekt anzuzeigen. Dies ermöglicht bis zu 155 Zeichen, codiert in 136 Oktetten (140 Oktetten, abzüglich der 4-Oktette von Benutzerdatenheader erforderlich, um die Verwendung einer Verschiebungstabelle und des Sprachcodes anzugeben). Mit beiden Sperren und Single Schichttische, bis zu 152 Zeichen sind erlaubt, in 133 Oktetten (140 Oktetten, minus 7-Oktetten Benutzerdatenheader).

Zeichen aus jeder Verriegelungsverschiebungstabelle nehmen ein Septett auf, Zeichen aus der Einzelverschiebungstabelle (oder grundlegender Zeichensatzerweiterungstabelle) zwei Septette.

Zunächst wurden Schalttische nur für Türkisch angegeben; Spanisch und Portugiesisch wurden in späteren Überarbeitungen von Release 8 hinzugefügt. Release 9 Einführte 10 Sprachen, die in Indien verwendet wurden, geschrieben mit a Brahmische Skripte (Bengali, Gujarati, Hindi, Kannada, Malayalam, Oriya, Punjabi, Tamil, Telugu) und Urdu.

Es gibt immer noch keinen definierten Nationalsprachverschiebungstabelle für französische, griechische, russische, bulgarische, arabische, hebräische und die meisten mitteleuropäischen Sprachen, die eine bessere Berichterstattung benötigen als der Standard-7-Bit-Standard-Charakter-Set und der Standard-7-Bit-Erweiterungsfigur: Wenn jemals ein Zeichen komponiert wird, der in diesen Standard-GSM-7-Bit-Sets nicht dargestellt werden kann Zum Preis einer einzelnen SMS (wenn eine Nachricht in mehreren Teilen aufgeteilt wird, werden einige andere Oktetten in der benötigt Benutzerdatenheader um die Sequenznummer jedes Teils anzuzeigen).

Obwohl eine Überarbeitung von GSM 03.38 (bereits in Version 4.0.1 von September 1994) Datencodierungsschema -Werte für definiert hat Zellenübertragung System (CBS) für Deutsch, Englisch, Italienisch, Französisch, Spanisch, Niederländisch, Schwedisch, Dänisch, Finnisch, Norwegisch, Griechisch und türkisch; Mit ungarischem, polnischem, tschechischem, hebräischen, arabischen, russischen und isländischen in späteren Überarbeitungen hinzugefügten Codierungstabellen wurden für diese Sprachen keine Codierungstabellen definiert. Der Zweck dieses Feldes bestand nur darin, die Sprache der Nachricht zu identifizieren.

Es gibt auch keinen Sprachverschiebungstabelle für Japaner, der in Basic Kanas geschrieben ist, oder für Koreaner in Hangul Jamos oder für Chinesen, die im Han -Drehbuch geschrieben wurden. Dies ist in Japan oft kein Problem, da es andere Standards als GSM und WAP für Nachrichten verwendet. Die beiden anderen Sprachen haben auch zu viele unterschiedliche Zeichen, um in eine 7-Bit-Verschiebungstabelle zu passen.

Spanische Sprache (lateinisches Drehbuch)

Für die spanische Sprache gibt es keinen spezifischen Verschiebungsschichtcharakter. Verwendet den Standard -Basic -Zeichensatz.

Grundkennzeichen
standardmäßig
(Kein für Spanisch definierter Verschiebungstabelle)[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ Sp 0 ¡ P ¿ p
0x01 £ _ ! 1 A Q a q
0x02 $ Φ " 2 B R b r
0x03 ¥ Γ # 3 C S c s
0x04 è Λ ¤ 4 D T d t
0x05 é Ω % 5 E U e u
0x06 ù Π & 6 F V f v
0x07 ì Ψ ' 7 G W g w
0x08 ò Σ ( 8 H X h x
0x09 Ç Θ ) 9 I Y i y
0x0a Lf Ξ * : J Z j z
0x0b Ø ESC + ; K Ä k ä
0x0c ø Æ , < L Ö l ö
0x0d Cr æ - = M Ñ m ñ
0x0e Å ß . > N Ü n ü
0x0f å É / ? O § o à
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
für spanische Sprache
Udh Enthält 0x24 0x01 0x02[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01         Á   á  
0x02                
0x03                
0x04   ^            
0x05           Ú ú
0x06                
0x07                
0x08     {          
0x09 ç   }   Í   í  
0x0a Ff              
0x0b   SS2            
0x0c       [        
0x0d CR2     ~        
0x0e       ]        
0x0f     \   Ó   ó  
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Portugiesische Sprache (lateinisches Skript)

Verriegelungsschiebungscharakter -Set sperren
Für die portugiesische Sprache
Udh Enthält 0x25 0x01 0x03[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ Sp 0 Í P ~ p
0x01 £ _ ! 1 A Q a q
0x02 $ ª " 2 B R b r
0x03 ¥ Ç # 3 C S c s
0x04 ê À º 4 D T d t
0x05 é % 5 E U e u
0x06 ú ^ & 6 F V f v
0x07 í \ ' 7 G W g w
0x08 ó ( 8 H X h x
0x09 ç Ó ) 9 I Y i y
0x0a Lf | * : J Z j z
0x0b Ô ESC + ; K Ã k ã
0x0c ô Â , < L Õ l õ
0x0d Cr â - = M Ú m `
0x0e Á Ê . > N Ü n ü
0x0f á É / ? O § o à
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für die portugiesische Sprache
Udh Enthält 0x24 0x01 0x03[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01         À   Â  
0x02   Φ            
0x03   Γ            
0x04   ^            
0x05 ê Ω       Ú ú
0x06   Π            
0x07   Ψ            
0x08   Σ {          
0x09 ç Θ }   Í   í  
0x0a Ff              
0x0b Ô SS2       Ã   ã
0x0c ô     [   Õ   õ
0x0d CR2     ~        
0x0e Á     ]        
0x0f á Ê \   Ó   ó â
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Türkische Sprache (lateinisches Skript)

Verriegelungsschiebungscharakter -Set sperren
Für die türkische Sprache
Udh Enthält 0x25 0x01 0x01[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ Sp 0 İ P ç p
0x01 £ _ ! 1 A Q a q
0x02 $ Φ " 2 B R b r
0x03 ¥ Γ # 3 C S c s
0x04 Λ ¤ 4 D T d t
0x05 é Ω % 5 E U e u
0x06 ù Π & 6 F V f v
0x07 ı Ψ ' 7 G W g w
0x08 ò Σ ( 8 H X h x
0x09 Ç Θ ) 9 I Y i y
0x0a Lf Ξ * : J Z j z
0x0b Ğ ESC + ; K Ä k ä
0x0c ğ Ş , < L Ö l ö
0x0d Cr ş - = M Ñ m ñ
0x0e Å ß . > N Ü n ü
0x0f å É / ? O § o à
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für die türkische Sprache
Udh Enthält 0x24 0x01 0x01[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03           Ş ç ş
0x04   ^            
0x05              
0x06                
0x07         Ğ   ğ  
0x08     {          
0x09     }   İ   ı  
0x0a Ff              
0x0b   SS2            
0x0c       [        
0x0d CR2     ~        
0x0e       ]        
0x0f     \          
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Urdu -Sprache (arabische und grundlegende lateinische Skripte)

Es kann auch für die verwendet werden Sindhi Sprache auch in der arabischen Skript geschrieben.

Manchmal kann es für verwendet werden arabische Sprache Auch die östlichen Ziffern (hier in ihrer persisch-hindu-Variante codiert) werden in diesem Fall nicht verwendet, da Standard-Arabisch seine traditionellen ostarabischen Ziffern bevorzugen und häufig durch westliche Arabische Ziffern ersetzt werden (codiert in der Verriegelungsverschiebung Zeichen in Spalte 0x30), die jetzt auch häufig in Urdu verwendet werden. In Indien können Telefone, die die arabische Sprachanzeige anerkennen, jedoch die persisch-hinduistischen Varianten der östlichen Arabischen Ziffern durch die traditionellen ostarabischen Ziffern ersetzen.

Verriegelungsschiebungscharakter -Set sperren
Für Urdu -Sprache
Udh Enthält 0x25 0x01 0x0d[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ا ث Sp 0 ص ں ◌ٔ p
0x01 آ ج ! 1 ض ڻ a q
0x02 ب ځ ڏ 2 ط ڼ b r
0x03 ٻ ڄ ڍ 3 ظ و c s
0x04 ڀ ڃ ذ 4 ع ۄ d t
0x05 پ څ ر 5 ف ە e u
0x06 ڦ چ ڑ 6 ق ہ f v
0x07 ت ڇ ړ 7 ک ھ g w
0x08 ۂ ح ) 8 ڪ ء h x
0x09 ٿ خ ( 9 ګ ی i y
0x0a Lf د ڙ : گ ې j z
0x0b ٹ ESC ز ; ڳ ے k ◌ٕ
0x0c ٽ ڌ , ښ ڱ ◌ٍ l ◌ّ
0x0d Cr ڈ ږ س ل ◌ِ m ◌ٓ
0x0e ٺ ډ . ش م ◌ُ n ◌ٖ
0x0f ټ ڊ ژ ? ن ◌ٗ o ◌ٰ
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für Urdu -Sprache
Udh Enthält 0x24 0x01 0x0d[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < ۴ ◌ؓ | P    
0x01 £ = ۵ ◌ؔ A Q    
0x02 $ > ۶ ؛ B R    
0x03 ¥ ¡ ۷ ؟ C S    
0x04 ¿ ^ ۸ ـ D T    
0x05 " ¡ ۹ ◌ْ E U  
0x06 ¤ _ ، ◌٘ F V    
0x07 % # ؍ ٫ G W    
0x08 & * { ٬ H X    
0x09 ' ؀ } ٲ I Y    
0x0a Ff ؁ ؎ ٳ J Z    
0x0b * SS2 ؏ ۍ K      
0x0c + ۰ ◌ؐ [ L      
0x0d CR2 ۱ ◌ؑ ~ M      
0x0e - ۲ ◌ؒ ] N      
0x0f / ۳ \ ۔ O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Hindi -Sprache (Devanagari und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
für Hindi -Sprache
Udh Enthält 0x25 0x01 0x06[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ँ Sp 0 ◌ा p
0x01 ◌ं ! 1 ◌ि a q
0x02 ◌ः 2 ◌ी b r
0x03 3 ◌ु c s
0x04 4 ◌ू d t
0x05 5 ◌ृ e u
0x06 6 ◌ॄ f v
0x07 7 ◌ॅ g w
0x08 ) 8 ◌ॆ h x
0x09 ( 9 ◌े i y
0x0a Lf : ◌ै j z
0x0b ESC ; ◌ॉ k
0x0c , ◌ॊ l
0x0d Cr ◌ो m
0x0e . ◌़ ◌ौ n
0x0f ? ◌् o ॿ
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
für Hindi -Sprache
Udh Enthält 0x24 0x01 0x06[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < ज़ | P    
0x01 £ = ड़ A Q    
0x02 $ > ढ़ B R    
0x03 ¥ ¡ फ़ C S    
0x04 ¿ ^ य़ D T    
0x05 " ¡ E U  
0x06 ¤ _ ◌॑ F V    
0x07 % # ◌॒ ◌ॢ G W    
0x08 & * { ◌ॣ H X    
0x09 ' } I Y    
0x0a Ff ◌॓ J Z    
0x0b * SS2 ◌॔   K      
0x0c + क़ [ L      
0x0d CR2 ख़ ~ M      
0x0e - ग़ ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Bengali und assamesische Sprachen (Bengali und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
für bengalische und assamesische Sprachen
Udh Enthält 0x25 0x01 0x04[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ঁ Sp 0 ◌ব p
0x01 ◌ং   ! 1 ◌ি a q
0x02 ◌ঃ   2 ◌ী b r
0x03 3 ◌ু c s
0x04 4 ◌ূ d t
0x05 5   ◌ৃ e u
0x06 6 ◌ৄ f v
0x07 7     g w
0x08 ) 8     h x
0x09 ( 9   ◌ে i y
0x0a Lf : ◌ৈ j z
0x0b ESC ;   k ◌ৗ
0x0c   ,     l ড়
0x0d Cr ◌ো m ঢ়
0x0e   . ◌় ◌ৌ n
0x0f ? ◌্ o
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
für bengalische und assamesische Sprachen
Udh Enthält 0x24 0x01 0x04[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | P    
0x01 £ = A Q    
0x02 $ > B R    
0x03 ¥ ¡ C S    
0x04 ¿ ^ য় D T    
0x05 " ¡   E U  
0x06 ¤ _   F V    
0x07 % # ◌ৢ   G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff ◌ৣ   J Z    
0x0b * SS2   K      
0x0c + [ L      
0x0d CR2 ~ M      
0x0e - ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Punjabi -Sprache (Gurmukhī und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
Für Punjabi -Sprache
Udh Enthält 0x25 0x01 0x0a[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ਁ Sp 0 ◌ਾ ◌ੑ p
0x01 ◌ਂ   ! 1 ◌ਿ a q
0x02 ◌ਃ   2 ◌ੀ b r
0x03 3 ◌ੁ c s
0x04 4 ◌ੂ d t
0x05 5     e u
0x06 6   f v
0x07 7 ਲ਼   g w
0x08 ) 8     h x
0x09   ( 9 ◌ੇ i y
0x0a Lf : ਸ਼ ◌ੈ j z
0x0b   ESC ;     k ◌ੰ
0x0c   ,     l ◌ੱ
0x0d Cr ◌ੋ m
0x0e   . ◌਼ ◌ੌ n
0x0f ?   ◌੍ o
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für Punjabi -Sprache
Udh Enthält 0x24 0x01 0x0a[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | P    
0x01 £ =   A Q    
0x02 $ >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   E U  
0x06 ¤ _ ਖ਼   F V    
0x07 % # ਗ਼   G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff ਜ਼   J Z    
0x0b * SS2   K      
0x0c + ਫ਼ [ L      
0x0d CR2 ◌ੵ ~ M      
0x0e -   ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Gujarati Sprache (Gujarati und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
Für Gujarati -Sprache
Udh Enthält 0x25 0x01 0x05[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ઁ Sp 0 ◌ા p
0x01 ◌ં ! 1 ◌િ a q
0x02 ◌ઃ   2 ◌ી b r
0x03 3 ◌ુ c s
0x04 4 ◌ૂ d t
0x05 5   ◌ૃ e u
0x06 6 ◌ૄ f v
0x07 7 ◌ૅ g w
0x08 ) 8     h x
0x09 ( 9 ◌ે i y
0x0a Lf : ◌ૈ j z
0x0b ESC ; ◌ૉ k
0x0c ,     l
0x0d Cr ◌ો m ◌ૢ
0x0e   . ◌઼ ◌ૌ n ◌ૣ
0x0f ? ◌્ o
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für Gujarati -Sprache
Udh Enthält 0x24 0x01 0x05[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | P    
0x01 £ =   A Q    
0x02 $ >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   E U  
0x06 ¤ _     F V    
0x07 % #     G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff     J Z    
0x0b * SS2     K      
0x0c +   [ L      
0x0d CR2   ~ M      
0x0e -   ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Oriya Sprache (Oriya und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
Für Oriya -Sprache
Udh Enthält 0x25 0x01 0x09[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ଁ Sp 0 ◌ା ◌ୖ p
0x01 ◌ଂ   ! 1 ◌ି a q
0x02 ◌ଃ   2 ◌ୀ b r
0x03 3 ◌ୁ c s
0x04 4 ◌ୂ d t
0x05 5   ◌ୃ e u
0x06 6 f v
0x07 7   g w
0x08 ) 8     h x
0x09 ( 9 ◌େ i y
0x0a Lf : ◌ୈ j z
0x0b ESC ;   k ◌ୗ
0x0c   ,     l
0x0d Cr ◌ୋ m
0x0e   . ◌଼ ◌ୌ n ◌ୢ
0x0f ? ◌୍ o ◌ୣ
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für Oriya -Sprache
Udh Enthält 0x24 0x01 0x09[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | P    
0x01 £ =   A Q    
0x02 $ >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   E U  
0x06 ¤ _ ଡ଼   F V    
0x07 % # ଢ଼   G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff   J Z    
0x0b * SS2   K      
0x0c + [ L      
0x0d CR2   ~ M      
0x0e -   ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Tamilische Sprache (tamilische und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
für tamilische Sprache
Udh Enthält 0x25 0x01 0x0b[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00   Sp 0   ◌ா p
0x01 ◌ஂ   ! 1   ◌ி a q
0x02 ◌ஃ 2 ◌ீ b r
0x03   3 ◌ு c s
0x04   4 ◌ூ d t
0x05   5   e u
0x06   6   f v
0x07   7   g w
0x08   ) 8 ◌ெ h x
0x09   ( 9 ◌ே i y
0x0a Lf   : ◌ை j z
0x0b   ESC   ;   k ◌ௗ
0x0c     , ◌ொ l
0x0d Cr   ◌ோ m
0x0e   .     ◌ௌ n
0x0f ?   ◌் o
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
für tamilische Sprache
Udh Enthält 0x24 0x01 0x0b[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | P    
0x01 £ =   A Q    
0x02 $ >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   E U  
0x06 ¤ _   F V    
0x07 % #   G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff   J Z    
0x0b * SS2   K      
0x0c + [ L      
0x0d CR2 ~ M      
0x0e - ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Telugu -Sprache (Telugu und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
Für Telugu -Sprache
Udh Enthält 0x25 0x01 0x0c[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ఁ Sp 0 ◌ా ◌ౕ p
0x01 ◌ం   ! 1 ◌ి a q
0x02 ◌ః 2 ◌ీ b r
0x03 3 ◌ు c s
0x04 4 ◌ూ d t
0x05 5 ◌ృ e u
0x06 6 ◌ౄ f v
0x07 7   g w
0x08 ) 8   ◌ె h x
0x09 ( 9 ◌ే i y
0x0a Lf : ◌ై j z
0x0b ESC ;   k ◌ౖ
0x0c   ,   ◌ొ l
0x0d Cr ◌ో m
0x0e .   ◌ౌ n ◌ౢ
0x0f ? ◌్ o ◌ౣ
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für Telugu -Sprache
Udh Enthält 0x24 0x01 0x0c[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | P    
0x01 £ = A Q    
0x02 $ > ౿ B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   E U    
0x06 ¤ _   F V    
0x07 % #   G W    
0x08 & * {   H X    
0x09 '   }   I Y    
0x0a Ff     J Z    
0x0b * SS2   K      
0x0c + [ L      
0x0d CR2 ~ M      
0x0e - ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Kannada Sprache (Kannada und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
für Kannada Sprache
Udh Enthält 0x25 0x01 0x07[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!
0x00   Sp 0 p
0x01   ! 1 ಿ a q
0x02 2 b r
0x03 3 c s
0x04 4 d t
0x05 5 e u
0x06 6 f v
0x07 7   g w
0x08 ) 8   h x
0x09 ( 9 i y
0x0a Lf : j z
0x0b ESC ;   k
0x0c   ,   l
0x0d Cr m
0x0e . n
0x0f ? o
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
für Kannada Sprache
Udh Enthält 0x24 0x01 0x07[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!
0x00 @ <   | P    
0x01 £ =   A Q    
0x02 $ >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   E U  
0x06 ¤ _   F V    
0x07 % #   G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff   J Z    
0x0b * SS2     K      
0x0c +   ] L      
0x0d CR2   ~ M      
0x0e -   ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Malayalam Sprache (Malayalam und grundlegende lateinische Skripte)

Verriegelungsschiebungscharakter -Set sperren
Für Malayalam -Sprache
Udh Enthält 0x25 0x01 0x08[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!
0x00   Sp 0 p
0x01   ! 1 ി a q
0x02 2 b r
0x03 3 c s
0x04 4 d t
0x05 5 e u
0x06 6 f v
0x07 7   g w
0x08 ) 8 h x
0x09 ( 9 i y
0x0a Lf : j z
0x0b ESC ;   k
0x0c   ,   l
0x0d Cr m
0x0e .   n
0x0f ? o
  • Lf ist eine Linien -Feed -Steuerung.
  • Cr ist eine Wagenrückgabekontrolle oder Füllstoff.
  • ESC ist eine Fluchtkontrolle.
  • Sp ist ein Weltraumcharakter.
Einzelschicht -Zeichenset
Für Malayalam -Sprache
Udh Enthält 0x25 0x01 0x08[2]
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!
0x00 @ < - P    
0x01 £ = A Q    
0x02 $ > B R    
0x03 ¥ ¡ C S    
0x04 ¿ ^ ൿ D T    
0x05 " ¡   E U  
0x06 ¤ _   F V    
0x07 % #   G W    
0x08 & * {   H X    
0x09 ' }   I Y    
0x0a Ff   J Z    
0x0b * SS2   K      
0x0c + [ L      
0x0d CR2 ~ M      
0x0e - ] N      
0x0f / \   O      
  • Ff ist eine Seite Break Control. Wenn es nicht erkannt wird, wird es so behandelt wie Lf.
  • CR2 ist ein Kontrollcharakter. An dieser Position darf kein sprachspezifischer Charakter codiert werden.
  • SS2 ist eine zweite Einschalt -Fluchtkontrolle, die für zukünftige Erweiterungen vorbehalten ist.

Siehe auch

Verweise

  1. ^ 3GPP TS 23.038, Alphabete und sprachspezifische Informationen.
  2. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab Alphabete und sprachspezifische Informationen (3G TS 23.038 Version 12.0.0) (Reißverschluss .DOC -Datei), ETSI, September 2014.
  3. ^ "Die Textnachrichten [...] enthalten bis zu 140 Oktetten." in 3GPP TS 23.040 Technische Realisierung des Kurznachrichtendienstes (SMS)
  4. ^ GSM 03.38 bis Unicode GSM 03.38 bis Unicode
  5. ^ Chad Selph (2012-11-08). "Abenteuer in Unicode SMS". Dämmerung. Archiviert von das Original Am 2015-09-08. Abgerufen 2015-08-28.

Externe Links