Unicode -Charaktereigenschaft
Das Unicode Standard weist jedem Unicode -Zeichen verschiedene Eigenschaften zu und Codepunkt.[1][2]
Die Eigenschaften können verwendet werden, um Zeichen (Codepunkte) in Prozessen zu verarbeiten, z. Einige "Zeicheneigenschaften" sind auch für Codepunkte definiert, die kein Zeichen zugewiesen haben, und Codepunkte, die wie "<nicht ein Zeichen>" gekennzeichnet sind. Die Zeicheneigenschaften sind in Standard -Anhang Nr. 44 beschrieben.[2]
Die Eigenschaften haben Ausmaß an Kraft: normativ, informativ, beitragend oder vorläufig. Zur Einfachheit der Spezifikation kann eine Zeicheneigenschaft zugewiesen werden, indem ein kontinuierlicher Bereich von Codepunkten mit derselben Eigenschaft angegeben wird.
Semantische Elemente
Eigenschaften werden angezeigt [3] in der folgenden Reihenfolge:
[Code]; [Name]; [GC]; [CC]; [BC]; [Zersetzung] ;;;; [nv]; [bm]; [alias] ;;;;
- 'alias' = korrigierter Name
- 'bc' = bidi (bidirektionale) Kategorie [l, r usw.]
- 'bm' = bidi spiegelte [n oder y]
- 'cc' = kombinierende Klasse [Position der Diakritikum]
- Zersetzung = Buchstabe + diakritisch, Ligatur x y, Superskript X, Schrift X, Anfangs x, medial x, endgültig x, isoliert x, vertikal x usw.
- 'GC' = Allgemeine Kategorie [Buchstabe, Symbol, Ziffer, Interpunktion, Fallverhalten usw.]
- 'nv' = numerischer Wert [einer Ziffer]
Name
Ein Unicode -Zeichen wird einem eindeutigen zugewiesen Name (n / A).[1] Der Name besteht aus Großbuchstaben A-Z, Ziffern 0–9, Hyphen-Minus (-) und Space (). Einige Sequenzen sind ausgeschlossen: Namen, die mit einem Raum oder bei einem Bindestrich beginnen, Namen, die mit einem Raum oder einem Bindestrich enden, wiederholte Räume oder Bindestriche und Raum nach Bindestrich sind nicht zulässig. Der Name ist garantiert in Unicode eindeutig und kann verwendet werden, um einen Codepunkt und sein Zeichen zu identifizieren. Ideografische Charaktere, von denen es Zehntausende gibt, werden im Muster benannt. "CJK Unified Ideograph-HHHH". Zum Beispiel, U+4e00 一 CJK Unified ideograph-4e00. Formatierende Zeichen werden auch benannt: U+00A0 No-Break-Raum.
Die folgenden Klassen von Codepunkten haben keinen Namen (Na = ""): Kontrollen (allgemeine Kategorie: CC), private Verwendung (CO), Ersatz (CS), Nichtcharakterien (CN) und Reserved (CN). Sie können informell durch einen generischen oder spezifischen Meta-Namen mit dem Namen "Code Point Labels" bezeichnet werden: <Rontroll>, <Rontroll-0088>, <reserved>, <nonaracter-HHHH>, <privat eingebraucht-HHHH> oder <Surerogate>. Da diese Etiketten <>-Klammern enthalten, können sie niemals als Name erscheinen, was Verwirrung verhindert.
Version 1.0 Namen
In Version 2.0 von Unicode wurden viele Namen geändert. Von da an trat die Regel "Ein Name wird sich nie ändern" in Kraft, einschließlich der strengen (normativen) Verwendung von Alias -Namen. Die nicht verwendeten Version 1.0-Names wurden in den Alias der Eigenschaft verschoben, um eine gewisse Abwärtskompatibilität zu gewährleisten.
Charaktername alias
Ab der Unicode Version 2.0 wird sich der veröffentlichte Name für einen Codepunkt nie ändern. Daher, wenn ein Charaktername falsch geschrieben wird oder wenn der Charaktername völlig falsch oder ernsthaft irreführend ist, eine formelle Charaktername alias kann dem Zeichen zugeordnet werden, und dieser Alias kann von Anwendungen anstelle des tatsächlichen defekten Zeichennamens verwendet werden.[1] Zum Beispiel, U+Fe18 ︘ Präsentationsform für vertikale rechte weiße linsenförmige Braket Hat der Charaktername alias "Präsentationsformular für vertikale rechte weiße Linsenklasse", um die Rechtschreibfehler von "Klammer" als "Brakcet" im tatsächlichen Charakternamen zu mildern. U+A015 ꀕ Yi Silbe Wu Hat der Charaktername alias "Yi Silben -Iterationsmarke", weil er im Gegensatz zum Charakternamen keinen festen Silbenwert hat.
Zusätzlich zu den Aliase des Zeichennamens, die Korrekturen für defekte Zeichennamen sind, werden einige Zeichen Aliase zugewiesen, die alternative Namen oder Abkürzungen sind. Fünf Arten von Charakternamen -Aliase sind im Unicode -Standard definiert:
- Korrektur: Korrekturen für falsch geschriebene oder ernsthaft falsche Zeichennamen;
- Kontrolle: ISO 6429 Namen für C0- und C1 -Kontrollfunktionen (denen im Unicode -Standard nicht zugewiesen wird);
- Alternative: Alternative Namen für einige Formatzeichen (nur U+Feff "Null Breite No-Break-Raum", der die alias-Byte-Ordnung markierte ");
- Figment: Dokumentierte Beschriftungen für einige C1 -Kontrollcodefunktionen, die in keiner Standard tatsächliche Namen sind;
- Abkürzung: Abkürzungen oder Akronyme für Kontrollcodes, Formatzeichen, Räume und Variationswählern.
Alle formalen Charakternamen -Aliase folgen den Regeln für zulässige Charakternamen und sind garantiert sowohl im Alias des Charakters Namen als auch in den Charakternamennamen garantiert (aus diesem Grund ist der iSO 6429 -Name "Bell" nicht als Alias für u definiert +0007, weil u+1f514 "Bell" heißt).[1]
Ab UNICODE Version 12.1 werden Aliase mit achtundzwanzig formalen Zeichen als Korrekturen für defekte Zeichennamen definiert.[4] Diese sind aufgeführt unter.
Abgesehen von diesen normativen Namen,, informelle Namen kann in den Unicode -Code -Diagrammen angezeigt werden. Dies sind andere häufig verwendete Namen für ein Zeichen und haben nicht die gleiche Zeichenbeschränkung. Diese informellen Namen sind nicht garantiert eindeutig und können in späteren Versionen des Standards geändert oder entfernt werden.
Allgemeine Kategorie
Jedem Codepunkt wird ein Wert für die allgemeine Kategorie zugewiesen. Dies ist eine der Zeicheneigenschaften, die auch für nicht zugewiesene Codepunkte und Codepunkte definiert sind, die "nicht ein Zeichen" definiert sind.
Allgemeine Kategorie (Unicode Charaktereigenschaft)[a] | |||||
---|---|---|---|---|---|
Wert | Kategorie Major, Moll | Grundtyp[b] | Zeichen zugewiesen[b] | Zählen[c] (ab 14.0) | Bemerkungen |
L, Brief; LC, Cased Letter (Nur Lu, LL und LT)[d] | |||||
Lu | Brief, Großbuchstaben | Grafik | Charakter | 1.831 | |
Ll | Brief, Kleinbuchstaben | Grafik | Charakter | 2,227 | |
Lt | Brief, Titlecase | Grafik | Charakter | 31 | Ligaturen In Großbuchstaben enthält, gefolgt von Kleinbuchstaben (z. B.,, Dž, Lj, Nj, und Dz)) |
Lm | Brief, Modifikator | Grafik | Charakter | 334 | A Modifikator Brief |
LO | Brief, andere | Grafik | Charakter | 127.333 | Ein Ideograf oder ein Brief in a Unicase Alphabet |
M, Markieren | |||||
Mn | Mark, nicht spalt | Grafik | Charakter | 1.950 | |
MC | Mark, Abstand kombiniert | Grafik | Charakter | 445 | |
Mir | Mark, umgeben | Grafik | Charakter | 13 | |
N, Nummer | |||||
Nd | Nummer, Dezimalstelligkeit | Grafik | Charakter | 660 | All diese und nur diese haben Numerischer Typ = De[e] |
Nl | Nummer, Brief | Grafik | Charakter | 236 | Ziffern aus Buchstaben oder Buchstaben wie Symbolen (z. B.,, römische Zahlen)) |
Nein | Nummer, andere | Grafik | Charakter | 895 | Z.B., vulgäre Brüche, Superscript und Index Ziffern |
P, Zeichensetzung | |||||
PC | Interpunktion, Stecker | Grafik | Charakter | 10 | Enthält "_" unterstreichen |
PD | Interpunktion, Dash | Grafik | Charakter | 26 | Enthält mehrere Bindestrich Figuren |
Ps | Interpunktion, offen | Grafik | Charakter | 79 | Öffnung Klammer Figuren |
Sport | Interpunktion, schließen | Grafik | Charakter | 77 | Schließen von Halterungen |
Pi | Interpunktion, Erstes Zitat | Grafik | Charakter | 12 | Öffnung Anführungszeichen. Enthält nicht die ASCII -Zitatmarke "neutral". Kann sich je nach Verwendung wie PS oder PE verhalten |
Pf | Interpunktion, endgültiges Zitat | Grafik | Charakter | 10 | Schließungszitatsmarke. Kann sich je nach Verwendung wie PS oder PE verhalten |
Po | Interpunktion, andere | Grafik | Charakter | 605 | |
S, Symbol | |||||
Sm | Symbol, Mathematik | Grafik | Charakter | 948 | Mathematische Symbole (z.B., +, −, =, ×, ÷, √, ∊, ≠). Enthält keine Klammern und Klammern, die sich in Kategorien ps und pe befinden. Schließt auch nicht ein !, *, -, oder /, die trotz häufiger Verwendung als mathematische Operatoren in erster Linie als "Interpunktion" angesehen werden. |
Sc | Symbol, Währung | Grafik | Charakter | 63 | Währungssymbole |
SK | Symbol, Modifikator | Grafik | Charakter | 125 | |
So | Symbol, andere | Grafik | Charakter | 6,605 | |
Z, Separator | |||||
Zs | Trennzeichen, Raum | Grafik | Charakter | 17 | Schließt den Raum ein, aber nicht TAB, Cr, oder Lf, die CC sind |
Zl | Trennzeichen, Linie | Format | Charakter | 1 | Nur U+2028 Zeilenabscheider (LSEP) |
ZP | Trennzeichen, Absatz | Format | Charakter | 1 | Nur U+2029 Absatzabscheider (PSEP) |
C, Sonstiges | |||||
CC | Andere, Kontrolle | Kontrolle | Charakter | 65 (wird sich nie ändern)[e] | Kein Name,[f] |
Vgl | Andere Format | Format | Charakter | 163 | Includes the weicher Bindestrich, Verbinden von Kontrollfiguren (Zwnj und Zwj), kontrollieren Zeichen zur Unterstützung bidirektionaler Text, und Sprachetikett Figuren |
CS | Andere, Ersatz | Surrogat | Nicht (nur verwendet in UTF-16)) | 2.048 (wird sich nie ändern)[e] | Kein Name,[f] |
CO | Andere, private Verwendung | Privater Gebrauch | Charakter (aber keine Interpretation angegeben) | 137.468 insgesamt (wird sich nie ändern)[e] (6.400 in Bmp, 131.068 in Flugzeuge 15–16) | Kein Name,[f] |
CN | Andere, nicht zugewiesen | Nichtcharakter | Nicht | 66 (wird sich nie ändern)[e] | Kein Name,[f] |
Reserviert | Nicht | 829.768 | Kein Name,[f] | ||
|
Interpunktion
Zeichen haben separate Eigenschaften, um zu bezeichnen, dass sie a sind Interpunktion Charakter. Die Eigenschaften haben alle a Ja/Nein -Werte: Bindestrich, Anführungszeichen, Satz_terminal, Terminal_punctuation.
Whitespace
Whitespace ist ein häufig verwendetes Konzept für einen typografischen Effekt. Grundsätzlich deckt es unsichtbare Zeichen ab, die einen Abstandseffekt im gerenderten Text haben. Es enthält Räume, Registerkarten und neue Leitungsformatierungssteuerungen. In Unicode hat ein solches Zeichen die Eigenschaft "wSpace = yes". In Version 14.0 gibt es 25 Whitespace -Zeichen.
Name | Codepunkt | Breitenbox | Kann brechen? | Im Idn? | Skript | Block | Allgemein Kategorie | Anmerkungen | |
---|---|---|---|---|---|---|---|---|---|
Charakter Tabelle | U+0009 | 9 | Ja | Nein | Verbreitet | Grundlatein | Sonstiges, Kontrolle | HT, Horizontale Registerkarte. HTML/XML genannte Entität: 	 , Latex: '\ tab', c Escape: '\ T' | |
Zeilenvorschub | U+000A | 10 | Ist ein Zeilenaufbruch | Verbreitet | Grundlatein | Sonstiges, Kontrolle | Lf, Zeilenvorschub. HTML/XML namens Entity: &Neue Zeile; , C Escape: '\ n' | ||
Zeilentabelle | U+000B | 11 | Ist ein Zeilenaufbruch | Verbreitet | Grundlatein | Sonstiges, Kontrolle | VT, Vertikale Registerkarte. C Escape: '\ V' | ||
Formfutter | U+000C | 12 | Ist ein Zeilenaufbruch | Verbreitet | Grundlatein | Sonstiges, Kontrolle | Ff, Formfutter. C Escape: '\ f' | ||
Kutschenrückkehr | U+000D | 13 | Ist ein Zeilenaufbruch | Verbreitet | Grundlatein | Sonstiges, Kontrolle | CR, CR, Kutschenrückkehr. C Escape: '\ r' | ||
Platz | U+0020 | 32 | Ja | Nein | Verbreitet | Grundlatein | Separator, Platz | Am häufigsten (normaler ASCII -Raum) | |
nächste Zeile | U+0085 | 133 | Ist ein Zeilenaufbruch | Verbreitet | Latein-1 Ergänzung | Sonstiges, Kontrolle | Nel, Nächste Zeile | ||
No-Break-Raum | U+00A0 | 160 | Nein | Nein | Verbreitet | Latein-1 Ergänzung | Separator, Platz | Nicht bahnbrechender Raum: identisch mit U+0020, aber kein Punkt, an dem eine Linie gebrochen werden kann. HTML/XML namens Entity: , & Nonbreakingspace; Latex: '\' | |
Ogham Space Mark | U+1680 | 5760 | Ja | Nein | Ogham | Ogham | Separator, Platz | Benutzt für Interword -Trennung in Ogham Text. Normalerweise eine vertikale Linie im vertikalen Text oder eine horizontale Linie im horizontalen Text, kann aber auch ein leerer Raum in "stammlosen" Schriftarten sein. Benötigt eine Ogham -Schriftart. | |
en quad | U+2000 | 8192 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Breite eines en. U+2002 entspricht kanonisch diesem Charakter; U+2002 wird bevorzugt. | |
Em Quad | U+2001 | 8193 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Auch als "Mutton Quad" bekannt. Breite eines em. U+2003 entspricht kanonisch diesem Charakter; U+2003 wird bevorzugt. | |
en Raum | U+2002 | 8194 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Auch als "Nuss" bekannt. Breite eines en. U+2000 EN Quad entspricht kanonisch zu diesem Charakter; U+2002 wird bevorzugt. HTML/XML namens Entity: , Latex: '\ Enspace' | |
EM Raum | U+2003 | 8195 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Auch als "Hammelmut" bekannt. Breite eines em. U+2001 Em Quad entspricht kanonisch zu diesem Charakter; U+2003 wird bevorzugt. HTML/XML namens Entity: , Latex: '\ Quad' | |
Drei-pro-EM-Raum | U+2004 | 8196 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Auch als "dicker Raum" bekannt. Ein Drittel eines EM breit. HTML/XML namens Entity: & emsp13; | |
Vier-pro-EM-Raum | U+2005 | 8197 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Auch als "Mid Space" bekannt. Ein Viertel eines EM breit. HTML/XML namens Entity: & emsp14; | |
Sechs-per-E-Raum | U+2006 | 8198 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Ein Sechstel eines EM breit. In der Computertypographie, manchmal mit U+2009 gleichgesetzt. | |
Figurenraum | U+2007 | 8199 | Nein | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Figurenraum. In Schriftarten mit Monospaced -Ziffern, gleich der Breite einer Ziffer. HTML/XML namens Entity: & numsp; | |
Interpunktionsraum | U+2008 | 8200 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | So breit wie die schmale Interpunktion in einer Schriftart, d. H. Die Vorausbreite des Zeitraums oder des Kommas.[5] HTML/XML namens Entity: & puncsp; | |
dünner Raum | U+2009 | 8201 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Dünner Raum; Ein Fünftel (manchmal ein Sechstel) eines EM breit. Empfohlen für die Verwendung als Tausendertrennzeichen für Maßnahmen mit SI-Einheiten. Im Gegensatz zu U+2002 bis U+2008 kann die Breite beim Typensatz angepasst werden.[6] HTML/XML namens Entity: , & Thinspace , Latex: '\,' | |
Haarraum | U+200a | 8202 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Dünner als ein dünner Raum. HTML/XML namens Entity: & hairsp; & Sehr (funktioniert nicht in allen Browsern) | |
Zeilenabscheider | U+2028 | 8232 | Ist ein Zeilenaufbruch | Verbreitet | Allgemein Interpunktion | Separator, Linie | |||
Absatzabscheider | U+2029 | 8233 | Ist ein Zeilenaufbruch | Verbreitet | Allgemein Interpunktion | Separator, Absatz | |||
enger Raum ohne Break | U+202f | 8239 | Nein | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | Enger Raum ohne Break. Ähnlich in der Funktion wie U+00A0 No-Break-Raum. Bei der Verwendung mit mongolisch ist die Breite normalerweise ein Drittel des normalen Raums; In einem anderen Kontext ähnelt seine Breite manchmal der der der Dünner Raum (U+2009). | |
mittlerer mathematischer Raum | U+205f | 8287 | Ja | Nein | Verbreitet | Allgemein Interpunktion | Separator, Platz | MMSP. Verwendet in mathematischen Formeln. Vierhaut eines EMs.[7] In der mathematischen Typografie werden die Räumenbreiten normalerweise in integralen Vielfachen eines achtzehnten EM angegeben, und 4/18 EM können in mehreren Situationen verwendet werden, beispielsweise zwischen dem a und die + und zwischen dem + und die b im Ausdruck a+b.[8] HTML/XML namens Entity: & Mittelpreis; | |
ideografischer Raum | U+3000 | 12288 | Ja | Nein | Verbreitet | CJK -Symbole und Interpunktion | Separator, Platz | So breit wie CJK Charakterzelle (Gesamtbreite). Zum Beispiel in verwendet in Tai tou. |
Name | Codepunkt | Breitenbox | Kann brechen? | Im Idn? | Skript | Block | Allgemein Kategorie | Anmerkungen | |
---|---|---|---|---|---|---|---|---|---|
mongolischer Vokalabscheider | U+180e | 6158 | | Ja | Nein | mongolisch | mongolisch | Sonstiges, Format | MVS. Ein schmaler Weltraumcharakter, der auf mongolisch verwendet wird, um die letzten beiden Zeichen eines Wortes unterschiedliche Formen anzunehmen.[9] Es wird in Unicode 6.3.0 nicht mehr als Weltraumcharakter (d. H. In ZS -Kategorie) klassifiziert, obwohl es in früheren Versionen des Standards war. |
Null Breite Platz | U+200b | 8203 | | Ja | Nein | ? | Allgemein Interpunktion | Sonstiges, Format | ZwSP, Null-Breitenraum. Wird verwendet, um Word -Grenzen für Textverarbeitungssysteme anzuzeigen, wenn Skripte verwendet werden, die keinen expliziten Abstand verwenden. Es ähnelt dem weicher Bindestrich, mit dem Unterschied, dass letzteres verwendet wird, um Silbengrenzen anzuzeigen, und sollte einen sichtbaren Bindestrich anzeigen, wenn die Linie darin bricht. HTML/XML genannte Entität: & ZerowidthSpace; [10][c] |
Null Breite Nicht-Joiner | U+200c | 8204 | | Ja | Kontext abhängig[15] | ? | Allgemein Interpunktion | Sonstiges, Format | Zwnj, Null-Width-Nicht-Joiner. Wenn ein Zwnj zwischen zwei Zeichen platziert wird, die ansonsten miteinander verbunden würden, werden sie in ihren endgültigen bzw. anfänglichen Formen gedruckt. HTML/XML namens Entity: |
Null -Breiten -Tischler | U+200d | 8205 | | Ja | Kontext abhängig[16] | ? | Allgemein Interpunktion | Sonstiges, Format | Zwj, Null-Breiten-Tischler. Wenn ein ZwJ zwischen zwei Zeichen platziert wird, die sonst nicht verbunden würden, werden sie in ihren verbundenen Formen gedruckt. Kann auch verwendet werden, um Verbindungsformen isoliert anzuzeigen. Je nachdem, ob eine Ligatur oder eine Konjunktion standardmäßig erwartet wird, kann entweder (als in Emoji und in singhala) oder unterdrücken (wie in Devanagari) Substitution durch eine einzelne Glyphe, während sie dennoch die Verwendung einzelner Verbindungsformen (im Gegensatz zu ZWNJ) ermöglichen. HTML/XML namens Entity: |
Wort Joiner | U+2060 | 8288 | | Nein | Nein | ? | Allgemein Interpunktion | Sonstiges, Format | W J, Wort Joiner. Ähnlich wie U+200b, aber kein Punkt, an dem eine Linie gebrochen werden kann. HTML/XML namens Entity: &Keine Pause; |
Null Breite nicht bahnbrechender Raum | U+feff | 65279 | | Nein | Nein | ? | Arabisch Präsentation Formen-b | Sonstiges, Format | Null-Breiten-nicht-bahnbrechender Raum. In erster Linie als Byte -Bestellmarke. Die Verwendung als Hinweis auf Nichtbrechung wird als Unicode 3.2 veraltet; Sehen Sie stattdessen U+2060. |
|
Andere allgemeine Merkmale
Ideografische, alphabetische, Nichtcharakter.
Klasse kombinieren
Einige gemeinsame Codes:
- 0 = Abstandsbuchstaben, Symbol oder Modifikator (z. B. a, (, ʰ)
- 1 = Overlay
- 6 = Han Reading (cjk diakritische Lesespuren)
- 7 = nukta (diakritisch Nukta in Brahmische Skripte)
- 8 = Kana -Stimmmarkierungen
- 9 = Virama
10–199 = verschiedene Klassen mit fester Position
Markierungen, die am Basisbuchstaben angeschlossen sind:
- 200 = unten links angehängt
- 202 = direkt unten angehängt (z. B. Cedilla auf ç)
- 204 = unten rechts angebracht
- 208 = nach links angebracht
- 210 = rechts angeschlossen
- 212 = nach oben links befestigt
- 214 = direkt oben beigefügt
- 216 = oben rechts angebracht
Markierungen, die sich nicht am Basisbuchstaben befinden:
- 218 = unten links unten
- 220 = direkt unten (z. B. Ring auf N̥)
- 222 = unten rechts
- 224 = links
- 226 = richtig
- 228 = oben links
- 230 = oben (z. B. akuter Akzent auf á)
- 232 = oben rechts
- 233 = doppelt unten (Untersuchungen zwei Basen)
- 234 = doppelt oben (erweitert zwei Basen)
- 240 = IOTA -Index (Nur diese griechische diakritische)
Formbildung, Breite.
Bidirektionales Schreiben
Sechs Charaktereigenschaften beziehen sich auf das bidirektionale Schreiben: bidi_class, bidi_control, bidi_mirrored, bidi_mirroring_glyph, bidi_paired_bracket und biden_paired_bracket_type.
Eines der Hauptmerkmale von Unicode ist die Unterstützung von bidirektional (Bidi) Textanzeige von rechts nach links (r-to-l) und links nach rechts (L-to-R). Der bidirektionale Unicode -Algorithmus UAX9[18] beschreibt den Prozess der Präsentation von Text mit Änderungskriptanweisungen. Zum Beispiel ermöglicht es ein hebräisches Zitat in einem englischen Text. Das Verhalten eines Charakters im Richtungsschreiben markiert das Verhalten eines Charakters. Um eine Richtung zu überschreiben, hat Unicode Special definiert Formatieren von Steuerzeichen (Bidi-Controls). Diese Charaktere können eine Richtung durchsetzen und beeinflussen per Definition nur das bidirektionale Schreiben.
Jeder Codepunkt hat eine Eigenschaft genannt Bidi_class. Es definiert sein Verhalten in einem bidirektionalen Text, der vom Algorithmus interpretiert wird:
Typ[2] | Beschreibung | Stärke | Direktionalität | Allgemeiner Umfang | Bidi_control Zeichen[3] |
---|---|---|---|---|---|
L | Links nach rechts | Stark | L-to-r | Die meisten alphabetischen und schmylabischen Charaktere, chinesische Charaktere, nichteuropäische oder nicht arabische Ziffern, LRM-Charakter, ... | U+200e links nach rechts (LRM) |
R | Rechts nach links | Stark | R-to-l | Adlam, Hebräisch, Mandaik, Mende Kikakui, N'ko, Samaritan, alte Drehbücher wie Kharoshthi und Nabataean, RLM Charakter, ... | U+200f rechts nach links (RLM) |
Al | Arabischer Brief | Stark | R-to-l | Arabisch, Hanifi Rohingya, Sogdian, Syrien- und Thaana -Alphabete sowie die meisten Interpunktionszeichen für diese Skripte, ALM -Charakter, ... | U+061C Arabische Buchstabe Mark (ALM) |
En | Europäische Zahl | Schwach | Europäische Ziffern, ostarabisch-indische Ziffern, koptische Epaktnummern, ... | ||
Es | Europäischer Separator | Schwach | Pluszeichen, Minuszeichen, ... | ||
ET | Europäische Zahlen -Terminator | Schwach | Abschlusszeichen, Währungssymbole, ... | ||
EIN | Arabische Zahl | Schwach | Arabisch-indische Ziffern, arabische Dezimalzahl und Tausende Separatoren, Rumi-Ziffern, Hanifi Rohingya-Ziffern, ... | ||
CS | Gemeinsame Zahlenabscheider | Schwach | Doppelpunkt, Komma, Punkt, No-Break-Raum, ... | ||
NSM | Nonspacing Mark | Schwach | Charaktere im Allgemeinen Kategorien Marke, Nonspacing und Mark, einschließen (MN, ME) | ||
Bn | Grenzneutral | Schwach | Standard-unwissende, Nichtcharakter- und Kontrollzeichen als diejenigen, die explizit andere Typen haben | ||
B | Absatzabscheider | Neutral | Absatzabscheider, entsprechende Neue Line-Funktionen, höhere Protokollabsätze auf höherer Ebene | ||
S | Segmentabscheider | Neutral | Registerkarten | ||
WS | Whitespace | Neutral | Platz, Figurenraum, Zeilenabscheider, Formfutter, Allgemeine Zeichensetzung Blockräume (kleinerer Satz als die Unicode Whitespace aufführen) | ||
AN | Andere Neutrale | Neutral | Alle anderen Charaktere, einschließlich Objektersatzcharakter | ||
Lre | Einbettung von links nach rechts | Explizit | L-to-r | Nur Charakter | U+202a links nach rechts Einbettung (LRE) |
Lro | Überschreibung von links nach rechts | Explizit | L-to-r | Nur LRO -Charakter | U+202d links nach rechts (LRO) |
RLE | Einbettung von Recht nach links | Explizit | R-to-l | Nur RLE -Charakter | U+202B Recht nach links Einbettung (RLE) |
Rlo | Recht nach links | Explizit | R-to-l | Nur RLO -Charakter | U+202e rechts von linft (RLO) (RLO) |
Pop -Richtungsformat | Explizit | Nur PDF -Charakter | U+202C Pop Richtungsformatierung (PDF) | ||
LRI | Links zu rechts Isolat | Explizit | L-to-r | Nur LRI -Charakter | U+2066 links nach rechts Isolat (LRI) |
Rli | Recht nach links | Explizit | R-to-l | Nur RLI -Charakter | U+2067 rechts nach links (RLI) |
FSI | Erster starkes Isolat | Explizit | Nur FSI -Charakter | U+2068 Erstes starkes Isolat (FSI) | |
PDI | Pop -Richtungs -Isolat | Explizit | Nur PDI -Charakter | U+2069 Pop -Richtungs -Isolat (PDI) | |
Anmerkungen
|
In normalen Situationen kann der Algorithmus die Richtung eines Textes durch diese Zeicheneigenschaft bestimmen. Um komplexere Bidi -Situationen zu kontrollieren, z. Wenn ein englischer Text ein hebräisches Zitat hat, werden Unicode zusätzliche Optionen hinzugefügt. Zwölf Zeichen haben die Eigenschaft Bidi_control = ja: ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM und RLO, wie in der Tabelle benannt. Dies sind unsichtbare Formatierungssteuerzeichen, die nur vom Algorithmus und ohne Auswirkung außerhalb der bidirektionalen Formatierung verwendet werden.[18] Trotz des Namens formatieren sie Zeichen, steuern keine Zeichen und verfügen über eine allgemeine Kategorie "Andere Format (vgl.)" In der Unicode -Definition.
Grundsätzlich bestimmt der Algorithmus eine Abfolge von Zeichen mit dem gleichen starken Richttyp (R-to-L) oder L-to-r), berücksichtigen Sie eine Übersteuerung der speziellen Bidi-Controls. Zahlenzeichenfolgen (schwache Typen) werden eine Richtung gemäß ihrer starken Umgebung zugewiesen, ebenso wie neutrale Zeichen. Schließlich werden die Zeichen gemäß der Richtung einer Zeichenfolge angezeigt.
Zwei Zeicheneigenschaften sind relevant für die Bestimmung eines Spiegelbildes einer Glyphe im bidirektionalen Text: BIDI_MIRRORD = JA Zeigt an, dass der Glyphe bei geschriebenem R-zu-L gespiegelt werden sollte. Die Eigenschaft BIDI_MIRRORING_GLYPH = U+HHHH kann dann auf den gespiegelten Charakter zeigen. Zum Beispiel werden Klammern "()" auf diese Weise gespiegelt. Die Gestaltung von kursiven Skripten wie Arabisch und spiegelenden Glyphen mit einer Richtung ist nicht Teil des Algorithmus.
Gehäuse
Der Fallwert ist in Unicode normativ. Es bezieht sich auf diese Skripte mit Großbuchstaben (auch bekannt als Hauptstadt, Majuscule) und der Kleinbuchstaben (auch bekannt als kleiner, winziger) Buchstaben. Falldifferenz tritt in Adlam, Armenier, Cherokee, Koptisch, kyrillisch, Deseret, Glagolitik, Griechisch, Khutsuri und Mkhedruli Georgian, Latein, Medefaidrin, Old Ungarn, Osage, Vithkuqi und Warang Citi-Schriften auf.
(Obere, untere, Titel, Falten - sowohl einfach als auch voll)
Numerische Werte und Typen
Dezimal
Charaktere werden mit a klassifiziert Numerischer Typ.[1] Zeichen wie Brüche, Indexs, Superschriften, römische Ziffern, Währungszahlen, umkreiste Zahlen und skriptspezifische Ziffern sind typisch numerisch. Sie haben ein Zahlenwert Das kann dezimal sein, einschließlich Null und Negativ, oder einer vulgären Bruchschaft. Wenn es keinen solchen Wert gibt, wie bei den meisten Zeichen, ist der numerische Typ "keine".
Die Zeichen, die einen numerischen Wert haben, sind in drei Gruppen getrennt: Dezimal (DE), Ziffern (di) und numerisch (nu, d. H. Alle anderen). "Dezimal" bedeutet, dass der Charakter eine gerade Dezimalfigur ist. Nur Zeichen, die Teil eines zusammenhängenden codierten Bereichs 0 sind. Andere Ziffern haben, wie Superscripts, eine numerische Ziffer. Alle numerischen Zeichen wie Brüche und römische Ziffern haben den Typ "numerisch". Der beabsichtigte Effekt ist, dass ein einfacher Parser diese dezimalen numerischen Werte verwenden kann, ohne durch ein numerisches Superschriften oder eine Fraktion abgelenkt zu werden. Dreiundsiebzig CJK-Ideografien, die eine Zahl darstellen, einschließlich der für die Buchhaltung verwendeten, werden numerisch getippt.
Andererseits sind Zeichen, die einen numerischen Wert als zweite Bedeutung haben könnten, immer noch als numerischer Typ "None" gekennzeichnet und haben keinen numerischen Wert (""). Z.B. Lateinische Buchstaben können in Absatznummerierung wie "II.A.1.B" verwendet werden, aber die Buchstaben "I", "A" und "B" sind nicht numerisch (Typ "keine") und haben keinen numerischen Wert.
Numerischer Typ[a][b](Unicode Charaktereigenschaft) | ||||
---|---|---|---|---|
Numerischer Typ | Code | Hat numerischen Wert | Beispiel | Bemerkungen |
Nicht numerisch |
| Nein |
| Numerischer Wert = "Nan" |
Dezimal | De | Ja |
| Gerade Ziffer (Dezimal-Radix). Entspricht in beide Richtungen mit Allgemeine Kategorie= Nd[a] |
Ziffer | Di | Ja |
| Dezimal, aber im typografischen Kontext |
Numerisch | Nu | Ja |
| Numerischer Wert, aber nicht Dezimalradix |
a. ^ "Abschnitt 4.6: Numerischer Wert" (PDF). Der Unicode -Standard. Unicode -Konsortium. September 2021. | ||||
b. ^ "Unicode 14.0 abgeleitete numerische Typen". Unicode -Zeichendatenbank. Unicode -Konsortium. 2021-03-08. |
Hexadezimalstellen
Hexadezimal Charaktere sind die in der Serie mit hexadezimalen Werten 0 ... 9ABCDEF (sechzehn Zeichen, Dezimalwert 0–15). Die Charaktereigenschaft Hex_digit ist auf Ja eingestellt, wenn sich ein Charakter in einer solchen Serie befindet:
Zeichen in Unicode markiert Hex_Digit=Yes [a] | |||
---|---|---|---|
0123456789abcdef | Grundlatein, Hauptstädte | Ebenfalls ASCII_Hex_Digit=Yes | |
0123456789abcdef | Grundlateinische, kleine Buchstaben | Ebenfalls ASCII_Hex_Digit=Yes | |
0123456789abcd | Fullwidth Formen, Hauptstädte | ||
0123456789abcd | Fullwidth Formen, kleine Buchstaben | ||
a. ^ "Unicode 14.0 UCD: propList.txt". 2021-08-12. Abgerufen 2020-03-12. |
44 Zeichen werden als hex_digit markiert. Die im grundlegenden lateinischen Block sind ebenfalls als markiert als ASCII_HEX_DIGIT.
Unicode hat keine separaten Zeichen für Hexadezimalwerte. Eine Konsequenz ist, dass es bei der Verwendung regulärer Zeichen nicht möglich ist zu bestimmen, ob der Hexadezimalwert beabsichtigt ist oder ob überhaupt ein Wert beabsichtigt ist. Dies sollte auf höherer Ebene bestimmt werden, z. Durch die Vorbereitung von "0x" auf eine hexadezimale Nummer oder im Kontext. Das einzige Merkmal ist, dass Unicode beachten kann, dass eine Sequenz kann oder kann nicht Sei ein Hexadezimalwert.
Block
A Block ist ein einzigartig benannter, zusammenhängender Bereich von Codepunkten. Es wird durch seinen ersten und letzten Codepunkt identifiziert. Blöcke nicht Überlappung. Ein Block kann Codepunkte enthalten, die reserviert, nicht zugewiesen sind ist Zugewiesen, hat einen einzelnen "Blockname" -Wert aus den 320 Namen, die ab der Unicode -Version 14.0 nicht zugewiesene Codepunkte außerhalb eines vorhandenen Blocks zugewiesen wurden, haben den Standardwert "NO_Block".
Ebene | Blockbereich | Blockname | Codepunkte[a] | Zugewiesene Zeichen | Skripte[b][c][d][e][f] |
---|---|---|---|---|---|
0 Bmp | U+0000..u+007f | Grundlatein[g] | 128 | 128 | Latein (52 Zeichen), Verbreitet (76 Zeichen) |
0 Bmp | U+0080..u+00ff | Latin-1 Supplement[h] | 128 | 128 | Latein (64 Zeichen), gemeinsam (64 Zeichen) |
0 Bmp | U+0100..u+017f | Latin Extended-A | 128 | 128 | Latein |
0 Bmp | U+0180..u+024f | Latein erweitert-b | 208 | 208 | Latein |
0 Bmp | U+0250..u+02af | IPA -Erweiterungen | 96 | 96 | Latein |
0 Bmp | U+02b0..u+02ff | Abstandsmodifikatorbuchstaben | 80 | 80 | Bopomofo (2 Zeichen), lateinisch (14 Zeichen), gemeinsam (64 Zeichen) |
0 Bmp | U+0300..u+036f | Kombination diakritischer Markierungen | 112 | 112 | Vererbt |
0 Bmp | U+0370..u+03ff | Griechisch und koptisch | 144 | 135 | koptisch (14 Zeichen), griechisch (117 Zeichen), gemeinsam (4 Zeichen) |
0 Bmp | U+0400..u+04ff | kyrillisch | 256 | 256 | kyrillisch (254 Zeichen), vererbt (2 Zeichen) |
0 Bmp | U+0500..u+052f | Cyrillic Supplement | 48 | 48 | kyrillisch |
0 Bmp | U+0530..u+058f | Armenisch | 96 | 91 | Armenisch |
0 Bmp | U+0590..u+05ff | hebräisch | 112 | 88 | hebräisch |
0 Bmp | U+0600..u+06ff | Arabisch | 256 | 256 | Arabisch (238 Zeichen), Common (6 Zeichen), vererbt (12 Zeichen) |
0 Bmp | U+0700..u+074f | Syrien | 80 | 77 | Syrien |
0 Bmp | U+0750..u+077f | Arabische Ergänzung | 48 | 48 | Arabisch |
0 Bmp | U+0780..u+07bf | Thaana | 64 | 50 | Thaana |
0 Bmp | U+07c0..u+07ff | Nko | 64 | 62 | Nko |
0 Bmp | U+0800..u+083f | Samariter | 64 | 61 | Samariter |
0 Bmp | U+0840..u+085f | Mandaik | 32 | 29 | Mandaik |
0 Bmp | U+0860..u+086f | Syrische Ergänzung | 16 | 11 | Syrien |
0 Bmp | U+0870..u+089f | Arabisch erweitert-b | 48 | 41 | Arabisch |
0 Bmp | U+08a0..u+08ff | Arabisch erweitert-a | 96 | 96 | Arabisch (95 Zeichen), gemeinsam (1 Charakter) |
0 Bmp | U+0900..u+097f | Devanagari | 128 | 128 | Devanagari (122 Zeichen), Common (2 Zeichen), vererbt (4 Zeichen) |
0 Bmp | U+0980..u+09ff | Bengali | 128 | 96 | Bengali |
0 Bmp | U+0a00..u+0a7f | Gurmukhi | 128 | 80 | Gurmukhi |
0 Bmp | U+0a80..u+0aff | Gujarati | 128 | 91 | Gujarati |
0 Bmp | U+0b00..u+0b7f | Oriya | 128 | 91 | Oriya |
0 Bmp | U+0b80..u+0bff | Tamilisch | 128 | 72 | Tamilisch |
0 Bmp | U+0c00..u+0c7f | Telugu | 128 | 100 | Telugu |
0 Bmp | U+0c80..u+0cff | Kannada | 128 | 90 | Kannada |
0 Bmp | U+0d00..u+0d7f | Malayalam | 128 | 118 | Malayalam |
0 Bmp | U+0d80..u+0dff | Sinhala | 128 | 91 | Sinhala |
0 Bmp | U+0e00..u+0e7f | Thai | 128 | 87 | Thai (86 Zeichen), gemeinsam (1 Zeichen) |
0 Bmp | U+0e80..u+0eff | Lao | 128 | 82 | Lao |
0 Bmp | U+0f00..u+0fff | Tibetaner | 256 | 211 | Tibetaner (207 Zeichen), gemeinsam (4 Zeichen) |
0 Bmp | U+1000..u+109f | Myanmar | 160 | 160 | Myanmar |
0 Bmp | U+10a0..u+10ff | georgisch | 96 | 88 | georgisch (87 Zeichen), gemeinsam (1 Zeichen) |
0 Bmp | U+1100..u+11ff | Hangul Jamo | 256 | 256 | Hangul |
0 Bmp | U+1200..u+137f | Äthiopisch | 384 | 358 | Äthiopisch |
0 Bmp | U+1380..u+139f | Äthiopische Ergänzung | 32 | 26 | Äthiopisch |
0 Bmp | U+13a0..u+13ff | Cherokee | 96 | 92 | Cherokee |
0 Bmp | U+1400..u+167f | Einheitliche Lehrschildlebnisse für kanadische Aborigines | 640 | 640 | Kanadische Aborigines |
0 Bmp | U+1680..u+169f | Ogham | 32 | 29 | Ogham |
0 Bmp | U+16a0..u+16ff | Runik | 96 | 89 | Runik (86 Zeichen), gemeinsam (3 Zeichen) |
0 Bmp | U+1700..u+171f | Tagalog | 32 | 23 | Tagalog |
0 Bmp | U+1720..u+173f | Hanunoo | 32 | 23 | Hanunoo (21 Zeichen), gemeinsam (2 Zeichen) |
0 Bmp | U+1740..u+175f | Buhid | 32 | 20 | Buhid |
0 Bmp | U+1760..u+177f | Tagbanwa | 32 | 18 | Tagbanwa |
0 Bmp | U+1780..u+17ff | Khmer | 128 | 114 | Khmer |
0 Bmp | U+1800..u+18af | mongolisch | 176 | 158 | mongolisch (155 Zeichen), gemeinsam (3 Zeichen) |
0 Bmp | U+18b0..u+18ff | Einheitliche Lehrschildlebnisse der kanadischen Aborigines verlängerten sich | 80 | 70 | Kanadische Aborigines |
0 Bmp | U+1900..u+194f | Limbu | 80 | 68 | Limbu |
0 Bmp | U+1950..u+197f | Tai le | 48 | 35 | Tai le |
0 Bmp | U+1980..u+19df | Neuer Tai Lue | 96 | 83 | Neuer Tai Lue |
0 Bmp | U+19e0..u+19ff | Khmer -Symbole | 32 | 32 | Khmer |
0 Bmp | U+1a00..u+1a1f | Buginese | 32 | 30 | Buginese |
0 Bmp | U+1a20..u+1aaf | Tai Tham | 144 | 127 | Tai Tham |
0 Bmp | U+1AB0..U+1AFF | Kombination diakritischer Markierungen verlängert | 80 | 31 | Vererbt |
0 Bmp | U+1b00..u+1b7f | Balinesisch | 128 | 124 | Balinesisch |
0 Bmp | U+1b80..u+1bbf | Sundanese | 64 | 64 | Sundanese |
0 Bmp | U+1bc0..u+1bff | Batak | 64 | 56 | Batak |
0 Bmp | U+1c00..u+1c4f | Lepcha | 80 | 74 | Lepcha |
0 Bmp | U+1c50..u+1c7f | Ol Chiki | 48 | 48 | Ol Chiki |
0 Bmp | U+1c80..u+1c8f | Cyrillic Extended-C | 16 | 9 | kyrillisch |
0 Bmp | U+1C90..U+1CBF | Georgian erweitert | 48 | 46 | georgisch |
0 Bmp | U+1cc0..u+1ccf | Sundanese -Supplement | 16 | 8 | Sundanese |
0 Bmp | U+1CD0..U+1CFF | Vedische Erweiterungen | 48 | 43 | Common (16 Zeichen), vererbt (27 Zeichen) |
0 Bmp | U+1d00..u+1d7f | Phonetische Erweiterungen | 128 | 128 | Cyrillic (2 Zeichen), Griechisch (15 Zeichen), lateinisch (111 Zeichen) |
0 Bmp | U+1D80..U+1DBF | Ergänzung für phonetische Erweiterungen | 64 | 64 | Griechisch (1 Charakter), lateinisch (63 Zeichen) |
0 Bmp | U+1DC0..U+1DFF | Kombination diakritischer Markierungen | 64 | 64 | Vererbt |
0 Bmp | U+1e00..u+1eff | Latein erweiterte zusätzlich | 256 | 256 | Latein |
0 Bmp | U+1f00..u+1fff | Griechisch erweitert | 256 | 233 | griechisch |
0 Bmp | U+2000..u+206f | Allgemeine Zeichensetzung | 112 | 111 | Common (109 Zeichen), vererbt (2 Zeichen) |
0 Bmp | U+2070..u+209f | Superscripts und Indexs | 48 | 42 | Latein (15 Zeichen), gemeinsam (27 Zeichen) |
0 Bmp | U+20a0..u+20cf | Währungssymbole | 48 | 33 | Verbreitet |
0 Bmp | U+20d0..u+20ff | Kombinieren Sie diakritische Markierungen für Symbole | 48 | 33 | Vererbt |
0 Bmp | U+2100..u+214f | Buchstabenähnliche Symbole | 80 | 80 | Griechisch (1 Charakter), Latein (4 Zeichen), gemeinsam (75 Zeichen) |
0 Bmp | U+2150..u+218f | Zahlenformen | 64 | 60 | Latein (41 Zeichen), Common (19 Zeichen) |
0 Bmp | U+2190..u+21ff | Pfeile | 112 | 112 | Verbreitet |
0 Bmp | U+2200..u+22ff | Mathematische Operatoren | 256 | 256 | Verbreitet |
0 Bmp | U+2300..u+23ff | Verschiedenes technisches | 256 | 256 | Verbreitet |
0 Bmp | U+2400..u+243f | Kontrollbilder | 64 | 39 | Verbreitet |
0 Bmp | U+2440..u+245f | Optische Zeichenerkennung | 32 | 11 | Verbreitet |
0 Bmp | U+2460..u+24ff | Schloss alphanumerische | 160 | 160 | Verbreitet |
0 Bmp | U+2500..u+257f | Kastenzeichnung | 128 | 128 | Verbreitet |
0 Bmp | U+2580..u+259f | Blockelemente | 32 | 32 | Verbreitet |
0 Bmp | U+25a0..u+25ff | Geometrische Formen | 96 | 96 | Verbreitet |
0 Bmp | U+2600..u+26ff | Verschiedene Symbole | 256 | 256 | Verbreitet |
0 Bmp | U+2700..u+27bf | Dingbats | 192 | 192 | Verbreitet |
0 Bmp | U+27c0..u+27ef | Verschiedene mathematische Symbole-A | 48 | 48 | Verbreitet |
0 Bmp | U+27f0..u+27ff | Ergänzende Pfeile-A | 16 | 16 | Verbreitet |
0 Bmp | U+2800..u+28ff | Braille -Muster | 256 | 256 | Blindenschrift |
0 Bmp | U+2900..u+297f | Ergänzende Pfeile-B | 128 | 128 | Verbreitet |
0 Bmp | U+2980..u+29ff | Verschiedene mathematische Symbole-B | 128 | 128 | Verbreitet |
0 Bmp | U+2A00..U+2AFF | Ergänzende mathematische Operatoren | 256 | 256 | Verbreitet |
0 Bmp | U+2b00..u+2bff | Verschiedene Symbole und Pfeile | 256 | 253 | Verbreitet |
0 Bmp | U+2c00..u+2c5f | Glagolitik | 96 | 96 | Glagolitik |
0 Bmp | U+2c60..u+2c7f | Latein Extended-C | 32 | 32 | Latein |
0 Bmp | U+2C80..U+2CFF | koptisch | 128 | 123 | koptisch |
0 Bmp | U+2d00..u+2d2f | Georgian Supplement | 48 | 40 | georgisch |
0 Bmp | U+2d30..u+2d7f | Tifinagh | 80 | 59 | Tifinagh |
0 Bmp | U+2d80..u+2ddf | Äthiopisch erweitert | 96 | 79 | Äthiopisch |
0 Bmp | U+2de0..u+2dff | Cyrillic Extended-A | 32 | 32 | kyrillisch |
0 Bmp | U+2e00..u+2e7f | Zusätzliche Interpunktion | 128 | 94 | Verbreitet |
0 Bmp | U+2e80..u+2eff | CJK Radicals Supplement | 128 | 115 | Han |
0 Bmp | U+2f00..u+2fdf | Kangxi -Radikale | 224 | 214 | Han |
0 Bmp | U+2ff0..u+2fff | Ideografische Beschreibung Zeichen | 16 | 12 | Verbreitet |
0 Bmp | U+3000..u+303f | CJK -Symbole und Zeichensetzung | 64 | 64 | Han (15 Zeichen), Hangul (2 Zeichen), Common (43 Zeichen), vererbt (4 Zeichen) |
0 Bmp | U+3040..u+309f | Hiragana | 96 | 93 | Hiragana (89 Zeichen), Common (2 Zeichen), vererbt (2 Zeichen) |
0 Bmp | U+30a0..u+30ff | Katakana | 96 | 96 | Katakana (93 Zeichen), gemeinsam (3 Zeichen) |
0 Bmp | U+3100..u+312f | Bopomofo | 48 | 43 | Bopomofo |
0 Bmp | U+3130..u+318f | Hangul -Kompatibilität Jamo | 96 | 94 | Hangul |
0 Bmp | U+3190..u+319f | Kanbun | 16 | 16 | Verbreitet |
0 Bmp | U+31a0..u+31bf | Bopomofo erweitert | 32 | 32 | Bopomofo |
0 Bmp | U+31c0..u+31EF | CJK -Striche | 48 | 36 | Verbreitet |
0 Bmp | U+31f0..u+31ff | Katakana Phonetische Erweiterungen | 16 | 16 | Katakana |
0 Bmp | U+3200..u+32ff | Schloss CJK -Buchstaben und Monate | 256 | 255 | Hangul (62 Zeichen), Katakana (47 Zeichen), gemeinsam (146 Zeichen) |
0 Bmp | U+3300..u+33ff | CJK -Kompatibilität | 256 | 256 | Katakana (88 Zeichen), gemeinsam (168 Zeichen) |
0 Bmp | U+3400..u+4dbf | CJK Unified Ideographs Extension a | 6,592 | 6,592 | Han |
0 Bmp | U+4dc0..u+4dff | Yijing Hexagrammsymbole | 64 | 64 | Verbreitet |
0 Bmp | U+4e00..u+9fff | CJK Unified Ideographs | 20.992 | 20.992 | Han |
0 Bmp | U+a000..u+a48f | Yi Silben | 1,168 | 1.165 | Yi |
0 Bmp | U+a490..u+a4cf | Yi Radikale | 64 | 55 | Yi |
0 Bmp | U+a4d0..u+a4ff | Lisu | 48 | 48 | Lisu |
0 Bmp | U+a500..u+a63f | Vai | 320 | 300 | Vai |
0 Bmp | U+a640..u+a69f | Cyrillic Extended-B | 96 | 96 | kyrillisch |
0 Bmp | U+a6a0..u+a6ff | Bamum | 96 | 88 | Bamum |
0 Bmp | U+a700..u+a71f | Modifikator -Tonbuchstaben | 32 | 32 | Verbreitet |
0 Bmp | U+a720..u+a7ff | Latein erweitert-d | 224 | 193 | Latein (188 Zeichen), gemeinsam (5 Zeichen) |
0 Bmp | U+a800..u+a82f | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 Bmp | U+a830..u+a83f | Gemeinsame INDID -Zahlenformen | 16 | 10 | Verbreitet |
0 Bmp | U+a840..u+a87f | PHAGS-PA | 64 | 56 | PHAGS PA |
0 Bmp | U+a880..u+a8df | Saurashtra | 96 | 82 | Saurashtra |
0 Bmp | U+a8e0..u+a8ff | Devanagari erweiterte sich | 32 | 32 | Devanagari |
0 Bmp | U+a900..u+a92f | Kayah li | 48 | 48 | Kayah li (47 Zeichen), gemeinsam (1 Zeichen) |
0 Bmp | U+a930..u+a95f | Rejang | 48 | 37 | Rejang |
0 Bmp | U+a960..u+a97f | Hangul Jamo Extended-A | 32 | 29 | Hangul |
0 Bmp | U+a980..u+a9df | Javaner | 96 | 91 | Javaner (90 Zeichen), gemeinsam (1 Zeichen) |
0 Bmp | U+a9e0..u+a9ff | Myanmar erweiterte B | 32 | 31 | Myanmar |
0 Bmp | U+aa00..u+aa5f | Cham | 96 | 83 | Cham |
0 Bmp | U+aa60..u+aa7f | Myanmar verlängerte sich | 32 | 32 | Myanmar |
0 Bmp | U+aa80..u+aadf | Tai Viet | 96 | 72 | Tai Viet |
0 Bmp | U+aae0..u+aaff | Meetei Mayek Extensions | 32 | 23 | Meetei Mayek |
0 Bmp | U+AB00..U+AB2F | Ethiopic Extended-A | 48 | 32 | Äthiopisch |
0 Bmp | U+ab30..u+ab6f | Latein erweitert-e | 64 | 60 | Latein (56 Zeichen), Griechisch (1 Zeichen), gemeinsam (3 Zeichen) |
0 Bmp | U+ab70..u+abbf | Cherokee Supplement | 80 | 80 | Cherokee |
0 Bmp | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 Bmp | U+ac00..u+d7af | Hangul Silben | 11.184 | 11,172 | Hangul |
0 Bmp | U+d7b0..u+d7ff | Hangul Jamo Extended-B | 80 | 72 | Hangul |
0 Bmp | U+d800..u+db7f | Hohe Leihmutter | 896 | 0 | Unbekannt |
0 Bmp | U+db80..u+dbff | Ersatzstärke mit hoher Privatnutzung | 128 | 0 | Unbekannt |
0 Bmp | U+dc00..u+dfff | Niedrige Ersatzstoffe | 1.024 | 0 | Unbekannt |
0 Bmp | U+e000..u+f8ff | Privatnutzungsbereich | 6.400 | 6.400 | Unbekannt |
0 Bmp | U+f900..u+faff | CJK -Kompatibilitätsideographien | 512 | 472 | Han |
0 Bmp | U+fb00..u+fb4f | Alphabetische Präsentationsformen | 80 | 58 | Armenisch (5 Zeichen), Hebräisch (46 Zeichen), Latein (7 Zeichen) |
0 Bmp | U+fb50..u+fdff | Arabische Präsentationsformulare-A | 688 | 631 | Arabisch (629 Zeichen), gemeinsam (2 Zeichen) |
0 Bmp | U+fe00..u+fe0f | Variationswählern | 16 | 16 | Vererbt |
0 Bmp | U+fe10..u+fe1f | Vertikale Formen | 16 | 10 | Verbreitet |
0 Bmp | U+fe20..u+fe2f | Halbmarken kombinieren | 16 | 16 | Cyrillic (2 Zeichen), vererbt (14 Zeichen) |
0 Bmp | U+fe30..u+fe4f | CJK -Kompatibilitätsformulare | 32 | 32 | Verbreitet |
0 Bmp | U+fe50..u+fe6f | Kleine Formvarianten | 32 | 26 | Verbreitet |
0 Bmp | U+fe70..u+feff | Arabische Präsentationsformen-b | 144 | 141 | Arabisch (140 Zeichen), gemeinsam (1 Charakter) |
0 Bmp | U+ff00..u+ffef | Halbbreiten- und Vollbreitenformen | 240 | 225 | Hangul (52 Zeichen), Katakana (55 Zeichen), Latein (52 Zeichen), gemeinsam (66 Zeichen) |
0 Bmp | U+fff0..u+ffff | Specials | 16 | 5 | Verbreitet |
1 SMP | U+10000..u+1007f | Linearer B -Silbe | 128 | 88 | Linear b |
1 SMP | U+10080..u+100ff | Lineare B -Ideogramme | 128 | 123 | Linear b |
1 SMP | U+10100..u+1013f | Ägäische Zahlen | 64 | 57 | Verbreitet |
1 SMP | U+10140..u+1018f | Alte griechische Zahlen | 80 | 79 | griechisch |
1 SMP | U+10190..u+101cf | Alte Symbole | 64 | 14 | Griechisch (1 Charakter), gemeinsam (13 Zeichen) |
1 SMP | U+101d0..u+101ff | Phaistos Disc | 48 | 46 | Common (45 Zeichen), vererbt (1 Zeichen) |
1 SMP | U+10280..u+1029f | Lycian | 32 | 29 | Lycian |
1 SMP | U+102a0..u+102df | Karian | 64 | 49 | Karian |
1 SMP | U+102e0..u+102ff | Koptische Epaktnummern | 32 | 28 | Common (27 Zeichen), vererbt (1 Zeichen) |
1 SMP | U+10300..u+1032f | Alte kursiv | 48 | 39 | Alte kursiv |
1 SMP | U+10330..u+1034f | gotisch | 32 | 27 | gotisch |
1 SMP | U+10350..u+1037f | Altpermisch | 48 | 43 | Altpermisch |
1 SMP | U+10380..u+1039f | Ugaritisch | 32 | 31 | Ugaritisch |
1 SMP | U+103a0..u+103df | Alter Perser | 64 | 50 | Alter Perser |
1 SMP | U+10400..u+1044f | Deseret | 80 | 80 | Deseret |
1 SMP | U+10450..u+1047f | Shavier | 48 | 48 | Shavier |
1 SMP | U+10480..u+104AF | Osmanya | 48 | 40 | Osmanya |
1 SMP | U+104b0..u+104ff | Osage | 80 | 72 | Osage |
1 SMP | U+10500..u+1052f | Elbasan | 48 | 40 | Elbasan |
1 SMP | U+10530..u+1056f | Kaukasischer Albaner | 64 | 53 | Kaukasischer Albaner |
1 SMP | U+10570..u+105bf | Vithkuqi | 80 | 70 | Vithkuqi |
1 SMP | U+10600..u+1077f | Linear a | 384 | 341 | Linear a |
1 SMP | U+10780..u+107bf | Latein erweitert-f | 64 | 57 | Latein |
1 SMP | U+10800..u+1083f | Zypriotische Silbe | 64 | 55 | Zypriot |
1 SMP | U+10840..u+1085f | Kaiserliche Aramäisch | 32 | 31 | Kaiserliche Aramäisch |
1 SMP | U+10860..u+1087f | Palmyren | 32 | 32 | Palmyren |
1 SMP | U+10880..u+108AF | Nabatäisch | 48 | 40 | Nabatäisch |
1 SMP | U+108e0..u+108ff | Hatran | 32 | 26 | Hatran |
1 SMP | U+10900..u+1091f | phönizisch | 32 | 29 | phönizisch |
1 SMP | U+10920..u+1093f | Lydian | 32 | 27 | Lydian |
1 SMP | U+10980..u+1099f | Meroitische Hieroglyphen | 32 | 32 | Meroitische Hieroglyphen |
1 SMP | U+109a0..u+109ff | Meroitischer Kursiv | 96 | 90 | Meroitischer Kursiv |
1 SMP | U+10a00..u+10a5f | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U+10a60..u+10a7f | Altes Südarabier | 32 | 32 | Altes Südarabier |
1 SMP | U+10a80..u+10a9f | Altes Nordarabier | 32 | 32 | Altes Nordarabier |
1 SMP | U+10AC0..U+10AFF | Manichaean | 64 | 51 | Manichaean |
1 SMP | U+10b00..u+10b3f | Avestan | 64 | 61 | Avestan |
1 SMP | U+10b40..u+10b5f | Inschrift Parthian | 32 | 30 | Inschrift Parthian |
1 SMP | U+10b60..u+10b7f | Inschrift Pahlavi | 32 | 27 | Inschrift Pahlavi |
1 SMP | U+10b80..u+10baf | Psalter Pahlavi | 48 | 29 | Psalter Pahlavi |
1 SMP | U+10c00..u+10c4f | Altes Turkic | 80 | 73 | Altes Turkic |
1 SMP | U+10c80..u+10cff | Alter Ungarisch | 128 | 108 | Alter Ungarisch |
1 SMP | U+10d00..u+10d3f | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U+10e60..u+10e7f | Rumi Ziffernsymbole | 32 | 31 | Arabisch |
1 SMP | U+10E80..U+10EBF | Yezidi | 64 | 47 | Yezidi |
1 SMP | U+10f00..u+10f2f | Altes Sogdian | 48 | 40 | Altes Sogdian |
1 SMP | U+10f30..u+10f6f | Sogdian | 64 | 42 | Sogdian |
1 SMP | U+10f70..u+10faf | Alter Uyghur | 64 | 26 | Alter Uyghur |
1 SMP | U+10fb0..u+10fdf | Chorasmianer | 48 | 28 | Chorasmianer |
1 SMP | U+10Fe0..u+10fff | Elynmaisch | 32 | 23 | Elynmaisch |
1 SMP | U+11000..u+1107f | Brahmi | 128 | 115 | Brahmi |
1 SMP | U+11080..u+110cf | Kaithi | 80 | 68 | Kaithi |
1 SMP | U+110d0..u+110ff | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U+11100..u+1114f | Chakma | 80 | 71 | Chakma |
1 SMP | U+11150..u+1117f | Mahajani | 48 | 39 | Mahajani |
1 SMP | U+11180..u+111df | Sharada | 96 | 96 | Sharada |
1 SMP | U+111e0..u+111ff | Singhalesische archaische Zahlen | 32 | 20 | Sinhala |
1 SMP | U+11200..u+1124f | Khojki | 80 | 62 | Khojki |
1 SMP | U+11280..u+112AF | Multani | 48 | 38 | Multani |
1 SMP | U+112b0..u+112ff | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U+11300..u+1137f | Grantha | 128 | 86 | Grantha (85 Zeichen), vererbt (1 Zeichen) |
1 SMP | U+11400..u+1147f | Newa | 128 | 97 | Newa |
1 SMP | U+11480..u+114df | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U+11580..u+115ff | Siddham | 128 | 92 | Siddham |
1 SMP | U+11600..u+1165f | Modi | 96 | 79 | Modi |
1 SMP | U+11660..u+1167f | Mongolische Supplement | 32 | 13 | mongolisch |
1 SMP | U+11680..u+116cf | Takri | 80 | 68 | Takri |
1 SMP | U+11700..u+1174f | Ahom | 80 | 65 | Ahom |
1 SMP | U+11800..u+1184f | DGRA | 80 | 60 | DGRA |
1 SMP | U+118a0..u+118ff | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U+11900..u+1195f | Taucht Akuru auf | 96 | 72 | Taucht Akuru auf |
1 SMP | U+119a0..u+119ff | Nandinagari | 96 | 65 | Nandinagari |
1 SMP | U+11a00..u+11a4f | Zanabazar Square | 80 | 72 | Zanabazar Square |
1 SMP | U+11A50..U+11AAF | Soyombo | 96 | 83 | Soyombo |
1 SMP | U+11AB0..U+11ABF | Einheitliche Lehrschablinge der kanadischen Aborigines verlängert-A. | 16 | 16 | Kanadische Aborigines |
1 SMP | U+11AC0..U+11AFF | Pau cin hau | 64 | 57 | Pau cin hau |
1 SMP | U+11c00..u+11c6f | BhaiKsuki | 112 | 97 | BhaiKsuki |
1 SMP | U+11c70..u+11cbf | MARCHEN | 80 | 68 | MARCHEN |
1 SMP | U+11d00..u+11d5f | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U+11d60..u+11daf | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U+11ee0..u+11ff | Makasar | 32 | 25 | Makasar |
1 SMP | U+11fb0..u+11fbf | Lisu -Supplement | 16 | 1 | Lisu |
1 SMP | U+11fc0..u+11fff | Tamilen Ergänzung | 64 | 51 | Tamilisch |
1 SMP | U+12000..u+123ff | Keilschrift | 1.024 | 922 | Keilschrift |
1 SMP | U+12400..u+1247f | Keilförmige Zahlen und Zeichensetzung | 128 | 116 | Keilschrift |
1 SMP | U+12480..u+1254f | Frühe dynastische Keilschrift | 208 | 196 | Keilschrift |
1 SMP | U+12f90..u+12fff | Cypro-minoan | 112 | 99 | Cypro Minoan |
1 SMP | U+13000..u+1342f | Ägyptische Hieroglyphen | 1.072 | 1.071 | Ägyptische Hieroglyphen |
1 SMP | U+13430..u+1343f | Ägyptische Hieroglyphenformatkontrollen | 16 | 9 | Ägyptische Hieroglyphen |
1 SMP | U+14400..u+1467f | Anatolische Hieroglyphen | 640 | 583 | Anatolische Hieroglyphen |
1 SMP | U+16800..u+16a3f | Bamum -Ergänzung | 576 | 569 | Bamum |
1 SMP | U+16a40..u+16a6f | Mro | 48 | 43 | Mro |
1 SMP | U+16A70..U+16ACF | Tangsa | 96 | 89 | Tangsa |
1 SMP | U+16AD0..U+16AFF | Bassa vah | 48 | 36 | Bassa vah |
1 SMP | U+16b00..u+16b8f | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U+16e40..u+16e9f | Medefaidrin | 96 | 91 | Medefaidrin |
1 SMP | U+16f00..u+16f9f | Miao | 160 | 149 | Miao |
1 SMP | U+16Fe0..u+16fff | Ideografische Symbole und Zeichensetzung | 32 | 7 | Han (4 Zeichen), Khitaner kleines Skript (1 Zeichen), Nushu (1 Zeichen), Tangut (1 Zeichen) |
1 SMP | U+17000..u+187ff | Tangut | 6,144 | 6,136 | Tangut |
1 SMP | U+18800..u+18Aff | Tangutkomponenten | 768 | 768 | Tangut |
1 SMP | U+18b00..u+18Cff | Khitan kleines Drehbuch | 512 | 470 | Khitan kleines Drehbuch |
1 SMP | U+18d00..u+18d7f | Tangut -Ergänzung | 128 | 9 | Tangut |
1 SMP | U+1AFF0..U+1AFFF | Kana erweitert-b | 16 | 13 | Katakana |
1 SMP | U+1b000..u+1b0ff | Kana -Supplement | 256 | 256 | Hiragana (255 Zeichen), Katakana (1 Charakter) |
1 SMP | U+1b100..u+1b12f | Kana erweitert-a | 48 | 35 | Hiragana (32 Zeichen), Katakana (3 Zeichen) |
1 SMP | U+1b130..u+1b16f | Kleine Kana -Erweiterung | 64 | 7 | Hiragana (3 Charaktere), Katakana (4 Zeichen) |
1 SMP | U+1b170..u+1b2ff | Nushu | 400 | 396 | Nüshu |
1 SMP | U+1bc00..u+1bc9f | Du -Playan | 160 | 143 | Du -Playan |
1 SMP | U+1bca0..u+1bcaf | Kurzformatkontrollen | 16 | 4 | Verbreitet |
1 SMP | U+1cf00..u+1cfcf | Znamenny Musical Notation | 208 | 185 | Common (116 Zeichen), vererbt (69 Zeichen) |
1 SMP | U+1d000..u+1d0ff | Byzantinische Musiksymbole | 256 | 246 | Verbreitet |
1 SMP | U+1d100..u+1d1ff | Musiksymbole | 256 | 233 | Common (211 Zeichen), vererbt (22 Zeichen) |
1 SMP | U+1d200..u+1d24f | Antike griechische musikalische Notation | 80 | 70 | griechisch |
1 SMP | U+1d2e0..u+1d2ff | Maya -Ziffern | 32 | 20 | Verbreitet |
1 SMP | U+1d300..u+1d35f | Tai Xuan Jing Symbole | 96 | 87 | Verbreitet |
1 SMP | U+1d360..u+1d37f | Zählstangen Ziffern | 32 | 25 | Verbreitet |
1 SMP | U+1d400..u+1d7ff | Mathematische alphanumerische Symbole | 1.024 | 996 | Verbreitet |
1 SMP | U+1d800..u+1daaf | Sutton Signwriting | 688 | 672 | Signwriting |
1 SMP | U+1DF00..U+1DFFF | Latein erweitert-g | 256 | 31 | Latein |
1 SMP | U+1e000..u+1e02f | Glagolitische Ergänzung | 48 | 38 | Glagolitik |
1 SMP | U+1e100..u+1e14f | Nyikeng Puachue Hmong | 80 | 71 | Nyikeng Puachue Hmong |
1 SMP | U+1e290..u+1e2bf | Toto | 48 | 31 | Toto |
1 SMP | U+1e2c0..u+1e2ff | Wancho | 64 | 59 | Wancho |
1 SMP | U+1e7e0..u+1e7ff | Ethiopic Extended-B | 32 | 28 | Äthiopisch |
1 SMP | U+1e800..u+1e8df | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U+1e900..u+1e95f | Adlam | 96 | 88 | Adlam |
1 SMP | U+1ec70..u+1ecbf | Indic SIYAQ -Zahlen | 80 | 68 | Verbreitet |
1 SMP | U+1ed00..u+1ed4f | Osmanische Siyaq -Zahlen | 80 | 61 | Verbreitet |
1 SMP | U+1ee00..u+1eeeff | Arabische mathematische alphabetische Symbole | 256 | 143 | Arabisch |
1 SMP | U+1f000..u+1f02f | Mahjong -Fliesen | 48 | 44 | Verbreitet |
1 SMP | U+1f030..u+1f09f | Dominofliesen | 112 | 100 | Verbreitet |
1 SMP | U+1f0a0..u+1f0ff | Kartenspielen | 96 | 82 | Verbreitet |
1 SMP | U+1f100..u+1f1ff | Beigefügte alphanumerische Ergänzung | 256 | 200 | Verbreitet |
1 SMP | U+1f200..u+1f2ff | Geschlossene ideografische Ergänzung | 256 | 64 | Hiragana (1 Charakter), gemeinsam (63 Zeichen) |
1 SMP | U+1f300..u+1f5ff | Verschiedene Symbole und Piktogramme | 768 | 768 | Verbreitet |
1 SMP | U+1f600..u+1f64f | Emoticons | 80 | 80 | Verbreitet |
1 SMP | U+1f650..u+1f67f | Zierdingbats | 48 | 48 | Verbreitet |
1 SMP | U+1f680..u+1f6ff | Transport- und Kartensymbole | 128 | 117 | Verbreitet |
1 SMP | U+1f700..u+1f77f | Alchemische Symbole | 128 | 116 | Verbreitet |
1 SMP | U+1f780..u+1f7ff | Geometrische Formen erweitert | 128 | 102 | Verbreitet |
1 SMP | U+1f800..u+1f8ff | Ergänzende Pfeile-C | 256 | 150 | Verbreitet |
1 SMP | U+1f900..u+1f9ff | Ergänzende Symbole und Piktogramme | 256 | 256 | Verbreitet |
1 SMP | U+1fa00..u+1fa6f | Schachsymbole | 112 | 98 | Verbreitet |
1 SMP | U+1fa70..u+1faff | Symbole und Piktogramme erweitert-a | 144 | 88 | Verbreitet |
1 SMP | U+1fb00..u+1fbff | Symbole für Legacy Computing | 256 | 212 | Verbreitet |
2 SIP | U+20000..u+2a6df | CJK Unified Ideographs Extension B | 42,720 | 42,720 | Han |
2 SIP | U+2a700..u+2b73f | CJK Unified Ideographs Extension C. | 4,160 | 4,153 | Han |
2 SIP | U+2b740..u+2b81f | CJK Unified Ideographs Extension D. | 224 | 222 | Han |
2 SIP | U+2b820..u+2ceaf | CJK Unified Ideographs Extension e | 5,776 | 5,762 | Han |
2 SIP | U+2ceb0..u+2efef | CJK Unified Ideographs Extension f | 7.488 | 7.473 | Han |
2 SIP | U+2f800..u+2fa1f | CJK -Kompatibilitätsideografien Supplement | 544 | 542 | Han |
3 Tipp | U+30000..u+3134f | CJK Unified Ideographs Extension G | 4,944 | 4,939 | Han |
14 SSP | U+e0000..u+e007f | Stichworte | 128 | 97 | Verbreitet |
14 SSP | U+E0100..U+E01EF | Variationswählern Supplement | 240 | 240 | Vererbt |
15 pua-a | U+f0000..u+fffff | Zusätzliche private Gebrauchsbereich-a | 65.536 | 65.534 | Unbekannt |
16 Pua-B | U+100000..u+10ffff | Ergänzende private Gebrauchsbereich-B-B | 65.536 | 65.534 | Unbekannt |
|
Skript
Jedes zugewiesene Zeichen kann einen einzelnen Wert für die Eigenschaft "Skript" haben, die zu welchem Skript es gehört.[19] Der Wert ist ein Vier-Buchstaben-Code im Bereich AAAA-AZZZ, wie in ISO 15924 erhältlich, der a zugeordnet ist Schreibsystem. Abgesehen von der Beschreibung des Hintergrunds und der Verwendung eines Skripts verwendet Unicode keine Verbindung zwischen a Skript und Sprachen das benutzt dieses Skript. Also bezieht sich "Hebräisch" auf das hebräische Drehbuch, nicht auf die hebräische Sprache.
Der spezielle Code Zyyy für "gemeinsam" ermöglicht einen einzelnen Wert für ein Zeichen, das in mehreren Skripten verwendet wird. Der Code Zinh "erbte Skript", das zum Kombinieren von Zeichen und bestimmten anderen Spezial-Codes-Punkten verwendet wird, zeigt an, dass ein Zeichen "seine Skriptidentität aus dem Zeichen, mit dem es kombiniert wird," erbt "erbt. (Unicode verwendete früher den privaten Code -QAAI für diesen Zweck.) Der Code Zzzz "Unbekannt" wird für alle Zeichen verwendet, die nicht zu einem Skript gehören (d. H. Der Standardwert), wie Symbole und Formatierende Zeichen. Insgesamt können Zeichen eines einzelnen Skripts über mehrere Blöcke verteilt werden Lateinische Charaktere. Auch umgekehrt: Mehrere Skripte können vorhanden sein, ist ein einzelner Block, z. Block Buchstabenähnliche Symbole Enthält Zeichen aus lateinischen, griechischen und gemeinsamen Skripten.
Wenn das Skript "" (leer) ist, gehört das Charakter gemäß Unicode nicht zu einem Skript. Dies betrifft Symbole, da die vorhandenen ISO -Skript "ZMTH" (mathematische Notation), "Zsym" (Symbol) und "Zsye" (Symbol, Emoji -Variante) in Unicode nicht verwendet werden. Die Eigenschaft "Skript" ist auch für Codepunkte leer, die kein typografisches Zeichen wie Steuerelemente, Substitute und Codepunkte für private Gebrauch sind.
Wenn es in ISO 15924 einen bestimmten Skript -Alias -Namen gibt, wird er im Zeichennamen verwendet: U+0041 A LATEIN Großbuchstaben a, und U+05D0 א HEBRÄISCH Brief ALEF.
ISO 15924 | Skript in Unicode[e] | ||||||
---|---|---|---|---|---|---|---|
Code | ISO formeller Name | Direktionalität | Unicode alias[f] | Ausführung | Figuren | Anmerkungen | Beschreibung |
Adlm | Adlam | Rechts nach links ![]() | Adlam | 9.0 | 88 | Ch 19.9 | |
Afak | Afaka | variiert | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Aghb | Kaukasischer Albaner | links nach rechts![]() | Kaukasischer Albaner | 7.0 | 53 | Alt/historisch | CH 8.11 |
Ahom | Ahom, Tai Ahom | links nach rechts![]() | Ahom | 8.0 | 65 | Alt/historisch | Ch 15.15 |
Araber | Arabisch | Rechts nach links ![]() | Arabisch | 1.0 | 1.365 | CH 9.2 | |
Aran | Arabisch (Nastaliq Variante) | gemischt | § Araber)) | - Typografische Variante von Arabisch (||||
Armi | Kaiserliche Aramäisch | Rechts nach links ![]() | Kaiserliche Aramäisch | 5.2 | 31 | Alt/historisch | CH 10.4 |
Armn | Armenisch | links nach rechts![]() | Armenisch | 1.0 | 96 | CH 7.6 | |
Avst | Avestan | Rechts nach links ![]() | Avestan | 5.2 | 61 | Alt/historisch | CH 10.7 |
Bali | Balinesisch | links nach rechts![]() | Balinesisch | 5.0 | 124 | Ch 17.3 | |
Bamu | Bamum | links nach rechts![]() | Bamum | 5.2 | 657 | Ch 19.6 | |
Bass | Bassa vah | links nach rechts![]() | Bassa vah | 7.0 | 36 | Alt/historisch | Ch 19.7 |
Batk | Batak | links nach rechts![]() | Batak | 6.0 | 56 | Ch 17.6 | |
Beng | Bengali (Bangla) | links nach rechts![]() | Bengali | 1.0 | 96 | Ch 12.2 | |
BHKS | BhaiKsuki | links nach rechts![]() | BhaiKsuki | 9.0 | 97 | Alt/historisch | Ch 14.3 |
Blis | Blissymbols | variiert | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Bopo | Bopomofo | links nach rechts![]() | Bopomofo | 1.0 | 77 | Ch 18.3 | |
Brah | Brahmi | links nach rechts![]() | Brahmi | 6.0 | 115 | Alt/historisch | Ch 14.1 |
Brai | Blindenschrift | links nach rechts![]() | Blindenschrift | 3.0 | 256 | Ch 21.1 | |
Bugi | Buginese | links nach rechts![]() | Buginese | 4.1 | 30 | Ch 17.2 | |
Buhd | Buhid | links nach rechts![]() | Buhid | 3.2 | 20 | Ch 17.1 | |
Cakm | Chakma | links nach rechts![]() | Chakma | 6.1 | 71 | Ch 13.11 | |
Büchsen | Einheitliche Lehrschildlebnisse für kanadische Aborigines | links nach rechts![]() | Kanadische Aborigines | 3.0 | 726 | Ch 20.2 | |
Cari | Karian | links nach rechts, Rechts nach links ![]() | Karian | 5.1 | 49 | Alt/historisch | CH 8.5 |
Cham | Cham | links nach rechts![]() | Cham | 5.1 | 83 | Ch 16.10 | |
Cher | Cherokee | links nach rechts![]() | Cherokee | 3.0 | 172 | Ch 20.1 | |
Chrs | Chorasmianer | Rechts nach links, oben nach unten![]() | Chorasmianer | 13.0 | 28 | Alt/historisch | CH 10.8 |
Cirt | Cirth | variiert | - Nicht in Unicode | ||||
Kopte | koptisch | links nach rechts![]() | koptisch | 1.0 | 137 | Alt/historisch, uneinheitlich aus dem Griechischen in 4.1 | Ch 7.3 |
CPMN | Cypro-minoan | links nach rechts | Cypro Minoan | 14.0 | 99 | Alt/historisch | CH 8.4 |
CPRT | Zypriotische Silbe | Rechts nach links ![]() | Zypriot | 4.0 | 55 | Alt/historisch | CH 8.3 |
Cyrl | kyrillisch | links nach rechts![]() | kyrillisch | 1.0 | 443 | Enthält typografische Variante Old Church Slawonic (§ Cyrs) | CH 7.4 |
Cyrs | Kyrillisch (alte kirchliche slawische Variante) | variiert | § Cyrl); Alt/historisch | - typografische Variante von kyrillisch (||||
Deva | Devanagari (Nagari) | links nach rechts![]() | Devanagari | 1.0 | 154 | Ch 12.1 | |
Diak | Taucht Akuru auf | links nach rechts![]() | Taucht Akuru auf | 13.0 | 72 | Alt/historisch | Ch 15.14 |
DR | DGRA | links nach rechts![]() | DGRA | 11.0 | 60 | Alt/historisch | Ch 15.17 |
Dsrt | Deseret (Mormon) | links nach rechts![]() | Deseret | 3.1 | 80 | Ch 20.4 | |
Dupl | Du -Playan Shorthand, Du -Platean -Stenographie | links nach rechts![]() | Du -Playan | 7.0 | 143 | Ch 21.6 | |
Ägyp | Ägyptische Demotik | gemischt | - Nicht in Unicode | ||||
Ägyph | Ägyptische Hieratik | gemischt | - Nicht in Unicode | ||||
EGYP | Ägyptische Hieroglyphen | Rechts nach links ![]() | Ägyptische Hieroglyphen | 5.2 | 1.080 | Alt/historisch | Ch 11.4 |
Elba | Elbasan | links nach rechts![]() | Elbasan | 7.0 | 40 | Alt/historisch | CH 8.10 |
Elym | Elynmaisch | Rechts nach links ![]() | Elynmaisch | 12.0 | 23 | Alt/historisch | CH 10.9 |
Ethi | Äthiopisch (Ge'ez) | links nach rechts![]() | Äthiopisch | 3.0 | 523 | Ch 19.1 | |
Geok | Khutsuri (Asomtavruli und Nuskhuri) | links nach rechts![]() | georgisch | Unicode -Gruppen "Khutsori", "Asomtavruli" und "Nuskhuri" in 'Georgian' (Nuskhuri "(Georgian '(§ Geok). Auch "Mkhedruli" und "Mtavruli" sind 'Georgian' (Georgisch '(§ Geor)) | CH 7.7 | ||
Geor | Georgian (Mkhedruli und Mtavruli) | links nach rechts![]() | georgisch | 1.0 | 173 | In Unicode umfasst auch Geok (Nuskhuri) | CH 7.7 |
Schein | Glagolitik | links nach rechts![]() | Glagolitik | 4.1 | 134 | Alt/historisch | CH 7.5 |
Gong | Gunjala Gondi | links nach rechts![]() | Gunjala Gondi | 11.0 | 63 | Ch 13.15 | |
Gonm | Masaram Gondi | links nach rechts![]() | Masaram Gondi | 10.0 | 75 | Ch 13.14 | |
Goth | gotisch | links nach rechts![]() | gotisch | 3.1 | 27 | Alt/historisch | CH 8.9 |
Gran | Grantha | links nach rechts![]() | Grantha | 7.0 | 85 | Alt/historisch | Ch 15.13 |
Grek | griechisch | links nach rechts![]() | griechisch | 1.0 | 518 | Direktionalität manchmal als Bousstrophe | CH 7.2 |
Gujr | Gujarati | links nach rechts![]() | Gujarati | 1.0 | 91 | Ch 12.4 | |
Guru | Gurmukhi | links nach rechts![]() | Gurmukhi | 1.0 | 80 | Ch 12.3 | |
Hanb | Han mit Bopomofo (Alias für Han + Bopomofo) | gemischt | § Hani, § Bopo | - Sehen||||
Aufhängen | Hangul (Hangŭl, Hangeul) | Links nach rechts, vertikal nach rechts nach links![]() | Hangul | 1.0 | 11.739 | Hangul Silben, die in 2.0 verlegt wurden | Ch 18.6 |
Hani | Han (Hanzi, Kanji, Hanja) | Top-to-Bottom, Säulen von rechts (historisch) von Säulen nach links | Han | 1.0 | 94,215 | Ch 18.1 | |
Hano | Hanunoo (Hanunóo) | Links nach rechts, unten zu Top![]() | Hanunoo | 3.2 | 21 | Ch 17.1 | |
Hans | Han (vereinfachte Variante) | variiert | § Hani)) | - Untergruppe von Han (Hanzi, Kanji, Hanja) (||||
Hant | Han (traditionelle Variante) | variiert | § Hani | - Teilmenge von||||
Hatr | Hatran | Rechts nach links ![]() | Hatran | 8.0 | 26 | Alt/historisch | CH 10.12 |
Hebr | hebräisch | Rechts nach links ![]() | hebräisch | 1.0 | 134 | CH 9.1 | |
Hira | Hiragana | vertikaler nach rechts, links nach rechts![]() | Hiragana | 1.0 | 380 | Ch 18.4 | |
Hluw | Anatolische Hieroglyphen (Luwian Hieroglyphen, Hethitenditenhieroglyphen) | links nach rechts![]() | Anatolische Hieroglyphen | 8.0 | 583 | Alt/historisch | Ch 11.6 |
Hmng | Pahawh Hmong | links nach rechts![]() | Pahawh Hmong | 7.0 | 127 | Ch 16.11 | |
HMNP | Nyikeng Puachue Hmong | links nach rechts![]() | Nyikeng Puachue Hmong | 12.0 | 71 | Ch 16.12 | |
Hrkt | Japanische Silben (Alias für Hiragana + Katakana) | vertikaler nach rechts, links nach rechts![]() | Katakana oder Hiragana | Sehen § Hira, § Kana | Ch 18.4 | ||
Aufgehängt | Alter Ungar (ungarischer Runen) | Rechts nach links ![]() | Alter Ungarisch | 8.0 | 108 | Alt/historisch | CH 8.8 |
Inds | Indus (Harappan) | gemischt | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Kursiv | Alte kursiv (etruskische, Oscan usw.) | Rechts nach links, links nach rechts![]() | Alte kursiv | 3.1 | 39 | Alt/historisch | CH 8.6 |
Jamo | Jamo (Alias für Jamo -Untergruppe von Hangul) | variiert | § hängen | - Teilmenge von||||
Java | Javaner | links nach rechts![]() | Javaner | 5.2 | 90 | Ch 17.4 | |
Jpan | Japanisch (Alias für Han + Hiragana + Katakana) | variiert | § Hani, § Hira und § Kana | - Sehen||||
Jurc | Jurchen | links nach rechts | - Nicht in Unicode | ||||
Kali | Kayah li | links nach rechts![]() | Kayah li | 5.1 | 47 | Ch 16.9 | |
Kana | Katakana | vertikaler nach rechts, links nach rechts![]() | Katakana | 1.0 | 320 | Ch 18.4 | |
Kawi | Kawi | links nach rechts | - Nicht in Unicode | ||||
Khar | Kharoshthi | Rechts nach links ![]() | Kharoshthi | 4.1 | 68 | Alt/historisch | Ch 14.2 |
KHMR | Khmer | links nach rechts![]() | Khmer | 3.0 | 146 | Ch 16.4 | |
Khoj | Khojki | links nach rechts![]() | Khojki | 7.0 | 62 | Alt/historisch | Ch 15.7 |
Kitl | Khitaner großes Drehbuch | links nach rechts | - Nicht in Unicode | ||||
Kits | Khitan kleines Drehbuch | vertikaler rechts nach links![]() | Khitan kleines Drehbuch | 13.0 | 471 | Alt/historisch | Ch 18.12 |
Knda | Kannada | links nach rechts![]() | Kannada | 1.0 | 90 | Ch 12.8 | |
Kore | Koreanisch (Alias für Hangul + Han) | links nach rechts | § Hani, § hängen | - Sehen||||
Kpel | Kpelle | links nach rechts | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Kthi | Kaithi | links nach rechts![]() | Kaithi | 5.2 | 68 | Alt/historisch | Ch 15.2 |
Lana | Tai Tham (Lanna) | links nach rechts![]() | Tai Tham | 5.2 | 127 | Ch 16.7 | |
Laoo | Lao | links nach rechts![]() | Lao | 1.0 | 82 | Ch 16.2 | |
Latf | Latein (Fraktur Variante) | variiert | § Latn)) | - typografische Variante von Latein (||||
Latg | Lateinische (gälische Variante) | links nach rechts | § Latn)) | - typografische Variante von Latein (||||
Latn | Latein | links nach rechts![]() | Latein | 1.0 | 1.475 | Siehe auch: Lateinisches Skript in Unicode | CH 7.1 |
Leke | Leke | links nach rechts | - Nicht in Unicode | ||||
LEPC | Lepcha (Róng) | links nach rechts![]() | Lepcha | 5.1 | 74 | Ch 13.12 | |
Glied | Limbu | links nach rechts![]() | Limbu | 4.0 | 68 | Ch 13.6 | |
Lina | Linear a | links nach rechts![]() | Linear a | 7.0 | 341 | Alt/historisch | CH 8.1 |
Linb | Linear b | links nach rechts![]() | Linear b | 4.0 | 211 | Alt/historisch | CH 8.2 |
Lisu | Lisu (Fraser) | links nach rechts![]() | Lisu | 5.2 | 49 | Ch 18.9 | |
Loma | Loma | links nach rechts | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Lyci | Lycian | links nach rechts![]() | Lycian | 5.1 | 29 | Alt/historisch | CH 8.5 |
Lydi | Lydian | Rechts nach links ![]() | Lydian | 5.1 | 27 | Alt/historisch | CH 8.5 |
Mahj | Mahajani | links nach rechts![]() | Mahajani | 7.0 | 39 | Alt/historisch | Ch 15.6 |
Maka | Makasar | links nach rechts![]() | Makasar | 11.0 | 25 | Alt/historisch | Ch 17.8 |
Mand | Mandaik, Mandaean | Rechts nach links ![]() | Mandaik | 6.0 | 29 | CH 9.5 | |
Mani | Manichaean | Rechts nach links ![]() | Manichaean | 7.0 | 51 | Alt/historisch | CH 10.5 |
Marc | MARCHEN | links nach rechts![]() | MARCHEN | 9.0 | 68 | Alt/historisch | Ch 14.5 |
Maya | Mayan hieroglyphs | gemischt | - Nicht in Unicode | ||||
Medf | MEDEFAIDRIN (Oberi Okaime, Oberi ɔkaimɛ) | links nach rechts, links nach rechts![]() | Medefaidrin | 11.0 | 91 | Ch 19.10 | |
Heilen | Mende Kikakui | Rechts nach links ![]() | Mende Kikakui | 7.0 | 213 | Ch 19.8 | |
Merc | Meroitischer Kursiv | Rechts nach links ![]() | Meroitischer Kursiv | 6.1 | 90 | Alt/historisch | Ch 11.5 |
Mero | Meroitische Hieroglyphen | Rechts nach links ![]() | Meroitische Hieroglyphen | 6.1 | 32 | Alt/historisch | Ch 11.5 |
Mlym | Malayalam | links nach rechts![]() | Malayalam | 1.0 | 118 | Ch 12.9 | |
Modi | Modi, Moḍī | links nach rechts![]() | Modi | 7.0 | 79 | Alt/historisch | Ch 15.11 |
Mong | mongolisch | vertikales, links nach rechts![]() | mongolisch | 3.0 | 168 | Mong inklusive Klar und MANCHU Skripte | Ch 13.5 |
Mond | Mond (Mondcode, Mondskript, Mondtyp) | gemischt | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Mroo | MRO, MRU | links nach rechts![]() | Mro | 7.0 | 43 | Ch 13.8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | links nach rechts![]() | Meetei Mayek | 5.2 | 79 | Ch 13.7 | |
Mult | Multani | links nach rechts![]() | Multani | 8.0 | 38 | Alt/historisch | Ch 15.9 |
Mymr | Myanmar (Burmesisch) | links nach rechts![]() | Myanmar | 3.0 | 223 | Ch 16.3 | |
Nagm | Nag Mundari | links nach rechts | - Nicht in Unicode | ||||
NAND | Nandinagari | links nach rechts![]() | Nandinagari | 12.0 | 65 | Alt/historisch | Ch 15.12 |
Narb | Altes Nordarabier (altes Nordarabier) | Rechts nach links, Rechts nach links ![]() | Altes Nordarabier | 7.0 | 32 | Alt/historisch | CH 10.1 |
Nbat | Nabatäisch | Rechts nach links ![]() | Nabatäisch | 7.0 | 40 | Alt/historisch | CH 10.10 |
Newa | Newa, Newar, Newari, Nepāla Lipi | links nach rechts![]() | Newa | 9.0 | 97 | Ch 13.3 | |
NKDB | Naxi Dongba (Na²¹ɕi³stoholes bis Sho²¹, Nakhi Tomba) | links nach rechts | - Nicht in Unicode | ||||
NKGB | Nakhi Geba (Na²¹ɕi³ Gʌ²¹ba²¹, 'Na-'khi ²ggŏ--baw, Nakhi Geba) | links nach rechts | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Nkoo | N'ko | Rechts nach links ![]() | Nko | 5.0 | 62 | Ch 19.4 | |
Nshu | Nüshu | vertikaler rechts nach links![]() | Nushu | 10.0 | 397 | Ch 18.8 | |
Ogam | Ogham | Bottom-to-Top, links nach rechts![]() | Ogham | 3.0 | 29 | Alt/historisch | CH 8.14 |
Olck | Ol Chiki (Ol Cemet ’, OL, Santali) | links nach rechts![]() | Ol Chiki | 5.1 | 48 | Ch 13.10 | |
Orkh | Altes Turkic, Orkhon Runic | Rechts nach links ![]() | Altes Turkic | 5.2 | 73 | Alt/historisch | Ch 14.8 |
Orya | Oriya (Odia) | links nach rechts![]() | Oriya | 1.0 | 91 | Ch 12.5 | |
OSGE | Osage | links nach rechts![]() | Osage | 9.0 | 72 | Ch 20.3 | |
Osma | Osmanya | links nach rechts![]() | Osmanya | 4.0 | 40 | Ch 19.2 | |
OUGR | Alter Uyghur | gemischt | Alter Uyghur | 14.0 | 26 | Alt/historisch | Ch 14.11 |
Palme | Palmyren | Rechts nach links ![]() | Palmyren | 7.0 | 32 | Alt/historisch | CH 10.11 |
Pauc | Pau cin hau | links nach rechts![]() | Pau cin hau | 7.0 | 57 | Ch 16.13 | |
Pcun | Protokiniforme | links nach rechts | - Nicht in Unicode | ||||
Pelm | Proto-Elamit | links nach rechts | - Nicht in Unicode | ||||
Dauerwelle | Altpermisch | links nach rechts![]() | Altpermisch | 7.0 | 43 | Alt/historisch | CH 8.13 |
Phag | PHAGS-PA | vertikales links nach rechts![]() | PHAGS-PA | 5.0 | 56 | Alt/historisch | Ch 14.4 |
PHLI | Inschrift Pahlavi | Rechts nach links ![]() | Inschrift Pahlavi | 5.2 | 27 | Alt/historisch | CH 10.6 |
PHLP | Psalter Pahlavi | Rechts nach links ![]() | Psalter Pahlavi | 7.0 | 29 | Alt/historisch | CH 10.6 |
PHLV | Buch Pahlavi | gemischt | - Nicht in Unicode | ||||
PHNX | phönizisch | Rechts nach links ![]() | phönizisch | 5.0 | 29 | Alt/historisch[g] | CH 10.3 |
Piqd | Klingon (Kli Piqad) | links nach rechts![]() | [ii][III] | - Abgelehnt zur Aufnahme in Unicode||||
PLRD | Miao (Pollard) | links nach rechts![]() | Miao | 6.1 | 149 | Ch 18.10 | |
Prti | Inschrift Parthian | Rechts nach links ![]() | Inschrift Parthian | 5.2 | 30 | Alt/historisch | CH 10.6 |
PSIN | Proto-Sinaitisch | gemischt | - Nicht in Unicode | ||||
QAAA-QABX | Reserviert für den privaten Gebrauch (Bereich) | - Nicht in Unicode | |||||
Ranj | Ranjana | links nach rechts | - Nicht in Unicode | ||||
Rjng | Rejang (Redjang, Kaganga) | links nach rechts![]() | Rejang | 5.1 | 37 | Ch 17.5 | |
Rohg | Hanifi Rohingya | Rechts nach links ![]() | Hanifi Rohingya | 11.0 | 50 | Ch 16.14 | |
Roro | Rongorongo | gemischt | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Runr | Runik | links nach rechts, Bousstrophe ![]() | Runik | 3.0 | 86 | Alt/historisch | CH 8.7 |
Samr | Samariter | Rechts nach links, oben nach unten![]() | Samariter | 5.2 | 61 | CH 9.4 | |
Sara | Sarati | gemischt | - Nicht in Unicode | ||||
Sarb | Altes Südarabier | Rechts nach links ![]() | Altes Südarabier | 5.2 | 32 | Alt/historisch | CH 10.2 |
Saur | Saurashtra | links nach rechts![]() | Saurashtra | 5.1 | 82 | Ch 13.13 | |
SGNW | Signwriting | vertikales links nach rechts![]() | Signwriting | 8.0 | 672 | Ch 21.7 | |
Shaw | Shavian (Shaw) | links nach rechts![]() | Shavier | 4.0 | 48 | CH 8.15 | |
Shrd | Sharada, Śāradā | links nach rechts![]() | Sharada | 6.1 | 96 | Ch 15.3 | |
Shui | Shuishu | links nach rechts | - Nicht in Unicode | ||||
Sidd | Siddham, Siddhaṃ, Siddhamātṛkā | links nach rechts![]() | Siddham | 7.0 | 92 | Alt/historisch | Ch 15.5 |
Sind | Khudawadi, Sindhi | links nach rechts![]() | Khudawadi | 7.0 | 69 | Ch 15.8 | |
Sinh | Sinhala | links nach rechts![]() | Sinhala | 3.0 | 111 | Ch 13.2 | |
Sogd | Sogdian | horizontales und vertikales Schreiben in ostasiatischen Skripten, oben nach unten![]() | Sogdian | 11.0 | 42 | Alt/historisch | Ch 14.10 |
Also geh | Altes Sogdian | Rechts nach links ![]() | Altes Sogdian | 11.0 | 40 | Alt/historisch | Ch 14.9 |
Sora | Sora Sompeng | links nach rechts![]() | Sora Sompeng | 6.1 | 35 | Ch 15.16 | |
Sojo | Soyombo | links nach rechts![]() | Soyombo | 10.0 | 83 | Alt/historisch | Ch 14.7 |
Sonnung | Sundanese | links nach rechts![]() | Sundanese | 5.1 | 72 | Ch 17.7 | |
Sunu | Sunuwar | links nach rechts | - Nicht in Unicode | ||||
Sylo | Syloti Nagri | links nach rechts![]() | Syloti Nagri | 4.1 | 45 | Alt/historisch | Ch 15.1 |
SYRC | Syrien | Rechts nach links ![]() | Syrien | 3.0 | 88 | Enthält typografische Varianten Estrangelo (§ Syre), Westlich (§ Syrj) und östlich (§ Syrn)) | CH 9.3 |
Syre | Syrer (Estrangelo Variante) | gemischt | § SYRC)) | - Typografische Variante von Syrien (||||
Syrj | Syrer (westliche Variante) | gemischt | § SYRC)) | - Typografische Variante von Syrien (||||
Syrn | Syrer (östliche Variante) | gemischt | § SYRC)) | - Typografische Variante von Syrien (||||
Tagb | Tagbanwa | links nach rechts![]() | Tagbanwa | 3.2 | 18 | Ch 17.1 | |
Takr | Takri, ṭākrī, ṭāṅkrī | links nach rechts![]() | Takri | 6.1 | 68 | Ch 15.4 | |
Geschichte | Tai le | links nach rechts![]() | Tai le | 4.0 | 35 | Ch 16.5 | |
Talu | Neuer Tai Lue | links nach rechts![]() | Neuer Tai Lue | 4.1 | 83 | Ch 16.6 | |
Taml | Tamilisch | links nach rechts![]() | Tamilisch | 1.0 | 123 | Ch 12.6 | |
Seetang | Tangut | vertikaler nach rechts, links nach rechts![]() | Tangut | 9.0 | 6,914 | Alt/historisch | Ch 18.11 |
Tavt | Tai Viet | links nach rechts![]() | Tai Viet | 5.2 | 72 | Ch 16.8 | |
Telu | Telugu | links nach rechts![]() | Telugu | 1.0 | 100 | Ch 12.7 | |
Teng | Tengwar | links nach rechts | - Nicht in Unicode | ||||
Tfng | Tifinagh (Berber) | links nach rechts![]() | Tifinagh | 4.1 | 59 | Ch 19.3 | |
Tglg | Tagalog (Baybayin, Alibata) | links nach rechts![]() | Tagalog | 3.2 | 23 | Ch 17.1 | |
Thaa | Thaana | Rechts nach links ![]() | Thaana | 3.0 | 50 | Ch 13.1 | |
Thai | Thai | links nach rechts![]() | Thai | 1.0 | 86 | Ch 16.1 | |
TIBT | Tibetaner | links nach rechts![]() | Tibetaner | 2.0 | 207 | In 1,0 hinzugefügt, in 1,1 entfernt und in 2,0 wieder eingeführt | Ch 13.4 |
Tirh | Tirhuta | links nach rechts![]() | Tirhuta | 7.0 | 82 | Ch 15.10 | |
TNSA | Tangsa | links nach rechts | Tangsa | 14.0 | 89 | Ch 13.18 | |
Toto | Toto | links nach rechts | Toto | 14.0 | 31 | Ch 13.17 | |
Ugar | Ugaritisch | links nach rechts![]() | Ugaritisch | 4.0 | 31 | Alt/historisch | Ch 11.2 |
Vaii | Vai | links nach rechts![]() | Vai | 5.1 | 300 | Ch 19.5 | |
VISP | Sichtbare Rede | links nach rechts | - Nicht in Unicode | ||||
Vith | Vithkuqi | links nach rechts | Vithkuqi | 14.0 | 70 | Alt/historisch | CH 8.12 |
Wara | Warang Citi (Varang Kshiti) | links nach rechts![]() | Warang Citi | 7.0 | 84 | Ch 13.9 | |
WCHO | Wancho | links nach rechts![]() | Wancho | 12.0 | 59 | Ch 13.16 | |
Wole | Woleai | gemischt | [ich] | - Nicht in Unicode, der Vorschlag wird untersucht||||
Xpeo | Alter Perser | links nach rechts![]() | Alter Perser | 4.1 | 50 | Alt/historisch | Ch 11.3 |
Xsux | Keilschrift, Sumero-Akkadian | links nach rechts![]() | Keilschrift | 5.0 | 1,234 | Alt/historisch | Ch 11.1 |
Yezi | Yezidi | Rechts nach links ![]() | Yezidi | 13.0 | 47 | Alt/historisch | CH 9.6 |
Yiii | Yi | links nach rechts![]() | Yi | 3.0 | 1,220 | Ch 18.7 | |
Zanb | Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Drehbuch) | links nach rechts![]() | Zanabazar Square | 10.0 | 72 | Alt/historisch | Ch 14.6 |
Zinh | Code für ererbte Skript | Vererbt | 657 | ||||
ZMTH | Mathematische Notation | - Kein "Skript" in Unicode | |||||
Zsym | Symbole | - Kein "Skript" in Unicode | |||||
Zsye | Symbole (Emoji -Variante) | - Kein "Skript" in Unicode | |||||
ZXXX | Code für ungeschriebene Dokumente | - Kein "Skript" in Unicode | |||||
Zyyy | Code für unbestimmtes Skript | Verbreitet | 8,252 | ||||
Zzzz | Code für nicht kodiertes Skript | Unbekannt | 969,350 | In Unicode: Alle anderen Codepunkte | |||
Anmerkungen
| |||||||
Verweise
|
Normalisierungseigenschaften
Zersetzung, Zersetzungstyp, kanonische Kombinationskurs, Kompositionsausschlüsse und mehr.
Das Alter
Das Alter ist die Version des Standards, in dem der Codepunkt erstmals bezeichnet wurde. Die Versionsnummer wird verkürzt auf die Nummerierung major.minor, obwohl detailliertere Versionsnummern verwendet werden: Versionen 4.0.0 und 4.0.1 werden beide als Alter als Alter bezeichnet. Angesichts der Veröffentlichungen kann das Alter aus dem Bereich betragen: 1.1, 2,0, 2,1, 3,0, 3,1, 3,2, 4,0, 4,1, 5,0, 5,1, 5,2, 6,0, 6,1, 6,2, 6,3, 7,0, 8,0, 9,0, 10.0, 11,0, 11,0, 11,0, 11,0, 11,0, 11,0, 11,0 , 12.0, 12,1, 13,0 und 14.0.[20] Die langen Werte für das Alter beginnen in einem V und verwenden beispielsweise einen Unterstrich anstelle eines Punktes: v1_1.[2] CodePoints ohne spezifisch zugewiesenen Alterswert haben den Wert "NA", wobei die lange Form "nicht zugewiesen" ist.
Veraltet
Sobald ein Charakter definiert wurde, wird er nicht entfernt oder neu zugewiesen.[21] Ein Charakter kann jedoch sein veraltetDas heißt, seine "Verwendung ist stark entmutigt".[22] Ab der Unicode -Version 14.0 sind die folgenden fünfzehn Zeichen veraltet:[23]
Veraltete Zeichen in Unicode | ||||
---|---|---|---|---|
Codepoint | Charaktername | Empfohlene Alternative | Bemerkungen | |
U+0149 | Lateinischer kleiner Buchstaben N, dem Apostroph vorausging | U+02BC U+006E | n | |
U+0673 | Arabischer Buchstaben ALEF mit welligen Hamza unten | U+0627 U+065F | اٟ | |
U+0F77 | Tibetischer Vokalzeichen vokalische RR | U+0fb2 u+0f81[a] | ྲཱ ྀ | |
U+0F79 | Tibetaner Vokalzeichen Vocalic LL | U+0fb3 u+0f81[a] | ླཱ ྀ | |
U+17A3 | Khmer Independent Vokal Qaq | U+17A2 | អ | |
U+17A4 | Khmer Independent Vokal QAA | U+17A2 U+17B6 | អា | |
U+206a | Hemmung des symmetrischen Austauschs | Keiner[b] | ||
U+206B | Aktivieren Sie den symmetrischen Austausch | Keiner[b] | ||
U+206c | Behindern die arabische Formformung | Keiner[b] | ||
U+206d | Aktivieren Sie die arabische Formformung | Keiner[b] | ||
U+206E | Nationale Ziffernformen | Keiner[b] | ||
U+206f | Nominale Ziffernformen | Keiner[b] | ||
U+2329 | Linkszahnwinkelhalterung | U+3008[c] | 〈 | U+27E8 ⟨ Mathematische linke Winkelhalterung wird für mathematische und andere technische Verwendung empfohlen |
U+232a | Rechtswinkelhalterung | U+3009[c] | 〉 | U+27E9 ⟩ Mathematische rechte Winkelhalterung wird für mathematische und andere technische Verwendung empfohlen |
U+E0001 | Sprachetikett | Keiner[d] | ||
|
Grenzen
Der Unicode-Standard gibt die folgenden randbezogenen Eigenschaften an:
- Graphem Cluster
- Wort
- Linie
- Satz
Unicode -Namen aliases Korrektur
Charakter | Name | Alias | |
---|---|---|---|
01a2 | Ƣ | Lateinischer Großbuchstaben oi | Lateinischer Großbuchstaben GHA |
01a3 | ƣ | Lateinischer kleiner Buchstabe oi | Lateinischer kleiner Buchstabe GHA |
0709 | ܉ | Syrisch unter sublinearer Dickdarm rassel | Syrisch unter sublinearer Dickdarm links links |
0cde | ೞ | Kannada Brief fa | Kannada Brief llla |
0e9d | ຝ | Lao -Brief für Tam | Lao Brief für Fon |
0E9f | ຟ | Lao Brief für gesungen | Lao -Brief für Fay |
0EEA3 | ຣ | Lao Brief lo ling | Lao Brief Ro |
0ea5 | ລ | Lao Letter Lo Beute | Lao Brief lo |
0fd0 | ࿐ | Tibetaner Mark Bska-Shog Gi Mggyan | Tibetische Mark Bka-Shog Gi Mggyan |
11ec | ᇬ | Hangul Jongseong Ieung-Kiyeok | Hangul Jongseong Yesyung-Kiyeok |
11ed | ᇭ | Hangul Jongseong Ieung-Ssangkiyeok | Hangul Jongseong Yesiung-Ssangkiyeok |
11ee | ᇮ | Hangul Jongseong Ssangieung | Hangul Jongseong Ssangyesieung |
11ef | ᇯ | Hangul Jongseong Ieung-Khieukh | Hangul Jongseong Yesyung-Khieukh |
2118 | ℘ | Skriptkapital p | Weierstrass Elliptische Funktion |
2448 | ⑈ | OCR Dash | Mikro auf US -Symbol |
2449 | ⑉ | OCR -Kundenkontonummer | Mikro -Dash -Symbol |
2B7A | ⭺ | Linksdreieck köpfte Pfeil mit doppelter horizontaler Strich | Linksdreieck köpfte Pfeil mit doppelter vertikaler Strich |
2B7C | ⭼ | Richtiger Dreieckspfeil mit doppelter horizontaler Strich | Richtiger Dreieckspfeil mit doppelter vertikaler Strich |
A015 | ꀕ | Yi Silbe Wu | Yi Silbe Iteration Marke |
Fe18 | ︘ | Präsentationsform für vertikale rechte weiße linsenförmige Braket | Präsentationsform für vertikale rechte weiße Linsenhalterung |
122d4 | Keilförmiges Zeichen Shir Tenu | Keilförmiges Zeichen Nu11 Tenu | |
122d5 | Keilförmiges Zeichen Shir über Shir bur über Bur | Keilförmiges Zeichen Nu11 über Nu11 bur über bur | |
16e56 | MEDEFAIDRIN Großbuchstaben HP | MEDEFAIDRIN Großbuchstaben h | |
16e57 | Medefaidrin Capital Letter NY | Medefaidrin Capital Letter Ng | |
16e76 | Medefaidrin kleiner Buchstaben HP | Mederaidrin kleiner Buchstaben h | |
16e77 | Medefaidrin kleiner Brief NY | Medefaidrin kleiner Buchstaben ng | |
1B001 | Hiragana Brief archaisch ye | Hentaigana Brief E-1 | |
1D0C5 | Byzantinisches Musiksymbol Fhtora Skloniron Chroma Vasis | Byzantinisches Musiksymbol Fthora Skloniron Chroma Vasis |
Externe Links
- Unicode -Zeichendatenbank, Anhang Nr. 44, Erklärung der verschiedenen Eigenschaften
- Unicodedata.txt - Eine Liste aller Unicode -Zeichen mit ihren Eigenschaften
Verweise
- ^ a b c d e "Der Unicode -Standard, Kapitel 4: Zeicheneigenschaften" (PDF). Unicode, Inc. September 2021. Abgerufen 2021-08-15.
{{}}
: Journal zitieren erfordert|journal=
(Hilfe) - ^ a b c "Unicode Standard Anhang #44: Unicode -Zeichendatenbank". Der Unicode -Standard. 2017-06-14.
- ^ "UCD: Unicode -Daten".
- ^ "UCD: Name Aliase". Unicode -Zeichendatenbank. Unicode -Konsortium. 2019-03-08.
- ^ "Charakterdesignstandards - Space Charaktere". Charakterdesignstandards. Microsoft. 1998–1999. Archiviert von das Original am 23. August 2000. Abgerufen 2009-05-18.
- ^ Der Unicode Standard 5.0, Printed Edition, S.205
- ^ "Allgemeine Zeichensetzung" (PDF). Der Unicode Standard 5.1. Unicode Inc. 1991–2008. Abgerufen 2009-05-13.
- ^ Sargent, Murray III (2006-08-29). "Unicode Fast einfacher Textcodierung der Mathematik (Version 2)". Unicode Technische Note #28. Unicode Inc. S. 19–20. Abgerufen 2009-05-19.
- ^ Gillam, Richard (2002). Unicode entmystifiziert: Ein praktischer Programmierhandbuch zum Codierungsstandard. Addison-Wesley. ISBN 0-201-70052-2.
- ^ a b Hickson, Ian. "12.5 Namens Charakterreferenzen". HTML Standard. Waswg.
- ^ Wolfram. "\ [Negativethickspace]". Wolfram -Sprachdokumentation.
- ^ Wolfram. "\ [Negativemediumspace]". Wolfram -Sprachdokumentation.
- ^ Wolfram. "\ [Negativethinspace]". Wolfram -Sprachdokumentation.
- ^ Wolfram. "\ [Negativverythinspace]". Wolfram -Sprachdokumentation.
- ^ Faltstrom, P., ed. (August 2010). "Null Breite Nicht-Joiner". Die Unicode -Codepunkte und internationalisierten Domainnamen für Anwendungen (IDNA). Ietf. Sek. A.1. doi:10.17487/rfc5892. RFC 5892. Abgerufen 4. September, 2019.
- ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". Die Unicode -Codepunkte und internationalisierten Domainnamen für Anwendungen (IDNA). Ietf. Sek. A.2. doi:10.17487/rfc5892. RFC 5892. Abgerufen 4. September, 2019.
- ^ "Unicode Standard Anhang #44, Unicode -Zeichendatenbank".
- ^ a b "Unicode Standard Anhang Nr. 9: Unicode -Bidirektionalalgorithmus". Der Unicode -Standard. 2017-05-14.
- ^ "Unicode Standard Anhang Nr. 24: Unicode Skript -Eigenschaft". Der Unicode -Standard. 2015-06-01.
- ^ "UCD: Abgeleitete Alter". Unicode -Zeichendatenbank. Unicode -Konsortium. 2021-07-10.
- ^ "Unicode -Charakter -Codierungsstabilitätsrichtlinien". Unicode. Unicode -Konsortium. 2017-06-23. Abgerufen 2021-07-25.
Sobald ein Charakter codiert ist, wird er nicht bewegt oder entfernt.
- ^ "3.4: Zeichen und Codierung, D13: veralteter Zeichen" (PDF). Der Unicode Standard, Version 14.0. Blick auf die Berge: Unicode -Konsortium. 2021-09-14. ISBN 9781936213-290. Abgerufen 2021-09-15.
- ^ "PropList-114.0.0.txt". Unicode. Unicode -Konsortium. 2021-08-12. Abgerufen 2021-09-15.
- ^ "Kapitel 23.3: Veraltete Formatzeichen" (PDF). Der Unicode Standard, Version 13.0. Blick auf die Berge: Unicode -Konsortium. 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25.
- ^ "23.9: Tagzeichen, veraltete Verwendung für das Sprach -Tagging" (PDF). Der Unicode Standard, Version 13.0. Blick auf die Berge: Unicode -Konsortium. 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25.