Unicode -Charaktereigenschaft

Das Unicode Standard weist jedem Unicode -Zeichen verschiedene Eigenschaften zu und Codepunkt.[1][2]

Die Eigenschaften können verwendet werden, um Zeichen (Codepunkte) in Prozessen zu verarbeiten, z. Einige "Zeicheneigenschaften" sind auch für Codepunkte definiert, die kein Zeichen zugewiesen haben, und Codepunkte, die wie "<nicht ein Zeichen>" gekennzeichnet sind. Die Zeicheneigenschaften sind in Standard -Anhang Nr. 44 beschrieben.[2]

Die Eigenschaften haben Ausmaß an Kraft: normativ, informativ, beitragend oder vorläufig. Zur Einfachheit der Spezifikation kann eine Zeicheneigenschaft zugewiesen werden, indem ein kontinuierlicher Bereich von Codepunkten mit derselben Eigenschaft angegeben wird.

Semantische Elemente

Eigenschaften werden angezeigt [3] in der folgenden Reihenfolge:

[Code]; [Name]; [GC]; [CC]; [BC]; [Zersetzung] ;;;; [nv]; [bm]; [alias] ;;;;
  • 'alias' = korrigierter Name
  • 'bc' = bidi (bidirektionale) Kategorie [l, r usw.]
  • 'bm' = bidi spiegelte [n oder y]
  • 'cc' = kombinierende Klasse [Position der Diakritikum]
  • Zersetzung = Buchstabe + diakritisch, Ligatur x y, Superskript X, Schrift X, Anfangs x, medial x, endgültig x, isoliert x, vertikal x usw.
  • 'GC' = Allgemeine Kategorie [Buchstabe, Symbol, Ziffer, Interpunktion, Fallverhalten usw.]
  • 'nv' = numerischer Wert [einer Ziffer]

Name

Ein Unicode -Zeichen wird einem eindeutigen zugewiesen Name (n / A).[1] Der Name besteht aus Großbuchstaben A-Z, Ziffern 0–9, Hyphen-Minus (-) und Space (). Einige Sequenzen sind ausgeschlossen: Namen, die mit einem Raum oder bei einem Bindestrich beginnen, Namen, die mit einem Raum oder einem Bindestrich enden, wiederholte Räume oder Bindestriche und Raum nach Bindestrich sind nicht zulässig. Der Name ist garantiert in Unicode eindeutig und kann verwendet werden, um einen Codepunkt und sein Zeichen zu identifizieren. Ideografische Charaktere, von denen es Zehntausende gibt, werden im Muster benannt. "CJK Unified Ideograph-HHHH". Zum Beispiel, U+4e00 CJK Unified ideograph-4e00. Formatierende Zeichen werden auch benannt: U+00A0   No-Break-Raum.

Die folgenden Klassen von Codepunkten haben keinen Namen (Na = ""): Kontrollen (allgemeine Kategorie: CC), private Verwendung (CO), Ersatz (CS), Nichtcharakterien (CN) und Reserved (CN). Sie können informell durch einen generischen oder spezifischen Meta-Namen mit dem Namen "Code Point Labels" bezeichnet werden: <Rontroll>, <Rontroll-0088>, <reserved>, <nonaracter-HHHH>, <privat eingebraucht-HHHH> oder <Surerogate>. Da diese Etiketten <>-Klammern enthalten, können sie niemals als Name erscheinen, was Verwirrung verhindert.

Version 1.0 Namen

In Version 2.0 von Unicode wurden viele Namen geändert. Von da an trat die Regel "Ein Name wird sich nie ändern" in Kraft, einschließlich der strengen (normativen) Verwendung von Alias ​​-Namen. Die nicht verwendeten Version 1.0-Names wurden in den Alias ​​der Eigenschaft verschoben, um eine gewisse Abwärtskompatibilität zu gewährleisten.

Charaktername alias

Ab der Unicode Version 2.0 wird sich der veröffentlichte Name für einen Codepunkt nie ändern. Daher, wenn ein Charaktername falsch geschrieben wird oder wenn der Charaktername völlig falsch oder ernsthaft irreführend ist, eine formelle Charaktername alias kann dem Zeichen zugeordnet werden, und dieser Alias ​​kann von Anwendungen anstelle des tatsächlichen defekten Zeichennamens verwendet werden.[1] Zum Beispiel, U+Fe18 Präsentationsform für vertikale rechte weiße linsenförmige Braket Hat der Charaktername alias "Präsentationsformular für vertikale rechte weiße Linsenklasse", um die Rechtschreibfehler von "Klammer" als "Brakcet" im tatsächlichen Charakternamen zu mildern. U+A015 Yi Silbe Wu Hat der Charaktername alias "Yi Silben -Iterationsmarke", weil er im Gegensatz zum Charakternamen keinen festen Silbenwert hat.

Zusätzlich zu den Aliase des Zeichennamens, die Korrekturen für defekte Zeichennamen sind, werden einige Zeichen Aliase zugewiesen, die alternative Namen oder Abkürzungen sind. Fünf Arten von Charakternamen -Aliase sind im Unicode -Standard definiert:

  • Korrektur: Korrekturen für falsch geschriebene oder ernsthaft falsche Zeichennamen;
  • Kontrolle: ISO 6429 Namen für C0- und C1 -Kontrollfunktionen (denen im Unicode -Standard nicht zugewiesen wird);
  • Alternative: Alternative Namen für einige Formatzeichen (nur U+Feff "Null Breite No-Break-Raum", der die alias-Byte-Ordnung markierte ");
  • Figment: Dokumentierte Beschriftungen für einige C1 -Kontrollcodefunktionen, die in keiner Standard tatsächliche Namen sind;
  • Abkürzung: Abkürzungen oder Akronyme für Kontrollcodes, Formatzeichen, Räume und Variationswählern.

Alle formalen Charakternamen -Aliase folgen den Regeln für zulässige Charakternamen und sind garantiert sowohl im Alias ​​des Charakters Namen als auch in den Charakternamennamen garantiert (aus diesem Grund ist der iSO 6429 -Name "Bell" nicht als Alias ​​für u definiert +0007, weil u+1f514 "Bell" heißt).[1]

Ab UNICODE Version 12.1 werden Aliase mit achtundzwanzig formalen Zeichen als Korrekturen für defekte Zeichennamen definiert.[4] Diese sind aufgeführt unter.

Abgesehen von diesen normativen Namen,, informelle Namen kann in den Unicode -Code -Diagrammen angezeigt werden. Dies sind andere häufig verwendete Namen für ein Zeichen und haben nicht die gleiche Zeichenbeschränkung. Diese informellen Namen sind nicht garantiert eindeutig und können in späteren Versionen des Standards geändert oder entfernt werden.

Allgemeine Kategorie

Jedem Codepunkt wird ein Wert für die allgemeine Kategorie zugewiesen. Dies ist eine der Zeicheneigenschaften, die auch für nicht zugewiesene Codepunkte und Codepunkte definiert sind, die "nicht ein Zeichen" definiert sind.

Allgemeine Kategorie (Unicode Charaktereigenschaft)[a]
Wert Kategorie Major, Moll Grundtyp[b] Zeichen zugewiesen[b] Zählen[c]
(ab 14.0)
Bemerkungen
 
L, Brief; LC, Cased Letter (Nur Lu, LL und LT)[d]
Lu Brief, Großbuchstaben Grafik Charakter 1.831
Ll Brief, Kleinbuchstaben Grafik Charakter 2,227
Lt Brief, Titlecase Grafik Charakter 31 Ligaturen In Großbuchstaben enthält, gefolgt von Kleinbuchstaben (z. B.,, Dž, Lj, Nj, und Dz))
Lm Brief, Modifikator Grafik Charakter 334 A Modifikator Brief
LO Brief, andere Grafik Charakter 127.333 Ein Ideograf oder ein Brief in a Unicase Alphabet
M, Markieren
Mn Mark, nicht spalt Grafik Charakter 1.950
MC Mark, Abstand kombiniert Grafik Charakter 445
Mir Mark, umgeben Grafik Charakter 13
N, Nummer
Nd Nummer, Dezimalstelligkeit Grafik Charakter 660 All diese und nur diese haben Numerischer Typ = De[e]
Nl Nummer, Brief Grafik Charakter 236 Ziffern aus Buchstaben oder Buchstaben wie Symbolen (z. B.,, römische Zahlen))
Nein Nummer, andere Grafik Charakter 895 Z.B., vulgäre Brüche, Superscript und Index Ziffern
P, Zeichensetzung
PC Interpunktion, Stecker Grafik Charakter 10 Enthält "_" unterstreichen
PD Interpunktion, Dash Grafik Charakter 26 Enthält mehrere Bindestrich Figuren
Ps Interpunktion, offen Grafik Charakter 79 Öffnung Klammer Figuren
Sport Interpunktion, schließen Grafik Charakter 77 Schließen von Halterungen
Pi Interpunktion, Erstes Zitat Grafik Charakter 12 Öffnung Anführungszeichen. Enthält nicht die ASCII -Zitatmarke "neutral". Kann sich je nach Verwendung wie PS oder PE verhalten
Pf Interpunktion, endgültiges Zitat Grafik Charakter 10 Schließungszitatsmarke. Kann sich je nach Verwendung wie PS oder PE verhalten
Po Interpunktion, andere Grafik Charakter 605
S, Symbol
Sm Symbol, Mathematik Grafik Charakter 948 Mathematische Symbole (z.B., +, , =, ×, ÷, , , ). Enthält keine Klammern und Klammern, die sich in Kategorien ps und pe befinden. Schließt auch nicht ein !, *, -, oder /, die trotz häufiger Verwendung als mathematische Operatoren in erster Linie als "Interpunktion" angesehen werden.
Sc Symbol, Währung Grafik Charakter 63 Währungssymbole
SK Symbol, Modifikator Grafik Charakter 125
So Symbol, andere Grafik Charakter 6,605
Z, Separator
Zs Trennzeichen, Raum Grafik Charakter 17 Schließt den Raum ein, aber nicht TAB, Cr, oder Lf, die CC sind
Zl Trennzeichen, Linie Format Charakter 1 Nur U+2028 Zeilenabscheider (LSEP)
ZP Trennzeichen, Absatz Format Charakter 1 Nur U+2029 Absatzabscheider (PSEP)
C, Sonstiges
CC Andere, Kontrolle Kontrolle Charakter 65 (wird sich nie ändern)[e] Kein Name,[f]
Vgl Andere Format Format Charakter 163 Includes the weicher Bindestrich, Verbinden von Kontrollfiguren (Zwnj und Zwj), kontrollieren Zeichen zur Unterstützung bidirektionaler Text, und Sprachetikett Figuren
CS Andere, Ersatz Surrogat Nicht (nur verwendet in UTF-16)) 2.048 (wird sich nie ändern)[e] Kein Name,[f]
CO Andere, private Verwendung Privater Gebrauch Charakter (aber keine Interpretation angegeben) 137.468 insgesamt (wird sich nie ändern)[e] (6.400 in Bmp, 131.068 in Flugzeuge 15–16) Kein Name,[f]
CN Andere, nicht zugewiesen Nichtcharakter Nicht 66 (wird sich nie ändern)[e] Kein Name,[f]
Reserviert Nicht 829.768 Kein Name,[f]
  1. ^ "Tabelle 4-4: Allgemeine Kategorie" (PDF). Der Unicode -Standard. Unicode -Konsortium. September 2021.
  2. ^ a b "Tabelle 2-3: Arten von Codepunkten" (PDF). Der Unicode -Standard. Unicode -Konsortium. September 2021.
  3. ^ "AbgeleiteteNeralcategory.txt". Das Unicode -Konsortium. 2021-07-10.
  4. ^ "5.7.1 Allgemeine Kategoriewerte". UTR #44: Unicode -Zeichendatenbank. Unicode -Konsortium. 2020-03-04.
  5. ^ a b c d e Unicode -Charakter -Codierungsstabilitätsrichtlinien: Eigenschaftswertstabilität Stabilitätspolitik: Einige GC -Gruppen werden sich nie ändern. gc = nd entspricht dem numerischen Typ = DE (dezimal).
  6. ^ a b c d e "Tabelle 4-9: Konstruktion von Codepunktetiketten" (PDF). Der Unicode -Standard. Unicode -Konsortium. September 2021. A Codepunktbezeichnung Kann verwendet werden, um einen namenlosen Codepunkt zu identifizieren. Z.B. <Kontrolle-HHHH>, <Rontroll-0088>. Der Name bleibt leer, was verhindern kann, dass es versehentlich einen Kontrollnamen mit einem echten Kontrollcode ersetzt. Unicode verwendet auch <kein Zeichen> für <noncharacter>.

Interpunktion

Zeichen haben separate Eigenschaften, um zu bezeichnen, dass sie a sind Interpunktion Charakter. Die Eigenschaften haben alle a Ja/Nein -Werte: Bindestrich, Anführungszeichen, Satz_terminal, Terminal_punctuation.

Whitespace

Whitespace ist ein häufig verwendetes Konzept für einen typografischen Effekt. Grundsätzlich deckt es unsichtbare Zeichen ab, die einen Abstandseffekt im gerenderten Text haben. Es enthält Räume, Registerkarten und neue Leitungsformatierungssteuerungen. In Unicode hat ein solches Zeichen die Eigenschaft "wSpace = yes". In Version 14.0 gibt es 25 Whitespace -Zeichen.

Name Codepunkt Breitenbox Kann brechen? Im
Idn?
Skript Block Allgemein
Kategorie
Anmerkungen
Charakter Tabelle U+0009 9 Ja Nein Verbreitet Grundlatein Sonstiges,
Kontrolle
HT, Horizontale Registerkarte. HTML/XML genannte Entität: &Tab;, Latex: '\ tab', c Escape: '\ T'
Zeilenvorschub U+000A 10 Ist ein Zeilenaufbruch Verbreitet Grundlatein Sonstiges,
Kontrolle
Lf, Zeilenvorschub. HTML/XML namens Entity: &Neue Zeile;, C Escape: '\ n'
Zeilentabelle U+000B 11 Ist ein Zeilenaufbruch Verbreitet Grundlatein Sonstiges,
Kontrolle
VT, Vertikale Registerkarte. C Escape: '\ V'
Formfutter U+000C 12 Ist ein Zeilenaufbruch Verbreitet Grundlatein Sonstiges,
Kontrolle
Ff, Formfutter. C Escape: '\ f'
Kutschenrückkehr U+000D 13 Ist ein Zeilenaufbruch Verbreitet Grundlatein Sonstiges,
Kontrolle
CR, CR, Kutschenrückkehr. C Escape: '\ r'
Platz U+0020 32 Ja Nein Verbreitet Grundlatein Separator,
Platz
Am häufigsten (normaler ASCII -Raum)
nächste Zeile U+0085 133 Ist ein Zeilenaufbruch Verbreitet Latein-1
Ergänzung
Sonstiges,
Kontrolle
Nel, Nächste Zeile
No-Break-Raum U+00A0 160   Nein Nein Verbreitet Latein-1
Ergänzung
Separator,
Platz
Nicht bahnbrechender Raum: identisch mit U+0020, aber kein Punkt, an dem eine Linie gebrochen werden kann. HTML/XML namens Entity:  , & Nonbreakingspace; Latex: '\'
Ogham Space Mark U+1680 5760 Ja Nein Ogham Ogham Separator,
Platz
Benutzt für Interword -Trennung in Ogham Text. Normalerweise eine vertikale Linie im vertikalen Text oder eine horizontale Linie im horizontalen Text, kann aber auch ein leerer Raum in "stammlosen" Schriftarten sein. Benötigt eine Ogham -Schriftart.
en quad U+2000 8192   Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Breite eines en. U+2002 entspricht kanonisch diesem Charakter; U+2002 wird bevorzugt.
Em Quad U+2001 8193 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Auch als "Mutton Quad" bekannt. Breite eines em. U+2003 entspricht kanonisch diesem Charakter; U+2003 wird bevorzugt.
en Raum U+2002 8194 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Auch als "Nuss" bekannt. Breite eines en. U+2000 EN Quad entspricht kanonisch zu diesem Charakter; U+2002 wird bevorzugt. HTML/XML namens Entity: , Latex: '\ Enspace'
EM Raum U+2003 8195 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Auch als "Hammelmut" bekannt. Breite eines em. U+2001 Em Quad entspricht kanonisch zu diesem Charakter; U+2003 wird bevorzugt. HTML/XML namens Entity: , Latex: '\ Quad'
Drei-pro-EM-Raum U+2004 8196 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Auch als "dicker Raum" bekannt. Ein Drittel eines EM breit. HTML/XML namens Entity: & emsp13;
Vier-pro-EM-Raum U+2005 8197 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Auch als "Mid Space" bekannt. Ein Viertel eines EM breit. HTML/XML namens Entity: & emsp14;
Sechs-per-E-Raum U+2006 8198 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Ein Sechstel eines EM breit. In der Computertypographie, manchmal mit U+2009 gleichgesetzt.
Figurenraum U+2007 8199 Nein Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Figurenraum. In Schriftarten mit Monospaced -Ziffern, gleich der Breite einer Ziffer. HTML/XML namens Entity: & numsp;
Interpunktionsraum U+2008 8200 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
So breit wie die schmale Interpunktion in einer Schriftart, d. H. Die Vorausbreite des Zeitraums oder des Kommas.[5] HTML/XML namens Entity: & puncsp;
dünner Raum U+2009 8201 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Dünner Raum; Ein Fünftel (manchmal ein Sechstel) eines EM breit. Empfohlen für die Verwendung als Tausendertrennzeichen für Maßnahmen mit SI-Einheiten. Im Gegensatz zu U+2002 bis U+2008 kann die Breite beim Typensatz angepasst werden.[6] HTML/XML namens Entity: , & Thinspace, Latex: '\,'
Haarraum U+200a 8202 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Dünner als ein dünner Raum. HTML/XML namens Entity: & hairsp; & Sehr (funktioniert nicht in allen Browsern)
Zeilenabscheider U+2028 8232 Ist ein Zeilenaufbruch Verbreitet Allgemein
Interpunktion
Separator,
Linie
Absatzabscheider U+2029 8233 Ist ein Zeilenaufbruch Verbreitet Allgemein
Interpunktion
Separator,
Absatz
enger Raum ohne Break U+202f 8239 Nein Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
Enger Raum ohne Break. Ähnlich in der Funktion wie U+00A0 No-Break-Raum. Bei der Verwendung mit mongolisch ist die Breite normalerweise ein Drittel des normalen Raums; In einem anderen Kontext ähnelt seine Breite manchmal der der der Dünner Raum (U+2009).
mittlerer mathematischer Raum U+205f 8287 Ja Nein Verbreitet Allgemein
Interpunktion
Separator,
Platz
MMSP. Verwendet in mathematischen Formeln. Vierhaut eines EMs.[7] In der mathematischen Typografie werden die Räumenbreiten normalerweise in integralen Vielfachen eines achtzehnten EM angegeben, und 4/18 EM können in mehreren Situationen verwendet werden, beispielsweise zwischen dem a und die + und zwischen dem + und die b im Ausdruck a+b.[8] HTML/XML namens Entity: & Mittelpreis;
ideografischer Raum U+3000 12288   Ja Nein Verbreitet CJK -Symbole
und
Interpunktion
Separator,
Platz
So breit wie CJK Charakterzelle (Gesamtbreite). Zum Beispiel in verwendet in Tai tou.
Name Codepunkt Breitenbox Kann brechen? Im
Idn?
Skript Block Allgemein
Kategorie
Anmerkungen
mongolischer Vokalabscheider U+180e 6158 Ja Nein mongolisch mongolisch Sonstiges,
Format
MVS. Ein schmaler Weltraumcharakter, der auf mongolisch verwendet wird, um die letzten beiden Zeichen eines Wortes unterschiedliche Formen anzunehmen.[9] Es wird in Unicode 6.3.0 nicht mehr als Weltraumcharakter (d. H. In ZS -Kategorie) klassifiziert, obwohl es in früheren Versionen des Standards war.
Null Breite Platz U+200b 8203 Ja Nein ? Allgemein
Interpunktion
Sonstiges,
Format
ZwSP, Null-Breitenraum. Wird verwendet, um Word -Grenzen für Textverarbeitungssysteme anzuzeigen, wenn Skripte verwendet werden, die keinen expliziten Abstand verwenden. Es ähnelt dem weicher Bindestrich, mit dem Unterschied, dass letzteres verwendet wird, um Silbengrenzen anzuzeigen, und sollte einen sichtbaren Bindestrich anzeigen, wenn die Linie darin bricht. HTML/XML genannte Entität: & ZerowidthSpace;[10][c]
Null Breite Nicht-Joiner U+200c 8204 Ja Kontext abhängig[15] ? Allgemein
Interpunktion
Sonstiges,
Format
Zwnj, Null-Width-Nicht-Joiner. Wenn ein Zwnj zwischen zwei Zeichen platziert wird, die ansonsten miteinander verbunden würden, werden sie in ihren endgültigen bzw. anfänglichen Formen gedruckt. HTML/XML namens Entity:
Null -Breiten -Tischler U+200d 8205 Ja Kontext abhängig[16] ? Allgemein
Interpunktion
Sonstiges,
Format
Zwj, Null-Breiten-Tischler. Wenn ein ZwJ zwischen zwei Zeichen platziert wird, die sonst nicht verbunden würden, werden sie in ihren verbundenen Formen gedruckt. Kann auch verwendet werden, um Verbindungsformen isoliert anzuzeigen. Je nachdem, ob eine Ligatur oder eine Konjunktion standardmäßig erwartet wird, kann entweder (als in Emoji und in singhala) oder unterdrücken (wie in Devanagari) Substitution durch eine einzelne Glyphe, während sie dennoch die Verwendung einzelner Verbindungsformen (im Gegensatz zu ZWNJ) ermöglichen. HTML/XML namens Entity:
Wort Joiner U+2060 8288 Nein Nein ? Allgemein
Interpunktion
Sonstiges,
Format
W J, Wort Joiner. Ähnlich wie U+200b, aber kein Punkt, an dem eine Linie gebrochen werden kann. HTML/XML namens Entity: &Keine Pause;
Null Breite nicht bahnbrechender Raum U+feff 65279  Nein Nein ? Arabisch
Präsentation
Formen-b
Sonstiges,
Format
Null-Breiten-nicht-bahnbrechender Raum. In erster Linie als Byte -Bestellmarke. Die Verwendung als Hinweis auf Nichtbrechung wird als Unicode 3.2 veraltet; Sehen Sie stattdessen U+2060.
  1. ^ White_space ist eine binäre Unicode -Eigenschaft.[17]
  2. ^ "Unicode 14.0 UCD: propList.txt". 2021-08-12. Abgerufen 2021-09-15.
  3. ^ Obwohl & ZerowidthSpace; ist ein HTML5 -namentlicher Entität für U+200b, die zusätzlichen Namen Negativemediumspace, Negativethickspace, Negativethinspace und Negativverspätung (die Namen sind in der verwendeten Wolfram Sprache für negative Räume, die es dem ordnungsgemäß Privatnutzungsbereich)[11][12][13][14] sind auch definiert von HTML5 als Aliase für U+200b (z. & Negativemediumspace;).[10]


Andere allgemeine Merkmale

Ideografische, alphabetische, Nichtcharakter.

Klasse kombinieren

Einige gemeinsame Codes:

0 = Abstandsbuchstaben, Symbol oder Modifikator (z. B. a, (, ʰ)
1 = Overlay
6 = Han Reading (cjk diakritische Lesespuren)
7 = nukta (diakritisch Nukta in Brahmische Skripte)
8 = Kana -Stimmmarkierungen
9 = Virama

10–199 = verschiedene Klassen mit fester Position

Markierungen, die am Basisbuchstaben angeschlossen sind:

200 = unten links angehängt
202 = direkt unten angehängt (z. B. Cedilla auf ç)
204 = unten rechts angebracht
208 = nach links angebracht
210 = rechts angeschlossen
212 = nach oben links befestigt
214 = direkt oben beigefügt
216 = oben rechts angebracht

Markierungen, die sich nicht am Basisbuchstaben befinden:

218 = unten links unten
220 = direkt unten (z. B. Ring auf N̥)
222 = unten rechts
224 = links
226 = richtig
228 = oben links
230 = oben (z. B. akuter Akzent auf á)
232 = oben rechts
233 = doppelt unten (Untersuchungen zwei Basen)
234 = doppelt oben (erweitert zwei Basen)
240 = IOTA -Index (Nur diese griechische diakritische)

Anzeigebezogene Eigenschaften

Formbildung, Breite.

Bidirektionales Schreiben

Sechs Charaktereigenschaften beziehen sich auf das bidirektionale Schreiben: bidi_class, bidi_control, bidi_mirrored, bidi_mirroring_glyph, bidi_paired_bracket und biden_paired_bracket_type.

Eines der Hauptmerkmale von Unicode ist die Unterstützung von bidirektional (Bidi) Textanzeige von rechts nach links (r-to-l) und links nach rechts (L-to-R). Der bidirektionale Unicode -Algorithmus UAX9[18] beschreibt den Prozess der Präsentation von Text mit Änderungskriptanweisungen. Zum Beispiel ermöglicht es ein hebräisches Zitat in einem englischen Text. Das Verhalten eines Charakters im Richtungsschreiben markiert das Verhalten eines Charakters. Um eine Richtung zu überschreiben, hat Unicode Special definiert Formatieren von Steuerzeichen (Bidi-Controls). Diese Charaktere können eine Richtung durchsetzen und beeinflussen per Definition nur das bidirektionale Schreiben.

Jeder Codepunkt hat eine Eigenschaft genannt Bidi_class. Es definiert sein Verhalten in einem bidirektionalen Text, der vom Algorithmus interpretiert wird:

Bidirektionaler Charaktertyp ( Bidi_class Unicode Charaktereigenschaft)[1]
Typ[2] Beschreibung Stärke Direktionalität Allgemeiner Umfang Bidi_control Zeichen[3]
L Links nach rechts Stark L-to-r Die meisten alphabetischen und schmylabischen Charaktere, chinesische Charaktere, nichteuropäische oder nicht arabische Ziffern, LRM-Charakter, ... U+200e links nach rechts (LRM)
R Rechts nach links Stark R-to-l Adlam, Hebräisch, Mandaik, Mende Kikakui, N'ko, Samaritan, alte Drehbücher wie Kharoshthi und Nabataean, RLM Charakter, ... U+200f rechts nach links (RLM)
Al Arabischer Brief Stark R-to-l Arabisch, Hanifi Rohingya, Sogdian, Syrien- und Thaana -Alphabete sowie die meisten Interpunktionszeichen für diese Skripte, ALM -Charakter, ... U+061C Arabische Buchstabe Mark (ALM)
En Europäische Zahl Schwach Europäische Ziffern, ostarabisch-indische Ziffern, koptische Epaktnummern, ...
Es Europäischer Separator Schwach Pluszeichen, Minuszeichen, ...
ET Europäische Zahlen -Terminator Schwach Abschlusszeichen, Währungssymbole, ...
EIN Arabische Zahl Schwach Arabisch-indische Ziffern, arabische Dezimalzahl und Tausende Separatoren, Rumi-Ziffern, Hanifi Rohingya-Ziffern, ...
CS Gemeinsame Zahlenabscheider Schwach Doppelpunkt, Komma, Punkt, No-Break-Raum, ...
NSM Nonspacing Mark Schwach Charaktere im Allgemeinen Kategorien Marke, Nonspacing und Mark, einschließen (MN, ME)
Bn Grenzneutral Schwach Standard-unwissende, Nichtcharakter- und Kontrollzeichen als diejenigen, die explizit andere Typen haben
B Absatzabscheider Neutral Absatzabscheider, entsprechende Neue Line-Funktionen, höhere Protokollabsätze auf höherer Ebene
S Segmentabscheider Neutral Registerkarten
WS Whitespace Neutral Platz, Figurenraum, Zeilenabscheider, Formfutter, Allgemeine Zeichensetzung Blockräume (kleinerer Satz als die Unicode Whitespace aufführen)
AN Andere Neutrale Neutral Alle anderen Charaktere, einschließlich Objektersatzcharakter
Lre Einbettung von links nach rechts Explizit L-to-r Nur Charakter U+202a links nach rechts Einbettung (LRE)
Lro Überschreibung von links nach rechts Explizit L-to-r Nur LRO -Charakter U+202d links nach rechts (LRO)
RLE Einbettung von Recht nach links Explizit R-to-l Nur RLE -Charakter U+202B Recht nach links Einbettung (RLE)
Rlo Recht nach links Explizit R-to-l Nur RLO -Charakter U+202e rechts von linft (RLO) (RLO)
PDF Pop -Richtungsformat Explizit Nur PDF -Charakter U+202C Pop Richtungsformatierung (PDF)
LRI Links zu rechts Isolat Explizit L-to-r Nur LRI -Charakter U+2066 links nach rechts Isolat (LRI)
Rli Recht nach links Explizit R-to-l Nur RLI -Charakter U+2067 rechts nach links (RLI)
FSI Erster starkes Isolat Explizit Nur FSI -Charakter U+2068 Erstes starkes Isolat (FSI)
PDI Pop -Richtungs -Isolat Explizit Nur PDI -Charakter U+2069 Pop -Richtungs -Isolat (PDI)
Anmerkungen
1. ^ Unicode -bidirektionaler Algorithmus (UAX#9)Ab der Unicode Version 12.0
2. ^ Mögliche bidirektionale Charaktertypen Für Zeicheneigenschaften: bidi_class oder 'type'
3. ^ Bidi_control Zeichen: Zwölf bidi_control -Formatierungszeichen werden definiert. Sie sind unsichtbar und haben keinen Einfluss, abgesehen von der Direktionalität. Neun von ihnen haben eine einzigartige, überschreibende Bid-i-Art, die vom Algorithmus verwendet wird. Ihr Typ ist auch ihr Akronym (z. B. Charakter 'lre' hat Bidi -Typ 'lre').

In normalen Situationen kann der Algorithmus die Richtung eines Textes durch diese Zeicheneigenschaft bestimmen. Um komplexere Bidi -Situationen zu kontrollieren, z. Wenn ein englischer Text ein hebräisches Zitat hat, werden Unicode zusätzliche Optionen hinzugefügt. Zwölf Zeichen haben die Eigenschaft Bidi_control = ja: ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM und RLO, wie in der Tabelle benannt. Dies sind unsichtbare Formatierungssteuerzeichen, die nur vom Algorithmus und ohne Auswirkung außerhalb der bidirektionalen Formatierung verwendet werden.[18] Trotz des Namens formatieren sie Zeichen, steuern keine Zeichen und verfügen über eine allgemeine Kategorie "Andere Format (vgl.)" In der Unicode -Definition.

Grundsätzlich bestimmt der Algorithmus eine Abfolge von Zeichen mit dem gleichen starken Richttyp (R-to-L) oder L-to-r), berücksichtigen Sie eine Übersteuerung der speziellen Bidi-Controls. Zahlenzeichenfolgen (schwache Typen) werden eine Richtung gemäß ihrer starken Umgebung zugewiesen, ebenso wie neutrale Zeichen. Schließlich werden die Zeichen gemäß der Richtung einer Zeichenfolge angezeigt.

Zwei Zeicheneigenschaften sind relevant für die Bestimmung eines Spiegelbildes einer Glyphe im bidirektionalen Text: BIDI_MIRRORD = JA Zeigt an, dass der Glyphe bei geschriebenem R-zu-L gespiegelt werden sollte. Die Eigenschaft BIDI_MIRRORING_GLYPH = U+HHHH kann dann auf den gespiegelten Charakter zeigen. Zum Beispiel werden Klammern "()" auf diese Weise gespiegelt. Die Gestaltung von kursiven Skripten wie Arabisch und spiegelenden Glyphen mit einer Richtung ist nicht Teil des Algorithmus.

Gehäuse

Der Fallwert ist in Unicode normativ. Es bezieht sich auf diese Skripte mit Großbuchstaben (auch bekannt als Hauptstadt, Majuscule) und der Kleinbuchstaben (auch bekannt als kleiner, winziger) Buchstaben. Falldifferenz tritt in Adlam, Armenier, Cherokee, Koptisch, kyrillisch, Deseret, Glagolitik, Griechisch, Khutsuri und Mkhedruli Georgian, Latein, Medefaidrin, Old Ungarn, Osage, Vithkuqi und Warang Citi-Schriften auf.

(Obere, untere, Titel, Falten - sowohl einfach als auch voll)

Numerische Werte und Typen

Dezimal

Charaktere werden mit a klassifiziert Numerischer Typ.[1] Zeichen wie Brüche, Indexs, Superschriften, römische Ziffern, Währungszahlen, umkreiste Zahlen und skriptspezifische Ziffern sind typisch numerisch. Sie haben ein Zahlenwert Das kann dezimal sein, einschließlich Null und Negativ, oder einer vulgären Bruchschaft. Wenn es keinen solchen Wert gibt, wie bei den meisten Zeichen, ist der numerische Typ "keine".

Die Zeichen, die einen numerischen Wert haben, sind in drei Gruppen getrennt: Dezimal (DE), Ziffern (di) und numerisch (nu, d. H. Alle anderen). "Dezimal" bedeutet, dass der Charakter eine gerade Dezimalfigur ist. Nur Zeichen, die Teil eines zusammenhängenden codierten Bereichs 0 sind. Andere Ziffern haben, wie Superscripts, eine numerische Ziffer. Alle numerischen Zeichen wie Brüche und römische Ziffern haben den Typ "numerisch". Der beabsichtigte Effekt ist, dass ein einfacher Parser diese dezimalen numerischen Werte verwenden kann, ohne durch ein numerisches Superschriften oder eine Fraktion abgelenkt zu werden. Dreiundsiebzig CJK-Ideografien, die eine Zahl darstellen, einschließlich der für die Buchhaltung verwendeten, werden numerisch getippt.

Andererseits sind Zeichen, die einen numerischen Wert als zweite Bedeutung haben könnten, immer noch als numerischer Typ "None" gekennzeichnet und haben keinen numerischen Wert (""). Z.B. Lateinische Buchstaben können in Absatznummerierung wie "II.A.1.B" verwendet werden, aber die Buchstaben "I", "A" und "B" sind nicht numerisch (Typ "keine") und haben keinen numerischen Wert.

Numerischer Typ[a][b](Unicode Charaktereigenschaft)
Numerischer Typ Code Hat numerischen Wert Beispiel Bemerkungen
Nicht numerisch Nein
  • A
  • X(Latein)
  • !
  • Д
  • μ
Numerischer Wert = "Nan"
Dezimal De Ja
  • 0
  • 1
  • 9
  • (Devanagari 6)
  • (Kannada 6)
  • (Mathematische, gestaltete Sans Serife)
Gerade Ziffer (Dezimal-Radix). Entspricht in beide Richtungen mit Allgemeine Kategorie= Nd[a]
Ziffer Di Ja
  • ¹(Superscript)
  • (Ziffer mit voller Stopp)
Dezimal, aber im typografischen Kontext
Numerisch Nu Ja
  • ¾
  • (Tamil Nummer zehn)
  • (Römische Ziffer)
  • (Han Nummer 6)
Numerischer Wert, aber nicht Dezimalradix
a. ^ "Abschnitt 4.6: Numerischer Wert" (PDF). Der Unicode -Standard. Unicode -Konsortium. September 2021.
b. ^ "Unicode 14.0 abgeleitete numerische Typen". Unicode -Zeichendatenbank. Unicode -Konsortium. 2021-03-08.

Hexadezimalstellen

Hexadezimal Charaktere sind die in der Serie mit hexadezimalen Werten 0 ... 9ABCDEF (sechzehn Zeichen, Dezimalwert 0–15). Die Charaktereigenschaft Hex_digit ist auf Ja eingestellt, wenn sich ein Charakter in einer solchen Serie befindet:

Zeichen in Unicode markiert Hex_Digit=Yes[a]
0123456789abcdef Grundlatein, Hauptstädte Ebenfalls ASCII_Hex_Digit=Yes
0123456789abcdef Grundlateinische, kleine Buchstaben Ebenfalls ASCII_Hex_Digit=Yes
0123456789abcd Fullwidth Formen, Hauptstädte
0123456789abcd Fullwidth Formen, kleine Buchstaben
a. ^ "Unicode 14.0 UCD: propList.txt". 2021-08-12. Abgerufen 2020-03-12.

44 Zeichen werden als hex_digit markiert. Die im grundlegenden lateinischen Block sind ebenfalls als markiert als ASCII_HEX_DIGIT.

Unicode hat keine separaten Zeichen für Hexadezimalwerte. Eine Konsequenz ist, dass es bei der Verwendung regulärer Zeichen nicht möglich ist zu bestimmen, ob der Hexadezimalwert beabsichtigt ist oder ob überhaupt ein Wert beabsichtigt ist. Dies sollte auf höherer Ebene bestimmt werden, z. Durch die Vorbereitung von "0x" auf eine hexadezimale Nummer oder im Kontext. Das einzige Merkmal ist, dass Unicode beachten kann, dass eine Sequenz kann oder kann nicht Sei ein Hexadezimalwert.

Block

A Block ist ein einzigartig benannter, zusammenhängender Bereich von Codepunkten. Es wird durch seinen ersten und letzten Codepunkt identifiziert. Blöcke nicht Überlappung. Ein Block kann Codepunkte enthalten, die reserviert, nicht zugewiesen sind ist Zugewiesen, hat einen einzelnen "Blockname" -Wert aus den 320 Namen, die ab der Unicode -Version 14.0 nicht zugewiesene Codepunkte außerhalb eines vorhandenen Blocks zugewiesen wurden, haben den Standardwert "NO_Block".

Ebene Blockbereich Blockname Codepunkte[a] Zugewiesene Zeichen Skripte[b][c][d][e][f]
 0 Bmp U+0000..u+007f Grundlatein[g] 128 128 Latein (52 Zeichen), Verbreitet (76 Zeichen)
0 Bmp U+0080..u+00ff Latin-1 Supplement[h] 128 128 Latein (64 Zeichen), gemeinsam (64 Zeichen)
0 Bmp U+0100..u+017f Latin Extended-A 128 128 Latein
0 Bmp U+0180..u+024f Latein erweitert-b 208 208 Latein
0 Bmp U+0250..u+02af IPA -Erweiterungen 96 96 Latein
0 Bmp U+02b0..u+02ff Abstandsmodifikatorbuchstaben 80 80 Bopomofo (2 Zeichen), lateinisch (14 Zeichen), gemeinsam (64 Zeichen)
0 Bmp U+0300..u+036f Kombination diakritischer Markierungen 112 112 Vererbt
0 Bmp U+0370..u+03ff Griechisch und koptisch 144 135 koptisch (14 Zeichen), griechisch (117 Zeichen), gemeinsam (4 Zeichen)
0 Bmp U+0400..u+04ff kyrillisch 256 256 kyrillisch (254 Zeichen), vererbt (2 Zeichen)
0 Bmp U+0500..u+052f Cyrillic Supplement 48 48 kyrillisch
0 Bmp U+0530..u+058f Armenisch 96 91 Armenisch
0 Bmp U+0590..u+05ff hebräisch 112 88 hebräisch
0 Bmp U+0600..u+06ff Arabisch 256 256 Arabisch (238 Zeichen), Common (6 Zeichen), vererbt (12 Zeichen)
0 Bmp U+0700..u+074f Syrien 80 77 Syrien
0 Bmp U+0750..u+077f Arabische Ergänzung 48 48 Arabisch
0 Bmp U+0780..u+07bf Thaana 64 50 Thaana
0 Bmp U+07c0..u+07ff Nko 64 62 Nko
0 Bmp U+0800..u+083f Samariter 64 61 Samariter
0 Bmp U+0840..u+085f Mandaik 32 29 Mandaik
0 Bmp U+0860..u+086f Syrische Ergänzung 16 11 Syrien
0 Bmp U+0870..u+089f Arabisch erweitert-b 48 41 Arabisch
0 Bmp U+08a0..u+08ff Arabisch erweitert-a 96 96 Arabisch (95 Zeichen), gemeinsam (1 Charakter)
0 Bmp U+0900..u+097f Devanagari 128 128 Devanagari (122 Zeichen), Common (2 Zeichen), vererbt (4 Zeichen)
0 Bmp U+0980..u+09ff Bengali 128 96 Bengali
0 Bmp U+0a00..u+0a7f Gurmukhi 128 80 Gurmukhi
0 Bmp U+0a80..u+0aff Gujarati 128 91 Gujarati
0 Bmp U+0b00..u+0b7f Oriya 128 91 Oriya
0 Bmp U+0b80..u+0bff Tamilisch 128 72 Tamilisch
0 Bmp U+0c00..u+0c7f Telugu 128 100 Telugu
0 Bmp U+0c80..u+0cff Kannada 128 90 Kannada
0 Bmp U+0d00..u+0d7f Malayalam 128 118 Malayalam
0 Bmp U+0d80..u+0dff Sinhala 128 91 Sinhala
0 Bmp U+0e00..u+0e7f Thai 128 87 Thai (86 Zeichen), gemeinsam (1 Zeichen)
0 Bmp U+0e80..u+0eff Lao 128 82 Lao
0 Bmp U+0f00..u+0fff Tibetaner 256 211 Tibetaner (207 Zeichen), gemeinsam (4 Zeichen)
0 Bmp U+1000..u+109f Myanmar 160 160 Myanmar
0 Bmp U+10a0..u+10ff georgisch 96 88 georgisch (87 Zeichen), gemeinsam (1 Zeichen)
0 Bmp U+1100..u+11ff Hangul Jamo 256 256 Hangul
0 Bmp U+1200..u+137f Äthiopisch 384 358 Äthiopisch
0 Bmp U+1380..u+139f Äthiopische Ergänzung 32 26 Äthiopisch
0 Bmp U+13a0..u+13ff Cherokee 96 92 Cherokee
0 Bmp U+1400..u+167f Einheitliche Lehrschildlebnisse für kanadische Aborigines 640 640 Kanadische Aborigines
0 Bmp U+1680..u+169f Ogham 32 29 Ogham
0 Bmp U+16a0..u+16ff Runik 96 89 Runik (86 Zeichen), gemeinsam (3 Zeichen)
0 Bmp U+1700..u+171f Tagalog 32 23 Tagalog
0 Bmp U+1720..u+173f Hanunoo 32 23 Hanunoo (21 Zeichen), gemeinsam (2 Zeichen)
0 Bmp U+1740..u+175f Buhid 32 20 Buhid
0 Bmp U+1760..u+177f Tagbanwa 32 18 Tagbanwa
0 Bmp U+1780..u+17ff Khmer 128 114 Khmer
0 Bmp U+1800..u+18af mongolisch 176 158 mongolisch (155 Zeichen), gemeinsam (3 Zeichen)
0 Bmp U+18b0..u+18ff Einheitliche Lehrschildlebnisse der kanadischen Aborigines verlängerten sich 80 70 Kanadische Aborigines
0 Bmp U+1900..u+194f Limbu 80 68 Limbu
0 Bmp U+1950..u+197f Tai le 48 35 Tai le
0 Bmp U+1980..u+19df Neuer Tai Lue 96 83 Neuer Tai Lue
0 Bmp U+19e0..u+19ff Khmer -Symbole 32 32 Khmer
0 Bmp U+1a00..u+1a1f Buginese 32 30 Buginese
0 Bmp U+1a20..u+1aaf Tai Tham 144 127 Tai Tham
0 Bmp U+1AB0..U+1AFF Kombination diakritischer Markierungen verlängert 80 31 Vererbt
0 Bmp U+1b00..u+1b7f Balinesisch 128 124 Balinesisch
0 Bmp U+1b80..u+1bbf Sundanese 64 64 Sundanese
0 Bmp U+1bc0..u+1bff Batak 64 56 Batak
0 Bmp U+1c00..u+1c4f Lepcha 80 74 Lepcha
0 Bmp U+1c50..u+1c7f Ol Chiki 48 48 Ol Chiki
0 Bmp U+1c80..u+1c8f Cyrillic Extended-C 16 9 kyrillisch
0 Bmp U+1C90..U+1CBF Georgian erweitert 48 46 georgisch
0 Bmp U+1cc0..u+1ccf Sundanese -Supplement 16 8 Sundanese
0 Bmp U+1CD0..U+1CFF Vedische Erweiterungen 48 43 Common (16 Zeichen), vererbt (27 Zeichen)
0 Bmp U+1d00..u+1d7f Phonetische Erweiterungen 128 128 Cyrillic (2 Zeichen), Griechisch (15 Zeichen), lateinisch (111 Zeichen)
0 Bmp U+1D80..U+1DBF Ergänzung für phonetische Erweiterungen 64 64 Griechisch (1 Charakter), lateinisch (63 Zeichen)
0 Bmp U+1DC0..U+1DFF Kombination diakritischer Markierungen 64 64 Vererbt
0 Bmp U+1e00..u+1eff Latein erweiterte zusätzlich 256 256 Latein
0 Bmp U+1f00..u+1fff Griechisch erweitert 256 233 griechisch
0 Bmp U+2000..u+206f Allgemeine Zeichensetzung 112 111 Common (109 Zeichen), vererbt (2 Zeichen)
0 Bmp U+2070..u+209f Superscripts und Indexs 48 42 Latein (15 Zeichen), gemeinsam (27 Zeichen)
0 Bmp U+20a0..u+20cf Währungssymbole 48 33 Verbreitet
0 Bmp U+20d0..u+20ff Kombinieren Sie diakritische Markierungen für Symbole 48 33 Vererbt
0 Bmp U+2100..u+214f Buchstabenähnliche Symbole 80 80 Griechisch (1 Charakter), Latein (4 Zeichen), gemeinsam (75 Zeichen)
0 Bmp U+2150..u+218f Zahlenformen 64 60 Latein (41 Zeichen), Common (19 Zeichen)
0 Bmp U+2190..u+21ff Pfeile 112 112 Verbreitet
0 Bmp U+2200..u+22ff Mathematische Operatoren 256 256 Verbreitet
0 Bmp U+2300..u+23ff Verschiedenes technisches 256 256 Verbreitet
0 Bmp U+2400..u+243f Kontrollbilder 64 39 Verbreitet
0 Bmp U+2440..u+245f Optische Zeichenerkennung 32 11 Verbreitet
0 Bmp U+2460..u+24ff Schloss alphanumerische 160 160 Verbreitet
0 Bmp U+2500..u+257f Kastenzeichnung 128 128 Verbreitet
0 Bmp U+2580..u+259f Blockelemente 32 32 Verbreitet
0 Bmp U+25a0..u+25ff Geometrische Formen 96 96 Verbreitet
0 Bmp U+2600..u+26ff Verschiedene Symbole 256 256 Verbreitet
0 Bmp U+2700..u+27bf Dingbats 192 192 Verbreitet
0 Bmp U+27c0..u+27ef Verschiedene mathematische Symbole-A 48 48 Verbreitet
0 Bmp U+27f0..u+27ff Ergänzende Pfeile-A 16 16 Verbreitet
0 Bmp U+2800..u+28ff Braille -Muster 256 256 Blindenschrift
0 Bmp U+2900..u+297f Ergänzende Pfeile-B 128 128 Verbreitet
0 Bmp U+2980..u+29ff Verschiedene mathematische Symbole-B 128 128 Verbreitet
0 Bmp U+2A00..U+2AFF Ergänzende mathematische Operatoren 256 256 Verbreitet
0 Bmp U+2b00..u+2bff Verschiedene Symbole und Pfeile 256 253 Verbreitet
0 Bmp U+2c00..u+2c5f Glagolitik 96 96 Glagolitik
0 Bmp U+2c60..u+2c7f Latein Extended-C 32 32 Latein
0 Bmp U+2C80..U+2CFF koptisch 128 123 koptisch
0 Bmp U+2d00..u+2d2f Georgian Supplement 48 40 georgisch
0 Bmp U+2d30..u+2d7f Tifinagh 80 59 Tifinagh
0 Bmp U+2d80..u+2ddf Äthiopisch erweitert 96 79 Äthiopisch
0 Bmp U+2de0..u+2dff Cyrillic Extended-A 32 32 kyrillisch
0 Bmp U+2e00..u+2e7f Zusätzliche Interpunktion 128 94 Verbreitet
0 Bmp U+2e80..u+2eff CJK Radicals Supplement 128 115 Han
0 Bmp U+2f00..u+2fdf Kangxi -Radikale 224 214 Han
0 Bmp U+2ff0..u+2fff Ideografische Beschreibung Zeichen 16 12 Verbreitet
0 Bmp U+3000..u+303f CJK -Symbole und Zeichensetzung 64 64 Han (15 Zeichen), Hangul (2 Zeichen), Common (43 Zeichen), vererbt (4 Zeichen)
0 Bmp U+3040..u+309f Hiragana 96 93 Hiragana (89 Zeichen), Common (2 Zeichen), vererbt (2 Zeichen)
0 Bmp U+30a0..u+30ff Katakana 96 96 Katakana (93 Zeichen), gemeinsam (3 Zeichen)
0 Bmp U+3100..u+312f Bopomofo 48 43 Bopomofo
0 Bmp U+3130..u+318f Hangul -Kompatibilität Jamo 96 94 Hangul
0 Bmp U+3190..u+319f Kanbun 16 16 Verbreitet
0 Bmp U+31a0..u+31bf Bopomofo erweitert 32 32 Bopomofo
0 Bmp U+31c0..u+31EF CJK -Striche 48 36 Verbreitet
0 Bmp U+31f0..u+31ff Katakana Phonetische Erweiterungen 16 16 Katakana
0 Bmp U+3200..u+32ff Schloss CJK -Buchstaben und Monate 256 255 Hangul (62 Zeichen), Katakana (47 Zeichen), gemeinsam (146 Zeichen)
0 Bmp U+3300..u+33ff CJK -Kompatibilität 256 256 Katakana (88 Zeichen), gemeinsam (168 Zeichen)
0 Bmp U+3400..u+4dbf CJK Unified Ideographs Extension a 6,592 6,592 Han
0 Bmp U+4dc0..u+4dff Yijing Hexagrammsymbole 64 64 Verbreitet
0 Bmp U+4e00..u+9fff CJK Unified Ideographs 20.992 20.992 Han
0 Bmp U+a000..u+a48f Yi Silben 1,168 1.165 Yi
0 Bmp U+a490..u+a4cf Yi Radikale 64 55 Yi
0 Bmp U+a4d0..u+a4ff Lisu 48 48 Lisu
0 Bmp U+a500..u+a63f Vai 320 300 Vai
0 Bmp U+a640..u+a69f Cyrillic Extended-B 96 96 kyrillisch
0 Bmp U+a6a0..u+a6ff Bamum 96 88 Bamum
0 Bmp U+a700..u+a71f Modifikator -Tonbuchstaben 32 32 Verbreitet
0 Bmp U+a720..u+a7ff Latein erweitert-d 224 193 Latein (188 Zeichen), gemeinsam (5 Zeichen)
0 Bmp U+a800..u+a82f Syloti Nagri 48 45 Syloti Nagri
0 Bmp U+a830..u+a83f Gemeinsame INDID -Zahlenformen 16 10 Verbreitet
0 Bmp U+a840..u+a87f PHAGS-PA 64 56 PHAGS PA
0 Bmp U+a880..u+a8df Saurashtra 96 82 Saurashtra
0 Bmp U+a8e0..u+a8ff Devanagari erweiterte sich 32 32 Devanagari
0 Bmp U+a900..u+a92f Kayah li 48 48 Kayah li (47 Zeichen), gemeinsam (1 Zeichen)
0 Bmp U+a930..u+a95f Rejang 48 37 Rejang
0 Bmp U+a960..u+a97f Hangul Jamo Extended-A 32 29 Hangul
0 Bmp U+a980..u+a9df Javaner 96 91 Javaner (90 Zeichen), gemeinsam (1 Zeichen)
0 Bmp U+a9e0..u+a9ff Myanmar erweiterte B 32 31 Myanmar
0 Bmp U+aa00..u+aa5f Cham 96 83 Cham
0 Bmp U+aa60..u+aa7f Myanmar verlängerte sich 32 32 Myanmar
0 Bmp U+aa80..u+aadf Tai Viet 96 72 Tai Viet
0 Bmp U+aae0..u+aaff Meetei Mayek Extensions 32 23 Meetei Mayek
0 Bmp U+AB00..U+AB2F Ethiopic Extended-A 48 32 Äthiopisch
0 Bmp U+ab30..u+ab6f Latein erweitert-e 64 60 Latein (56 Zeichen), Griechisch (1 Zeichen), gemeinsam (3 Zeichen)
0 Bmp U+ab70..u+abbf Cherokee Supplement 80 80 Cherokee
0 Bmp U+ABC0..U+ABFF Meetei Mayek 64 56 Meetei Mayek
0 Bmp U+ac00..u+d7af Hangul Silben 11.184 11,172 Hangul
0 Bmp U+d7b0..u+d7ff Hangul Jamo Extended-B 80 72 Hangul
0 Bmp U+d800..u+db7f Hohe Leihmutter 896 0 Unbekannt
0 Bmp U+db80..u+dbff Ersatzstärke mit hoher Privatnutzung 128 0 Unbekannt
0 Bmp U+dc00..u+dfff Niedrige Ersatzstoffe 1.024 0 Unbekannt
0 Bmp U+e000..u+f8ff Privatnutzungsbereich 6.400 6.400 Unbekannt
0 Bmp U+f900..u+faff CJK -Kompatibilitätsideographien 512 472 Han
0 Bmp U+fb00..u+fb4f Alphabetische Präsentationsformen 80 58 Armenisch (5 Zeichen), Hebräisch (46 Zeichen), Latein (7 Zeichen)
0 Bmp U+fb50..u+fdff Arabische Präsentationsformulare-A 688 631 Arabisch (629 Zeichen), gemeinsam (2 Zeichen)
0 Bmp U+fe00..u+fe0f Variationswählern 16 16 Vererbt
0 Bmp U+fe10..u+fe1f Vertikale Formen 16 10 Verbreitet
0 Bmp U+fe20..u+fe2f Halbmarken kombinieren 16 16 Cyrillic (2 Zeichen), vererbt (14 Zeichen)
0 Bmp U+fe30..u+fe4f CJK -Kompatibilitätsformulare 32 32 Verbreitet
0 Bmp U+fe50..u+fe6f Kleine Formvarianten 32 26 Verbreitet
0 Bmp U+fe70..u+feff Arabische Präsentationsformen-b 144 141 Arabisch (140 Zeichen), gemeinsam (1 Charakter)
0 Bmp U+ff00..u+ffef Halbbreiten- und Vollbreitenformen 240 225 Hangul (52 Zeichen), Katakana (55 Zeichen), Latein (52 Zeichen), gemeinsam (66 Zeichen)
0 Bmp U+fff0..u+ffff Specials 16 5 Verbreitet
 1 SMP U+10000..u+1007f Linearer B -Silbe 128 88 Linear b
1 SMP U+10080..u+100ff Lineare B -Ideogramme 128 123 Linear b
1 SMP U+10100..u+1013f Ägäische Zahlen 64 57 Verbreitet
1 SMP U+10140..u+1018f Alte griechische Zahlen 80 79 griechisch
1 SMP U+10190..u+101cf Alte Symbole 64 14 Griechisch (1 Charakter), gemeinsam (13 Zeichen)
1 SMP U+101d0..u+101ff Phaistos Disc 48 46 Common (45 Zeichen), vererbt (1 Zeichen)
1 SMP U+10280..u+1029f Lycian 32 29 Lycian
1 SMP U+102a0..u+102df Karian 64 49 Karian
1 SMP U+102e0..u+102ff Koptische Epaktnummern 32 28 Common (27 Zeichen), vererbt (1 Zeichen)
1 SMP U+10300..u+1032f Alte kursiv 48 39 Alte kursiv
1 SMP U+10330..u+1034f gotisch 32 27 gotisch
1 SMP U+10350..u+1037f Altpermisch 48 43 Altpermisch
1 SMP U+10380..u+1039f Ugaritisch 32 31 Ugaritisch
1 SMP U+103a0..u+103df Alter Perser 64 50 Alter Perser
1 SMP U+10400..u+1044f Deseret 80 80 Deseret
1 SMP U+10450..u+1047f Shavier 48 48 Shavier
1 SMP U+10480..u+104AF Osmanya 48 40 Osmanya
1 SMP U+104b0..u+104ff Osage 80 72 Osage
1 SMP U+10500..u+1052f Elbasan 48 40 Elbasan
1 SMP U+10530..u+1056f Kaukasischer Albaner 64 53 Kaukasischer Albaner
1 SMP U+10570..u+105bf Vithkuqi 80 70 Vithkuqi
1 SMP U+10600..u+1077f Linear a 384 341 Linear a
1 SMP U+10780..u+107bf Latein erweitert-f 64 57 Latein
1 SMP U+10800..u+1083f Zypriotische Silbe 64 55 Zypriot
1 SMP U+10840..u+1085f Kaiserliche Aramäisch 32 31 Kaiserliche Aramäisch
1 SMP U+10860..u+1087f Palmyren 32 32 Palmyren
1 SMP U+10880..u+108AF Nabatäisch 48 40 Nabatäisch
1 SMP U+108e0..u+108ff Hatran 32 26 Hatran
1 SMP U+10900..u+1091f phönizisch 32 29 phönizisch
1 SMP U+10920..u+1093f Lydian 32 27 Lydian
1 SMP U+10980..u+1099f Meroitische Hieroglyphen 32 32 Meroitische Hieroglyphen
1 SMP U+109a0..u+109ff Meroitischer Kursiv 96 90 Meroitischer Kursiv
1 SMP U+10a00..u+10a5f Kharoshthi 96 68 Kharoshthi
1 SMP U+10a60..u+10a7f Altes Südarabier 32 32 Altes Südarabier
1 SMP U+10a80..u+10a9f Altes Nordarabier 32 32 Altes Nordarabier
1 SMP U+10AC0..U+10AFF Manichaean 64 51 Manichaean
1 SMP U+10b00..u+10b3f Avestan 64 61 Avestan
1 SMP U+10b40..u+10b5f Inschrift Parthian 32 30 Inschrift Parthian
1 SMP U+10b60..u+10b7f Inschrift Pahlavi 32 27 Inschrift Pahlavi
1 SMP U+10b80..u+10baf Psalter Pahlavi 48 29 Psalter Pahlavi
1 SMP U+10c00..u+10c4f Altes Turkic 80 73 Altes Turkic
1 SMP U+10c80..u+10cff Alter Ungarisch 128 108 Alter Ungarisch
1 SMP U+10d00..u+10d3f Hanifi Rohingya 64 50 Hanifi Rohingya
1 SMP U+10e60..u+10e7f Rumi Ziffernsymbole 32 31 Arabisch
1 SMP U+10E80..U+10EBF Yezidi 64 47 Yezidi
1 SMP U+10f00..u+10f2f Altes Sogdian 48 40 Altes Sogdian
1 SMP U+10f30..u+10f6f Sogdian 64 42 Sogdian
1 SMP U+10f70..u+10faf Alter Uyghur 64 26 Alter Uyghur
1 SMP U+10fb0..u+10fdf Chorasmianer 48 28 Chorasmianer
1 SMP U+10Fe0..u+10fff Elynmaisch 32 23 Elynmaisch
1 SMP U+11000..u+1107f Brahmi 128 115 Brahmi
1 SMP U+11080..u+110cf Kaithi 80 68 Kaithi
1 SMP U+110d0..u+110ff Sora Sompeng 48 35 Sora Sompeng
1 SMP U+11100..u+1114f Chakma 80 71 Chakma
1 SMP U+11150..u+1117f Mahajani 48 39 Mahajani
1 SMP U+11180..u+111df Sharada 96 96 Sharada
1 SMP U+111e0..u+111ff Singhalesische archaische Zahlen 32 20 Sinhala
1 SMP U+11200..u+1124f Khojki 80 62 Khojki
1 SMP U+11280..u+112AF Multani 48 38 Multani
1 SMP U+112b0..u+112ff Khudawadi 80 69 Khudawadi
1 SMP U+11300..u+1137f Grantha 128 86 Grantha (85 Zeichen), vererbt (1 Zeichen)
1 SMP U+11400..u+1147f Newa 128 97 Newa
1 SMP U+11480..u+114df Tirhuta 96 82 Tirhuta
1 SMP U+11580..u+115ff Siddham 128 92 Siddham
1 SMP U+11600..u+1165f Modi 96 79 Modi
1 SMP U+11660..u+1167f Mongolische Supplement 32 13 mongolisch
1 SMP U+11680..u+116cf Takri 80 68 Takri
1 SMP U+11700..u+1174f Ahom 80 65 Ahom
1 SMP U+11800..u+1184f DGRA 80 60 DGRA
1 SMP U+118a0..u+118ff Warang Citi 96 84 Warang Citi
1 SMP U+11900..u+1195f Taucht Akuru auf 96 72 Taucht Akuru auf
1 SMP U+119a0..u+119ff Nandinagari 96 65 Nandinagari
1 SMP U+11a00..u+11a4f Zanabazar Square 80 72 Zanabazar Square
1 SMP U+11A50..U+11AAF Soyombo 96 83 Soyombo
1 SMP U+11AB0..U+11ABF Einheitliche Lehrschablinge der kanadischen Aborigines verlängert-A. 16 16 Kanadische Aborigines
1 SMP U+11AC0..U+11AFF Pau cin hau 64 57 Pau cin hau
1 SMP U+11c00..u+11c6f BhaiKsuki 112 97 BhaiKsuki
1 SMP U+11c70..u+11cbf MARCHEN 80 68 MARCHEN
1 SMP U+11d00..u+11d5f Masaram Gondi 96 75 Masaram Gondi
1 SMP U+11d60..u+11daf Gunjala Gondi 80 63 Gunjala Gondi
1 SMP U+11ee0..u+11ff Makasar 32 25 Makasar
1 SMP U+11fb0..u+11fbf Lisu -Supplement 16 1 Lisu
1 SMP U+11fc0..u+11fff Tamilen Ergänzung 64 51 Tamilisch
1 SMP U+12000..u+123ff Keilschrift 1.024 922 Keilschrift
1 SMP U+12400..u+1247f Keilförmige Zahlen und Zeichensetzung 128 116 Keilschrift
1 SMP U+12480..u+1254f Frühe dynastische Keilschrift 208 196 Keilschrift
1 SMP U+12f90..u+12fff Cypro-minoan 112 99 Cypro Minoan
1 SMP U+13000..u+1342f Ägyptische Hieroglyphen 1.072 1.071 Ägyptische Hieroglyphen
1 SMP U+13430..u+1343f Ägyptische Hieroglyphenformatkontrollen 16 9 Ägyptische Hieroglyphen
1 SMP U+14400..u+1467f Anatolische Hieroglyphen 640 583 Anatolische Hieroglyphen
1 SMP U+16800..u+16a3f Bamum -Ergänzung 576 569 Bamum
1 SMP U+16a40..u+16a6f Mro 48 43 Mro
1 SMP U+16A70..U+16ACF Tangsa 96 89 Tangsa
1 SMP U+16AD0..U+16AFF Bassa vah 48 36 Bassa vah
1 SMP U+16b00..u+16b8f Pahawh Hmong 144 127 Pahawh Hmong
1 SMP U+16e40..u+16e9f Medefaidrin 96 91 Medefaidrin
1 SMP U+16f00..u+16f9f Miao 160 149 Miao
1 SMP U+16Fe0..u+16fff Ideografische Symbole und Zeichensetzung 32 7 Han (4 Zeichen), Khitaner kleines Skript (1 Zeichen), Nushu (1 Zeichen), Tangut (1 Zeichen)
1 SMP U+17000..u+187ff Tangut 6,144 6,136 Tangut
1 SMP U+18800..u+18Aff Tangutkomponenten 768 768 Tangut
1 SMP U+18b00..u+18Cff Khitan kleines Drehbuch 512 470 Khitan kleines Drehbuch
1 SMP U+18d00..u+18d7f Tangut -Ergänzung 128 9 Tangut
1 SMP U+1AFF0..U+1AFFF Kana erweitert-b 16 13 Katakana
1 SMP U+1b000..u+1b0ff Kana -Supplement 256 256 Hiragana (255 Zeichen), Katakana (1 Charakter)
1 SMP U+1b100..u+1b12f Kana erweitert-a 48 35 Hiragana (32 Zeichen), Katakana (3 Zeichen)
1 SMP U+1b130..u+1b16f Kleine Kana -Erweiterung 64 7 Hiragana (3 Charaktere), Katakana (4 Zeichen)
1 SMP U+1b170..u+1b2ff Nushu 400 396 Nüshu
1 SMP U+1bc00..u+1bc9f Du -Playan 160 143 Du -Playan
1 SMP U+1bca0..u+1bcaf Kurzformatkontrollen 16 4 Verbreitet
1 SMP U+1cf00..u+1cfcf Znamenny Musical Notation 208 185 Common (116 Zeichen), vererbt (69 Zeichen)
1 SMP U+1d000..u+1d0ff Byzantinische Musiksymbole 256 246 Verbreitet
1 SMP U+1d100..u+1d1ff Musiksymbole 256 233 Common (211 Zeichen), vererbt (22 Zeichen)
1 SMP U+1d200..u+1d24f Antike griechische musikalische Notation 80 70 griechisch
1 SMP U+1d2e0..u+1d2ff Maya -Ziffern 32 20 Verbreitet
1 SMP U+1d300..u+1d35f Tai Xuan Jing Symbole 96 87 Verbreitet
1 SMP U+1d360..u+1d37f Zählstangen Ziffern 32 25 Verbreitet
1 SMP U+1d400..u+1d7ff Mathematische alphanumerische Symbole 1.024 996 Verbreitet
1 SMP U+1d800..u+1daaf Sutton Signwriting 688 672 Signwriting
1 SMP U+1DF00..U+1DFFF Latein erweitert-g 256 31 Latein
1 SMP U+1e000..u+1e02f Glagolitische Ergänzung 48 38 Glagolitik
1 SMP U+1e100..u+1e14f Nyikeng Puachue Hmong 80 71 Nyikeng Puachue Hmong
1 SMP U+1e290..u+1e2bf Toto 48 31 Toto
1 SMP U+1e2c0..u+1e2ff Wancho 64 59 Wancho
1 SMP U+1e7e0..u+1e7ff Ethiopic Extended-B 32 28 Äthiopisch
1 SMP U+1e800..u+1e8df Mende Kikakui 224 213 Mende Kikakui
1 SMP U+1e900..u+1e95f Adlam 96 88 Adlam
1 SMP U+1ec70..u+1ecbf Indic SIYAQ -Zahlen 80 68 Verbreitet
1 SMP U+1ed00..u+1ed4f Osmanische Siyaq -Zahlen 80 61 Verbreitet
1 SMP U+1ee00..u+1eeeff Arabische mathematische alphabetische Symbole 256 143 Arabisch
1 SMP U+1f000..u+1f02f Mahjong -Fliesen 48 44 Verbreitet
1 SMP U+1f030..u+1f09f Dominofliesen 112 100 Verbreitet
1 SMP U+1f0a0..u+1f0ff Kartenspielen 96 82 Verbreitet
1 SMP U+1f100..u+1f1ff Beigefügte alphanumerische Ergänzung 256 200 Verbreitet
1 SMP U+1f200..u+1f2ff Geschlossene ideografische Ergänzung 256 64 Hiragana (1 Charakter), gemeinsam (63 Zeichen)
1 SMP U+1f300..u+1f5ff Verschiedene Symbole und Piktogramme 768 768 Verbreitet
1 SMP U+1f600..u+1f64f Emoticons 80 80 Verbreitet
1 SMP U+1f650..u+1f67f Zierdingbats 48 48 Verbreitet
1 SMP U+1f680..u+1f6ff Transport- und Kartensymbole 128 117 Verbreitet
1 SMP U+1f700..u+1f77f Alchemische Symbole 128 116 Verbreitet
1 SMP U+1f780..u+1f7ff Geometrische Formen erweitert 128 102 Verbreitet
1 SMP U+1f800..u+1f8ff Ergänzende Pfeile-C 256 150 Verbreitet
1 SMP U+1f900..u+1f9ff Ergänzende Symbole und Piktogramme 256 256 Verbreitet
1 SMP U+1fa00..u+1fa6f Schachsymbole 112 98 Verbreitet
1 SMP U+1fa70..u+1faff Symbole und Piktogramme erweitert-a 144 88 Verbreitet
1 SMP U+1fb00..u+1fbff Symbole für Legacy Computing 256 212 Verbreitet
 2 SIP U+20000..u+2a6df CJK Unified Ideographs Extension B 42,720 42,720 Han
2 SIP U+2a700..u+2b73f CJK Unified Ideographs Extension C. 4,160 4,153 Han
2 SIP U+2b740..u+2b81f CJK Unified Ideographs Extension D. 224 222 Han
2 SIP U+2b820..u+2ceaf CJK Unified Ideographs Extension e 5,776 5,762 Han
2 SIP U+2ceb0..u+2efef CJK Unified Ideographs Extension f 7.488 7.473 Han
2 SIP U+2f800..u+2fa1f CJK -Kompatibilitätsideografien Supplement 544 542 Han
 3 Tipp U+30000..u+3134f CJK Unified Ideographs Extension G 4,944 4,939 Han
14 SSP U+e0000..u+e007f Stichworte 128 97 Verbreitet
14 SSP U+E0100..U+E01EF Variationswählern Supplement 240 240 Vererbt
15 pua-a U+f0000..u+fffff Zusätzliche private Gebrauchsbereich-a 65.536 65.534 Unbekannt
16 Pua-B U+100000..u+10ffff Ergänzende private Gebrauchsbereich-B-B 65.536 65.534 Unbekannt
  1. ^ Die Codepunktzahl enthält nicht zugewiesene Codepunkte: Nichtcharakter, reserviert usw.
  2. ^ Das Skript enthält ein oder mehrere Zeichen im Block, wie in der Skripteigenschaft definiert. Dies ist unabhängig vom Blocknamen
  3. ^ "Gemeinsam" und "unbekannt" (Zyyy) und "erbelt" (Zinh oder Qaai) beziehen sich auf Skripte in ISO 15924
  4. ^ Unicode blockiert Datendatei. Ab der Unicode Version 14.0
  5. ^ UAX 24: Unicode Skript -Eigenschaft (4 Alpha -Code)
  6. ^ UAX 24: Skriptdatendatei
  7. ^ Genannt "C0 Controls und Basic Latein" in ISO/IEC 10646
  8. ^ Genannt "C1 Controls und Latin-1 Supplement" in ISO/IEC 10646

Skript

Jedes zugewiesene Zeichen kann einen einzelnen Wert für die Eigenschaft "Skript" haben, die zu welchem ​​Skript es gehört.[19] Der Wert ist ein Vier-Buchstaben-Code im Bereich AAAA-AZZZ, wie in ISO 15924 erhältlich, der a zugeordnet ist Schreibsystem. Abgesehen von der Beschreibung des Hintergrunds und der Verwendung eines Skripts verwendet Unicode keine Verbindung zwischen a Skript und Sprachen das benutzt dieses Skript. Also bezieht sich "Hebräisch" auf das hebräische Drehbuch, nicht auf die hebräische Sprache.

Der spezielle Code Zyyy für "gemeinsam" ermöglicht einen einzelnen Wert für ein Zeichen, das in mehreren Skripten verwendet wird. Der Code Zinh "erbte Skript", das zum Kombinieren von Zeichen und bestimmten anderen Spezial-Codes-Punkten verwendet wird, zeigt an, dass ein Zeichen "seine Skriptidentität aus dem Zeichen, mit dem es kombiniert wird," erbt "erbt. (Unicode verwendete früher den privaten Code -QAAI für diesen Zweck.) Der Code Zzzz "Unbekannt" wird für alle Zeichen verwendet, die nicht zu einem Skript gehören (d. H. Der Standardwert), wie Symbole und Formatierende Zeichen. Insgesamt können Zeichen eines einzelnen Skripts über mehrere Blöcke verteilt werden Lateinische Charaktere. Auch umgekehrt: Mehrere Skripte können vorhanden sein, ist ein einzelner Block, z. Block Buchstabenähnliche Symbole Enthält Zeichen aus lateinischen, griechischen und gemeinsamen Skripten.

Wenn das Skript "" (leer) ist, gehört das Charakter gemäß Unicode nicht zu einem Skript. Dies betrifft Symbole, da die vorhandenen ISO -Skript "ZMTH" (mathematische Notation), "Zsym" (Symbol) und "Zsye" (Symbol, Emoji -Variante) in Unicode nicht verwendet werden. Die Eigenschaft "Skript" ist auch für Codepunkte leer, die kein typografisches Zeichen wie Steuerelemente, Substitute und Codepunkte für private Gebrauch sind.

Wenn es in ISO 15924 einen bestimmten Skript -Alias ​​-Namen gibt, wird er im Zeichennamen verwendet: U+0041 A LATEIN Großbuchstaben a, und U+05D0 א HEBRÄISCH Brief ALEF.

ISO 15924 Skript in Unicode[e]
Code ISO formeller Name Direktionalität Unicode alias[f] Ausführung Figuren Anmerkungen Beschreibung
Adlm Adlam Rechts nach links Edit this on Wikidata Adlam 9.0 88 Ch 19.9
Afak Afaka variiert Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Aghb Kaukasischer Albaner links nach rechtsEdit this on Wikidata Kaukasischer Albaner 7.0 53 Alt/historisch CH 8.11
Ahom Ahom, Tai Ahom links nach rechtsEdit this on Wikidata Ahom 8.0 65 Alt/historisch Ch 15.15
Araber Arabisch Rechts nach links Edit this on Wikidata Arabisch 1.0 1.365 CH 9.2
Aran Arabisch (Nastaliq Variante) gemischt Zz- Typografische Variante von Arabisch (§ Araber))
Armi Kaiserliche Aramäisch Rechts nach links Edit this on Wikidata Kaiserliche Aramäisch 5.2 31 Alt/historisch CH 10.4
Armn Armenisch links nach rechtsEdit this on Wikidata Armenisch 1.0 96 CH 7.6
Avst Avestan Rechts nach links Edit this on Wikidata Avestan 5.2 61 Alt/historisch CH 10.7
Bali Balinesisch links nach rechtsEdit this on Wikidata Balinesisch 5.0 124 Ch 17.3
Bamu Bamum links nach rechtsEdit this on Wikidata Bamum 5.2 657 Ch 19.6
Bass Bassa vah links nach rechtsEdit this on Wikidata Bassa vah 7.0 36 Alt/historisch Ch 19.7
Batk Batak links nach rechtsEdit this on Wikidata Batak 6.0 56 Ch 17.6
Beng Bengali (Bangla) links nach rechtsEdit this on Wikidata Bengali 1.0 96 Ch 12.2
BHKS BhaiKsuki links nach rechtsEdit this on Wikidata BhaiKsuki 9.0 97 Alt/historisch Ch 14.3
Blis Blissymbols variiert Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Bopo Bopomofo links nach rechtsEdit this on Wikidata Bopomofo 1.0 77 Ch 18.3
Brah Brahmi links nach rechtsEdit this on Wikidata Brahmi 6.0 115 Alt/historisch Ch 14.1
Brai Blindenschrift links nach rechtsEdit this on Wikidata Blindenschrift 3.0 256 Ch 21.1
Bugi Buginese links nach rechtsEdit this on Wikidata Buginese 4.1 30 Ch 17.2
Buhd Buhid links nach rechtsEdit this on Wikidata Buhid 3.2 20 Ch 17.1
Cakm Chakma links nach rechtsEdit this on Wikidata Chakma 6.1 71 Ch 13.11
Büchsen Einheitliche Lehrschildlebnisse für kanadische Aborigines links nach rechtsEdit this on Wikidata Kanadische Aborigines 3.0 726 Ch 20.2
Cari Karian links nach rechts, Rechts nach links Edit this on Wikidata Karian 5.1 49 Alt/historisch CH 8.5
Cham Cham links nach rechtsEdit this on Wikidata Cham 5.1 83 Ch 16.10
Cher Cherokee links nach rechtsEdit this on Wikidata Cherokee 3.0 172 Ch 20.1
Chrs Chorasmianer Rechts nach links, oben nach untenEdit this on Wikidata Chorasmianer 13.0 28 Alt/historisch CH 10.8
Cirt Cirth variiert Zz- Nicht in Unicode
Kopte koptisch links nach rechtsEdit this on Wikidata koptisch 1.0 137 Alt/historisch, uneinheitlich aus dem Griechischen in 4.1 Ch 7.3
CPMN Cypro-minoan links nach rechts Cypro Minoan 14.0 99 Alt/historisch CH 8.4
CPRT Zypriotische Silbe Rechts nach links Edit this on Wikidata Zypriot 4.0 55 Alt/historisch CH 8.3
Cyrl kyrillisch links nach rechtsEdit this on Wikidata kyrillisch 1.0 443 Enthält typografische Variante Old Church Slawonic (§ Cyrs) CH 7.4
Cyrs Kyrillisch (alte kirchliche slawische Variante) variiert Zz- typografische Variante von kyrillisch (§ Cyrl); Alt/historisch
Deva Devanagari (Nagari) links nach rechtsEdit this on Wikidata Devanagari 1.0 154 Ch 12.1
Diak Taucht Akuru auf links nach rechtsEdit this on Wikidata Taucht Akuru auf 13.0 72 Alt/historisch Ch 15.14
DR DGRA links nach rechtsEdit this on Wikidata DGRA 11.0 60 Alt/historisch Ch 15.17
Dsrt Deseret (Mormon) links nach rechtsEdit this on Wikidata Deseret 3.1 80 Ch 20.4
Dupl Du -Playan Shorthand, Du -Platean -Stenographie links nach rechtsEdit this on Wikidata Du -Playan 7.0 143 Ch 21.6
Ägyp Ägyptische Demotik gemischt Zz- Nicht in Unicode
Ägyph Ägyptische Hieratik gemischt Zz- Nicht in Unicode
EGYP Ägyptische Hieroglyphen Rechts nach links Edit this on Wikidata Ägyptische Hieroglyphen 5.2 1.080 Alt/historisch Ch 11.4
Elba Elbasan links nach rechtsEdit this on Wikidata Elbasan 7.0 40 Alt/historisch CH 8.10
Elym Elynmaisch Rechts nach links Edit this on Wikidata Elynmaisch 12.0 23 Alt/historisch CH 10.9
Ethi Äthiopisch (Ge'ez) links nach rechtsEdit this on Wikidata Äthiopisch 3.0 523 Ch 19.1
Geok Khutsuri (Asomtavruli und Nuskhuri) links nach rechtsEdit this on Wikidata georgisch Unicode -Gruppen "Khutsori", "Asomtavruli" und "Nuskhuri" in 'Georgian' (Nuskhuri "(Georgian '(§ Geok). Auch "Mkhedruli" und "Mtavruli" sind 'Georgian' (Georgisch '(§ Geor)) CH 7.7
Geor Georgian (Mkhedruli und Mtavruli) links nach rechtsEdit this on Wikidata georgisch 1.0 173 In Unicode umfasst auch Geok (Nuskhuri) CH 7.7
Schein Glagolitik links nach rechtsEdit this on Wikidata Glagolitik 4.1 134 Alt/historisch CH 7.5
Gong Gunjala Gondi links nach rechtsEdit this on Wikidata Gunjala Gondi 11.0 63 Ch 13.15
Gonm Masaram Gondi links nach rechtsEdit this on Wikidata Masaram Gondi 10.0 75 Ch 13.14
Goth gotisch links nach rechtsEdit this on Wikidata gotisch 3.1 27 Alt/historisch CH 8.9
Gran Grantha links nach rechtsEdit this on Wikidata Grantha 7.0 85 Alt/historisch Ch 15.13
Grek griechisch links nach rechtsEdit this on Wikidata griechisch 1.0 518 Direktionalität manchmal als Bousstrophe CH 7.2
Gujr Gujarati links nach rechtsEdit this on Wikidata Gujarati 1.0 91 Ch 12.4
Guru Gurmukhi links nach rechtsEdit this on Wikidata Gurmukhi 1.0 80 Ch 12.3
Hanb Han mit Bopomofo (Alias ​​für Han + Bopomofo) gemischt Zz- Sehen § Hani, § Bopo
Aufhängen Hangul (Hangŭl, Hangeul) Links nach rechts, vertikal nach rechts nach linksEdit this on Wikidata Hangul 1.0 11.739 Hangul Silben, die in 2.0 verlegt wurden Ch 18.6
Hani Han (Hanzi, Kanji, Hanja) Top-to-Bottom, Säulen von rechts (historisch) von Säulen nach links Han 1.0 94,215 Ch 18.1
Hano Hanunoo (Hanunóo) Links nach rechts, unten zu TopEdit this on Wikidata Hanunoo 3.2 21 Ch 17.1
Hans Han (vereinfachte Variante) variiert Zz- Untergruppe von Han (Hanzi, Kanji, Hanja) (§ Hani))
Hant Han (traditionelle Variante) variiert Zz- Teilmenge von § Hani
Hatr Hatran Rechts nach links Edit this on Wikidata Hatran 8.0 26 Alt/historisch CH 10.12
Hebr hebräisch Rechts nach links Edit this on Wikidata hebräisch 1.0 134 CH 9.1
Hira Hiragana vertikaler nach rechts, links nach rechtsEdit this on Wikidata Hiragana 1.0 380 Ch 18.4
Hluw Anatolische Hieroglyphen (Luwian Hieroglyphen, Hethitenditenhieroglyphen) links nach rechtsEdit this on Wikidata Anatolische Hieroglyphen 8.0 583 Alt/historisch Ch 11.6
Hmng Pahawh Hmong links nach rechtsEdit this on Wikidata Pahawh Hmong 7.0 127 Ch 16.11
HMNP Nyikeng Puachue Hmong links nach rechtsEdit this on Wikidata Nyikeng Puachue Hmong 12.0 71 Ch 16.12
Hrkt Japanische Silben (Alias ​​für Hiragana + Katakana) vertikaler nach rechts, links nach rechtsEdit this on Wikidata Katakana oder Hiragana Sehen § Hira, § Kana Ch 18.4
Aufgehängt Alter Ungar (ungarischer Runen) Rechts nach links Edit this on Wikidata Alter Ungarisch 8.0 108 Alt/historisch CH 8.8
Inds Indus (Harappan) gemischt Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Kursiv Alte kursiv (etruskische, Oscan usw.) Rechts nach links, links nach rechtsEdit this on Wikidata Alte kursiv 3.1 39 Alt/historisch CH 8.6
Jamo Jamo (Alias ​​für Jamo -Untergruppe von Hangul) variiert Zz- Teilmenge von § hängen
Java Javaner links nach rechtsEdit this on Wikidata Javaner 5.2 90 Ch 17.4
Jpan Japanisch (Alias ​​für Han + Hiragana + Katakana) variiert Zz- Sehen § Hani, § Hira und § Kana
Jurc Jurchen links nach rechts Zz- Nicht in Unicode
Kali Kayah li links nach rechtsEdit this on Wikidata Kayah li 5.1 47 Ch 16.9
Kana Katakana vertikaler nach rechts, links nach rechtsEdit this on Wikidata Katakana 1.0 320 Ch 18.4
Kawi Kawi links nach rechts Zz- Nicht in Unicode
Khar Kharoshthi Rechts nach links Edit this on Wikidata Kharoshthi 4.1 68 Alt/historisch Ch 14.2
KHMR Khmer links nach rechtsEdit this on Wikidata Khmer 3.0 146 Ch 16.4
Khoj Khojki links nach rechtsEdit this on Wikidata Khojki 7.0 62 Alt/historisch Ch 15.7
Kitl Khitaner großes Drehbuch links nach rechts Zz- Nicht in Unicode
Kits Khitan kleines Drehbuch vertikaler rechts nach linksEdit this on Wikidata Khitan kleines Drehbuch 13.0 471 Alt/historisch Ch 18.12
Knda Kannada links nach rechtsEdit this on Wikidata Kannada 1.0 90 Ch 12.8
Kore Koreanisch (Alias ​​für Hangul + Han) links nach rechts Zz- Sehen § Hani, § hängen
Kpel Kpelle links nach rechts Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Kthi Kaithi links nach rechtsEdit this on Wikidata Kaithi 5.2 68 Alt/historisch Ch 15.2
Lana Tai Tham (Lanna) links nach rechtsEdit this on Wikidata Tai Tham 5.2 127 Ch 16.7
Laoo Lao links nach rechtsEdit this on Wikidata Lao 1.0 82 Ch 16.2
Latf Latein (Fraktur Variante) variiert Zz- typografische Variante von Latein (§ Latn))
Latg Lateinische (gälische Variante) links nach rechts Zz- typografische Variante von Latein (§ Latn))
Latn Latein links nach rechtsEdit this on Wikidata Latein 1.0 1.475 Siehe auch: Lateinisches Skript in Unicode CH 7.1
Leke Leke links nach rechts Zz- Nicht in Unicode
LEPC Lepcha (Róng) links nach rechtsEdit this on Wikidata Lepcha 5.1 74 Ch 13.12
Glied Limbu links nach rechtsEdit this on Wikidata Limbu 4.0 68 Ch 13.6
Lina Linear a links nach rechtsEdit this on Wikidata Linear a 7.0 341 Alt/historisch CH 8.1
Linb Linear b links nach rechtsEdit this on Wikidata Linear b 4.0 211 Alt/historisch CH 8.2
Lisu Lisu (Fraser) links nach rechtsEdit this on Wikidata Lisu 5.2 49 Ch 18.9
Loma Loma links nach rechts Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Lyci Lycian links nach rechtsEdit this on Wikidata Lycian 5.1 29 Alt/historisch CH 8.5
Lydi Lydian Rechts nach links Edit this on Wikidata Lydian 5.1 27 Alt/historisch CH 8.5
Mahj Mahajani links nach rechtsEdit this on Wikidata Mahajani 7.0 39 Alt/historisch Ch 15.6
Maka Makasar links nach rechtsEdit this on Wikidata Makasar 11.0 25 Alt/historisch Ch 17.8
Mand Mandaik, Mandaean Rechts nach links Edit this on Wikidata Mandaik 6.0 29 CH 9.5
Mani Manichaean Rechts nach links Edit this on Wikidata Manichaean 7.0 51 Alt/historisch CH 10.5
Marc MARCHEN links nach rechtsEdit this on Wikidata MARCHEN 9.0 68 Alt/historisch Ch 14.5
Maya Mayan hieroglyphs gemischt Zz- Nicht in Unicode
Medf MEDEFAIDRIN (Oberi Okaime, Oberi ɔkaimɛ) links nach rechts, links nach rechtsEdit this on Wikidata Medefaidrin 11.0 91 Ch 19.10
Heilen Mende Kikakui Rechts nach links Edit this on Wikidata Mende Kikakui 7.0 213 Ch 19.8
Merc Meroitischer Kursiv Rechts nach links Edit this on Wikidata Meroitischer Kursiv 6.1 90 Alt/historisch Ch 11.5
Mero Meroitische Hieroglyphen Rechts nach links Edit this on Wikidata Meroitische Hieroglyphen 6.1 32 Alt/historisch Ch 11.5
Mlym Malayalam links nach rechtsEdit this on Wikidata Malayalam 1.0 118 Ch 12.9
Modi Modi, Moḍī links nach rechtsEdit this on Wikidata Modi 7.0 79 Alt/historisch Ch 15.11
Mong mongolisch vertikales, links nach rechtsEdit this on Wikidata mongolisch 3.0 168 Mong inklusive Klar und MANCHU Skripte Ch 13.5
Mond Mond (Mondcode, Mondskript, Mondtyp) gemischt Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Mroo MRO, MRU links nach rechtsEdit this on Wikidata Mro 7.0 43 Ch 13.8
Mtei Meitei Mayek (Meithei, Meetei) links nach rechtsEdit this on Wikidata Meetei Mayek 5.2 79 Ch 13.7
Mult Multani links nach rechtsEdit this on Wikidata Multani 8.0 38 Alt/historisch Ch 15.9
Mymr Myanmar (Burmesisch) links nach rechtsEdit this on Wikidata Myanmar 3.0 223 Ch 16.3
Nagm Nag Mundari links nach rechts Zz- Nicht in Unicode
NAND Nandinagari links nach rechtsEdit this on Wikidata Nandinagari 12.0 65 Alt/historisch Ch 15.12
Narb Altes Nordarabier (altes Nordarabier) Rechts nach links, Rechts nach links Edit this on Wikidata Altes Nordarabier 7.0 32 Alt/historisch CH 10.1
Nbat Nabatäisch Rechts nach links Edit this on Wikidata Nabatäisch 7.0 40 Alt/historisch CH 10.10
Newa Newa, Newar, Newari, Nepāla Lipi links nach rechtsEdit this on Wikidata Newa 9.0 97 Ch 13.3
NKDB Naxi Dongba (Na²¹ɕi³stoholes bis Sho²¹, Nakhi Tomba) links nach rechts Zz- Nicht in Unicode
NKGB Nakhi Geba (Na²¹ɕi³ Gʌ²¹ba²¹, 'Na-'khi ²ggŏ--baw, Nakhi Geba) links nach rechts Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Nkoo N'ko Rechts nach links Edit this on Wikidata Nko 5.0 62 Ch 19.4
Nshu Nüshu vertikaler rechts nach linksEdit this on Wikidata Nushu 10.0 397 Ch 18.8
Ogam Ogham Bottom-to-Top, links nach rechtsEdit this on Wikidata Ogham 3.0 29 Alt/historisch CH 8.14
Olck Ol Chiki (Ol Cemet ’, OL, Santali) links nach rechtsEdit this on Wikidata Ol Chiki 5.1 48 Ch 13.10
Orkh Altes Turkic, Orkhon Runic Rechts nach links Edit this on Wikidata Altes Turkic 5.2 73 Alt/historisch Ch 14.8
Orya Oriya (Odia) links nach rechtsEdit this on Wikidata Oriya 1.0 91 Ch 12.5
OSGE Osage links nach rechtsEdit this on Wikidata Osage 9.0 72 Ch 20.3
Osma Osmanya links nach rechtsEdit this on Wikidata Osmanya 4.0 40 Ch 19.2
OUGR Alter Uyghur gemischt Alter Uyghur 14.0 26 Alt/historisch Ch 14.11
Palme Palmyren Rechts nach links Edit this on Wikidata Palmyren 7.0 32 Alt/historisch CH 10.11
Pauc Pau cin hau links nach rechtsEdit this on Wikidata Pau cin hau 7.0 57 Ch 16.13
Pcun Protokiniforme links nach rechts Zz- Nicht in Unicode
Pelm Proto-Elamit links nach rechts Zz- Nicht in Unicode
Dauerwelle Altpermisch links nach rechtsEdit this on Wikidata Altpermisch 7.0 43 Alt/historisch CH 8.13
Phag PHAGS-PA vertikales links nach rechtsEdit this on Wikidata PHAGS-PA 5.0 56 Alt/historisch Ch 14.4
PHLI Inschrift Pahlavi Rechts nach links Edit this on Wikidata Inschrift Pahlavi 5.2 27 Alt/historisch CH 10.6
PHLP Psalter Pahlavi Rechts nach links Edit this on Wikidata Psalter Pahlavi 7.0 29 Alt/historisch CH 10.6
PHLV Buch Pahlavi gemischt Zz- Nicht in Unicode
PHNX phönizisch Rechts nach links Edit this on Wikidata phönizisch 5.0 29 Alt/historisch[g] CH 10.3
Piqd Klingon (Kli Piqad) links nach rechtsEdit this on Wikidata Zz- Abgelehnt zur Aufnahme in Unicode[ii][III]
PLRD Miao (Pollard) links nach rechtsEdit this on Wikidata Miao 6.1 149 Ch 18.10
Prti Inschrift Parthian Rechts nach links Edit this on Wikidata Inschrift Parthian 5.2 30 Alt/historisch CH 10.6
PSIN Proto-Sinaitisch gemischt Zz- Nicht in Unicode
QAAA-QABX Reserviert für den privaten Gebrauch (Bereich) Zz- Nicht in Unicode
Ranj Ranjana links nach rechts Zz- Nicht in Unicode
Rjng Rejang (Redjang, Kaganga) links nach rechtsEdit this on Wikidata Rejang 5.1 37 Ch 17.5
Rohg Hanifi Rohingya Rechts nach links Edit this on Wikidata Hanifi Rohingya 11.0 50 Ch 16.14
Roro Rongorongo gemischt Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Runr Runik links nach rechts, Bousstrophe Edit this on Wikidata Runik 3.0 86 Alt/historisch CH 8.7
Samr Samariter Rechts nach links, oben nach untenEdit this on Wikidata Samariter 5.2 61 CH 9.4
Sara Sarati gemischt Zz- Nicht in Unicode
Sarb Altes Südarabier Rechts nach links Edit this on Wikidata Altes Südarabier 5.2 32 Alt/historisch CH 10.2
Saur Saurashtra links nach rechtsEdit this on Wikidata Saurashtra 5.1 82 Ch 13.13
SGNW Signwriting vertikales links nach rechtsEdit this on Wikidata Signwriting 8.0 672 Ch 21.7
Shaw Shavian (Shaw) links nach rechtsEdit this on Wikidata Shavier 4.0 48 CH 8.15
Shrd Sharada, Śāradā links nach rechtsEdit this on Wikidata Sharada 6.1 96 Ch 15.3
Shui Shuishu links nach rechts Zz- Nicht in Unicode
Sidd Siddham, Siddhaṃ, Siddhamātṛkā links nach rechtsEdit this on Wikidata Siddham 7.0 92 Alt/historisch Ch 15.5
Sind Khudawadi, Sindhi links nach rechtsEdit this on Wikidata Khudawadi 7.0 69 Ch 15.8
Sinh Sinhala links nach rechtsEdit this on Wikidata Sinhala 3.0 111 Ch 13.2
Sogd Sogdian horizontales und vertikales Schreiben in ostasiatischen Skripten, oben nach untenEdit this on Wikidata Sogdian 11.0 42 Alt/historisch Ch 14.10
Also geh Altes Sogdian Rechts nach links Edit this on Wikidata Altes Sogdian 11.0 40 Alt/historisch Ch 14.9
Sora Sora Sompeng links nach rechtsEdit this on Wikidata Sora Sompeng 6.1 35 Ch 15.16
Sojo Soyombo links nach rechtsEdit this on Wikidata Soyombo 10.0 83 Alt/historisch Ch 14.7
Sonnung Sundanese links nach rechtsEdit this on Wikidata Sundanese 5.1 72 Ch 17.7
Sunu Sunuwar links nach rechts Zz- Nicht in Unicode
Sylo Syloti Nagri links nach rechtsEdit this on Wikidata Syloti Nagri 4.1 45 Alt/historisch Ch 15.1
SYRC Syrien Rechts nach links Edit this on Wikidata Syrien 3.0 88 Enthält typografische Varianten Estrangelo (§ Syre), Westlich (§ Syrj) und östlich (§ Syrn)) CH 9.3
Syre Syrer (Estrangelo Variante) gemischt Zz- Typografische Variante von Syrien (§ SYRC))
Syrj Syrer (westliche Variante) gemischt Zz- Typografische Variante von Syrien (§ SYRC))
Syrn Syrer (östliche Variante) gemischt Zz- Typografische Variante von Syrien (§ SYRC))
Tagb Tagbanwa links nach rechtsEdit this on Wikidata Tagbanwa 3.2 18 Ch 17.1
Takr Takri, ṭākrī, ṭāṅkrī links nach rechtsEdit this on Wikidata Takri 6.1 68 Ch 15.4
Geschichte Tai le links nach rechtsEdit this on Wikidata Tai le 4.0 35 Ch 16.5
Talu Neuer Tai Lue links nach rechtsEdit this on Wikidata Neuer Tai Lue 4.1 83 Ch 16.6
Taml Tamilisch links nach rechtsEdit this on Wikidata Tamilisch 1.0 123 Ch 12.6
Seetang Tangut vertikaler nach rechts, links nach rechtsEdit this on Wikidata Tangut 9.0 6,914 Alt/historisch Ch 18.11
Tavt Tai Viet links nach rechtsEdit this on Wikidata Tai Viet 5.2 72 Ch 16.8
Telu Telugu links nach rechtsEdit this on Wikidata Telugu 1.0 100 Ch 12.7
Teng Tengwar links nach rechts Zz- Nicht in Unicode
Tfng Tifinagh (Berber) links nach rechtsEdit this on Wikidata Tifinagh 4.1 59 Ch 19.3
Tglg Tagalog (Baybayin, Alibata) links nach rechtsEdit this on Wikidata Tagalog 3.2 23 Ch 17.1
Thaa Thaana Rechts nach links Edit this on Wikidata Thaana 3.0 50 Ch 13.1
Thai Thai links nach rechtsEdit this on Wikidata Thai 1.0 86 Ch 16.1
TIBT Tibetaner links nach rechtsEdit this on Wikidata Tibetaner 2.0 207 In 1,0 hinzugefügt, in 1,1 entfernt und in 2,0 wieder eingeführt Ch 13.4
Tirh Tirhuta links nach rechtsEdit this on Wikidata Tirhuta 7.0 82 Ch 15.10
TNSA Tangsa links nach rechts Tangsa 14.0 89 Ch 13.18
Toto Toto links nach rechts Toto 14.0 31 Ch 13.17
Ugar Ugaritisch links nach rechtsEdit this on Wikidata Ugaritisch 4.0 31 Alt/historisch Ch 11.2
Vaii Vai links nach rechtsEdit this on Wikidata Vai 5.1 300 Ch 19.5
VISP Sichtbare Rede links nach rechts Zz- Nicht in Unicode
Vith Vithkuqi links nach rechts Vithkuqi 14.0 70 Alt/historisch CH 8.12
Wara Warang Citi (Varang Kshiti) links nach rechtsEdit this on Wikidata Warang Citi 7.0 84 Ch 13.9
WCHO Wancho links nach rechtsEdit this on Wikidata Wancho 12.0 59 Ch 13.16
Wole Woleai gemischt Zz- Nicht in Unicode, der Vorschlag wird untersucht[ich]
Xpeo Alter Perser links nach rechtsEdit this on Wikidata Alter Perser 4.1 50 Alt/historisch Ch 11.3
Xsux Keilschrift, Sumero-Akkadian links nach rechtsEdit this on Wikidata Keilschrift 5.0 1,234 Alt/historisch Ch 11.1
Yezi Yezidi Rechts nach links Edit this on Wikidata Yezidi 13.0 47 Alt/historisch CH 9.6
Yiii Yi links nach rechtsEdit this on Wikidata Yi 3.0 1,220 Ch 18.7
Zanb Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Drehbuch) links nach rechtsEdit this on Wikidata Zanabazar Square 10.0 72 Alt/historisch Ch 14.6
Zinh Code für ererbte Skript Vererbt 657
ZMTH Mathematische Notation Zz- Kein "Skript" in Unicode
Zsym Symbole Zz- Kein "Skript" in Unicode
Zsye Symbole (Emoji -Variante) Zz- Kein "Skript" in Unicode
ZXXX Code für ungeschriebene Dokumente Zz- Kein "Skript" in Unicode
Zyyy Code für unbestimmtes Skript Verbreitet 8,252
Zzzz Code für nicht kodiertes Skript Unbekannt 969,350 In Unicode: Alle anderen Codepunkte
Anmerkungen
  1. ^
    ISO 15924 Publikationen Ab dem 3. Dezember 2021
  2. ^
    ISO 15924 Normative Textdatei Ab dem 3. Dezember 2021
  3. ^
    ISO 15924 Änderungen (einschließlich Aliase für Unicode; ab dem 3. Dezember 2021)
  4. ^
    Unicode Version 14.0
  5. ^
  6. ^
    Unicode verwendet den "Eigenschaftswert alias" (alias) als Skriptname. Diese Alias ​​-Namen sind Teil von Unicode und werden informativ neben ISO 15924 veröffentlicht. Ein Alias ​​-Skriptname kann in einem Zeichennamen verwendet werden: Palme, Palmyren → U+10860 Palmyren Letter Aleph.
  7. ^
    In Unicode ist das phönizische Skript für die Darstellung von Text in bestimmt Paläo-Hebräisch, Archaischer Phönizier, phönizisch, Frühes Aramäisch, Verstorbener phönizischer Kursiv, phönizischer Papyri, Siloam Hebräisch, Hebräische Siegel, Ammonit, Moabit, und Punisch.[iv]
Verweise
  1. ^ a b c d e f g h i "Vorgeschlagene neue Skripte". Unicode -Konsortium. 2018-05-25. Abgerufen 2019-09-12.
  2. ^ Michael Everson (1997-09-18). "Vorschlag, Klingon in Ebene 1 von ISO/IEC 10646-2 zu codieren".
  3. ^ Das Unicode Consortium (2001-08-14). "Genehmigtes Protokoll des UTC 87 / L2 184 Joint Meeting".
  4. ^ "Nahe Osten-II, alte Skripte" (PDF). 14.0.0. Das Unicode Consortiumtitle = Middle-Ost-Skripte ii. Abgerufen 2021-09-15.

Normalisierungseigenschaften

Zersetzung, Zersetzungstyp, kanonische Kombinationskurs, Kompositionsausschlüsse und mehr.

Das Alter

Das Alter ist die Version des Standards, in dem der Codepunkt erstmals bezeichnet wurde. Die Versionsnummer wird verkürzt auf die Nummerierung major.minor, obwohl detailliertere Versionsnummern verwendet werden: Versionen 4.0.0 und 4.0.1 werden beide als Alter als Alter bezeichnet. Angesichts der Veröffentlichungen kann das Alter aus dem Bereich betragen: 1.1, 2,0, 2,1, 3,0, 3,1, 3,2, 4,0, 4,1, 5,0, 5,1, 5,2, 6,0, 6,1, 6,2, 6,3, 7,0, 8,0, 9,0, 10.0, 11,0, 11,0, 11,0, 11,0, 11,0, 11,0, 11,0 , 12.0, 12,1, 13,0 und 14.0.[20] Die langen Werte für das Alter beginnen in einem V und verwenden beispielsweise einen Unterstrich anstelle eines Punktes: v1_1.[2] CodePoints ohne spezifisch zugewiesenen Alterswert haben den Wert "NA", wobei die lange Form "nicht zugewiesen" ist.

Veraltet

Sobald ein Charakter definiert wurde, wird er nicht entfernt oder neu zugewiesen.[21] Ein Charakter kann jedoch sein veraltetDas heißt, seine "Verwendung ist stark entmutigt".[22] Ab der Unicode -Version 14.0 sind die folgenden fünfzehn Zeichen veraltet:[23]

Veraltete Zeichen in Unicode
Codepoint Charaktername Empfohlene Alternative Bemerkungen
U+0149 Lateinischer kleiner Buchstaben N, dem Apostroph vorausging U+02BC U+006E n
U+0673 Arabischer Buchstaben ALEF mit welligen Hamza unten U+0627 U+065F اٟ
U+0F77 Tibetischer Vokalzeichen vokalische RR U+0fb2 u+0f81[a] ྲཱ ྀ
U+0F79 Tibetaner Vokalzeichen Vocalic LL U+0fb3 u+0f81[a] ླཱ ྀ
U+17A3 Khmer Independent Vokal Qaq U+17A2
U+17A4 Khmer Independent Vokal QAA U+17A2 U+17B6 អា
U+206a Hemmung des symmetrischen Austauschs Keiner[b]
U+206B Aktivieren Sie den symmetrischen Austausch Keiner[b]
U+206c Behindern die arabische Formformung Keiner[b]
U+206d Aktivieren Sie die arabische Formformung Keiner[b]
U+206E Nationale Ziffernformen Keiner[b]
U+206f Nominale Ziffernformen Keiner[b]
U+2329 Linkszahnwinkelhalterung U+3008[c] U+27E8 Mathematische linke Winkelhalterung wird für mathematische und andere technische Verwendung empfohlen
U+232a Rechtswinkelhalterung U+3009[c] U+27E9 Mathematische rechte Winkelhalterung wird für mathematische und andere technische Verwendung empfohlen
U+E0001 Sprachetikett Keiner[d]
  1. ^ a b U+0f81 Tibetisches Vokalzeichen II umgekehrt ist selbst entmutigt (aber nicht veraltet) und ist kanonisch äquivalent zur Sequenz U+0F71 U+0F80.
  2. ^ a b c d e f Anstatt dies zu verwenden Steuerzeichen Um das entsprechende Erscheinungsbild für Text anzuzeigen, sollten geeignete Zeichencodes mit dem richtigen Zustand verwendet werden.[24]
  3. ^ a b Dieser alternative Charakter ist in der CJK -Symbole und Zeichensetzung Block und ist nicht für den mathematischen oder technischen Gebrauch geeignet
  4. ^ Stattdessen sollten alternative Mittel zur Sprachverzeichnis verwendet werden.[25]

Grenzen

Der Unicode-Standard gibt die folgenden randbezogenen Eigenschaften an:

  • Graphem Cluster
  • Wort
  • Linie
  • Satz

Unicode -Namen aliases Korrektur

Charakter Name Alias
01a2 Ƣ Lateinischer Großbuchstaben oi Lateinischer Großbuchstaben GHA
01a3 ƣ Lateinischer kleiner Buchstabe oi Lateinischer kleiner Buchstabe GHA
0709 ܉ Syrisch unter sublinearer Dickdarm rassel Syrisch unter sublinearer Dickdarm links links
0cde Kannada Brief fa Kannada Brief llla
0e9d Lao -Brief für Tam Lao Brief für Fon
0E9f Lao Brief für gesungen Lao -Brief für Fay
0EEA3 Lao Brief lo ling Lao Brief Ro
0ea5 Lao Letter Lo Beute Lao Brief lo
0fd0 Tibetaner Mark Bska-Shog Gi Mggyan Tibetische Mark Bka-Shog Gi Mggyan
11ec Hangul Jongseong Ieung-Kiyeok Hangul Jongseong Yesyung-Kiyeok
11ed Hangul Jongseong Ieung-Ssangkiyeok Hangul Jongseong Yesiung-Ssangkiyeok
11ee Hangul Jongseong Ssangieung Hangul Jongseong Ssangyesieung
11ef Hangul Jongseong Ieung-Khieukh Hangul Jongseong Yesyung-Khieukh
2118 Skriptkapital p Weierstrass Elliptische Funktion
2448 OCR Dash Mikro auf US -Symbol
2449 OCR -Kundenkontonummer Mikro -Dash -Symbol
2B7A Linksdreieck köpfte Pfeil mit doppelter horizontaler Strich Linksdreieck köpfte Pfeil mit doppelter vertikaler Strich
2B7C Richtiger Dreieckspfeil mit doppelter horizontaler Strich Richtiger Dreieckspfeil mit doppelter vertikaler Strich
A015 Yi Silbe Wu Yi Silbe Iteration Marke
Fe18 Präsentationsform für vertikale rechte weiße linsenförmige Braket Präsentationsform für vertikale rechte weiße Linsenhalterung
122d4 Keilförmiges Zeichen Shir Tenu Keilförmiges Zeichen Nu11 Tenu
122d5 Keilförmiges Zeichen Shir über Shir bur über Bur Keilförmiges Zeichen Nu11 über Nu11 bur über bur
16e56 MEDEFAIDRIN Großbuchstaben HP MEDEFAIDRIN Großbuchstaben h
16e57 Medefaidrin Capital Letter NY Medefaidrin Capital Letter Ng
16e76 Medefaidrin kleiner Buchstaben HP Mederaidrin kleiner Buchstaben h
16e77 Medefaidrin kleiner Brief NY Medefaidrin kleiner Buchstaben ng
1B001 Hiragana Brief archaisch ye Hentaigana Brief E-1
1D0C5 Byzantinisches Musiksymbol Fhtora Skloniron Chroma Vasis Byzantinisches Musiksymbol Fthora Skloniron Chroma Vasis


Externe Links

Verweise

  1. ^ a b c d e "Der Unicode -Standard, Kapitel 4: Zeicheneigenschaften" (PDF). Unicode, Inc. September 2021. Abgerufen 2021-08-15. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  2. ^ a b c "Unicode Standard Anhang #44: Unicode -Zeichendatenbank". Der Unicode -Standard. 2017-06-14.
  3. ^ "UCD: Unicode -Daten".
  4. ^ "UCD: Name Aliase". Unicode -Zeichendatenbank. Unicode -Konsortium. 2019-03-08.
  5. ^ "Charakterdesignstandards - Space Charaktere". Charakterdesignstandards. Microsoft. 1998–1999. Archiviert von das Original am 23. August 2000. Abgerufen 2009-05-18.
  6. ^ Der Unicode Standard 5.0, Printed Edition, S.205
  7. ^ "Allgemeine Zeichensetzung" (PDF). Der Unicode Standard 5.1. Unicode Inc. 1991–2008. Abgerufen 2009-05-13.
  8. ^ Sargent, Murray III (2006-08-29). "Unicode Fast einfacher Textcodierung der Mathematik (Version 2)". Unicode Technische Note #28. Unicode Inc. S. 19–20. Abgerufen 2009-05-19.
  9. ^ Gillam, Richard (2002). Unicode entmystifiziert: Ein praktischer Programmierhandbuch zum Codierungsstandard. Addison-Wesley. ISBN 0-201-70052-2.
  10. ^ a b Hickson, Ian. "12.5 Namens Charakterreferenzen". HTML Standard. Waswg.
  11. ^ Wolfram. "\ [Negativethickspace]". Wolfram -Sprachdokumentation.
  12. ^ Wolfram. "\ [Negativemediumspace]". Wolfram -Sprachdokumentation.
  13. ^ Wolfram. "\ [Negativethinspace]". Wolfram -Sprachdokumentation.
  14. ^ Wolfram. "\ [Negativverythinspace]". Wolfram -Sprachdokumentation.
  15. ^ Faltstrom, P., ed. (August 2010). "Null Breite Nicht-Joiner". Die Unicode -Codepunkte und internationalisierten Domainnamen für Anwendungen (IDNA). Ietf. Sek. A.1. doi:10.17487/rfc5892. RFC 5892. Abgerufen 4. September, 2019.
  16. ^ Faltstrom, P., ed. (August 2010). "Zero Width Joiner". Die Unicode -Codepunkte und internationalisierten Domainnamen für Anwendungen (IDNA). Ietf. Sek. A.2. doi:10.17487/rfc5892. RFC 5892. Abgerufen 4. September, 2019.
  17. ^ "Unicode Standard Anhang #44, Unicode -Zeichendatenbank".
  18. ^ a b "Unicode Standard Anhang Nr. 9: Unicode -Bidirektionalalgorithmus". Der Unicode -Standard. 2017-05-14.
  19. ^ "Unicode Standard Anhang Nr. 24: Unicode Skript -Eigenschaft". Der Unicode -Standard. 2015-06-01.
  20. ^ "UCD: Abgeleitete Alter". Unicode -Zeichendatenbank. Unicode -Konsortium. 2021-07-10.
  21. ^ "Unicode -Charakter -Codierungsstabilitätsrichtlinien". Unicode. Unicode -Konsortium. 2017-06-23. Abgerufen 2021-07-25. Sobald ein Charakter codiert ist, wird er nicht bewegt oder entfernt.
  22. ^ "3.4: Zeichen und Codierung, D13: veralteter Zeichen" (PDF). Der Unicode Standard, Version 14.0. Blick auf die Berge: Unicode -Konsortium. 2021-09-14. ISBN 9781936213-290. Abgerufen 2021-09-15.
  23. ^ "PropList-114.0.0.txt". Unicode. Unicode -Konsortium. 2021-08-12. Abgerufen 2021-09-15.
  24. ^ "Kapitel 23.3: Veraltete Formatzeichen" (PDF). Der Unicode Standard, Version 13.0. Blick auf die Berge: Unicode -Konsortium. 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25.
  25. ^ "23.9: Tagzeichen, veraltete Verwendung für das Sprach -Tagging" (PDF). Der Unicode Standard, Version 13.0. Blick auf die Berge: Unicode -Konsortium. 2020-03-10. ISBN 9781936213269. Abgerufen 2021-07-25.