Han -Vereinigung
Han -Vereinigung ist eine Anstrengung der Autoren von Unicode und die Universeller Charakter -Set um mehrere zu kartieren Zeichensätze des Han Charaktere der sogenannten CJK Sprachen in einen einzigen Satz von Unified Figuren. Han -Charaktere sind ein Feature, das gemeinsam geschrieben wird Chinesisch (Hanzi), japanisch (Kanji), Koreanisch (Hanja) und Vietnamesisch (Chữ Hán).
Moderner Chinesisch, Japanisch und Koreanisch Schriften Normalerweise regional oder historisch verwenden Varianten eines bestimmten Han -Charakters. Bei der Formulierung von Unicode wurde versucht, diese Varianten zu vereinen, indem sie sie anders betrachten Glyphen das gleiche darstellen "Graphem", oder orthografisch Einheit, daher "Han -Vereinigung", mit dem daraus resultierenden Charakterrepertoire, an die sich manchmal beauftragt hat Unihan. Dennoch haben viele Charaktere regionale Varianten zugewiesen, die unterschiedlich zugeordnet sind Codepunkte, wie zum Beispiel Traditionell 個 (U+500b) gegen Vereinfacht 个 (U+4e2a).
Unihan kann sich auch auf die von der verwaltete Unihan -Datenbank beziehen Unicode -Konsortium, die Informationen zu allen einheitlichen Han -Zeichen liefert, die im Unicode -Standard codiert sind, einschließlich Zuordnungen zu verschiedenen nationalen und branchenweitlichen Standards, Indizes in Standardwörterbücher, codierten Varianten, Aussprachen in verschiedenen Sprachen und einer englischen Definition. Die Datenbank steht der Öffentlichkeit als Textdateien zur Verfügung[1] und über eine interaktive Website.[2][3] Letztere enthält auch repräsentative Glyphen und Definitionen für zusammengesetzte Wörter aus dem freien Japaner EDIKT und Chinesen Cedict Wörterbuchprojekte (die für die Bequemlichkeit vorgesehen sind und kein formaler Bestandteil des Unicode -Standards sind).
Begründung und Kontroverse
Der Unicode -Standard beschreibt die Prinzipien der Han -Vereinigung.[4][5] Das Ideografische Forschungsgruppe (IRG), bestehend aus Experten aus den chinesischsprachigen Ländern, Nord- und Südkorea, Japan, Vietnam und anderen Ländern, ist für den Prozess verantwortlich.
Eine Begründung war der Wunsch, die Größe des vollständigen Unicode -Zeichensatzes zu begrenzen, bei dem CJK -Zeichen, wie durch diskrete dargestellt Ideogramme kann 100.000 nähern oder überschreiten[a] Figuren. Version 1 von Unicode wurde so konzipiert, dass sie in 16 Bit passen und nur 20.940 Zeichen (32%) der möglichen 65.536 für diese reserviert waren CJK Unified Ideographs. Unicode wurde später auf 21 Bit ausgedehnt, wobei viele weitere CJK -Zeichen (92.865 zugewiesen werden, mit Platz für mehr).
Der Artikel Das geheime Leben von Unicode, befindet sich auf IBM Developerworks und versucht, einen Teil der Motivation für die HAN -Vereinigung zu veranschaulichen:
Das Problem beruht auf der Tatsache, dass Unicode eher Zeichen als "Glyphen" codiert, die die visuellen Darstellungen der Zeichen sind. Es gibt vier Grundtraditionen für ostasiatische Charakterformen: traditionelle chinesische, vereinfachte Chinesen, Japanisch und Koreanisch. Während das Han -Root -Zeichen für CJK -Sprachen gleich sein kann, sind die Glyphen in allgemeiner Verwendung für dieselben Zeichen möglicherweise nicht. Zum Beispiel verwendet der traditionelle chinesische Glyphe für "Gras" vier Striche für das "Gras" -Radikal [⺿], während die vereinfachten chinesischen, japanischen und koreanischen Glyphen [⺾] Verwenden Sie drei. Es gibt jedoch nur einen Unicode -Punkt für das Grascharakter (U+8349) [草] Unabhängig vom Schreibsystem. Ein weiteres Beispiel ist der Ideograph für "One", der sich auf Chinesisch, Japanisch und Koreanisch unterscheidet. Viele Menschen denken, dass die drei Versionen unterschiedlich codiert werden sollten.
Tatsächlich die drei Ideografien für "One" (一, 壹, oder 壱) werden in Unicode getrennt codiert, da sie nicht als nationale Varianten angesehen werden. Die erste ist die gemeinsame Form in allen drei Ländern, während die zweite und dritte für Finanzinstrumente verwendet werden, um Manipulationen zu verhindern (sie können als Varianten angesehen werden).
Die Han -Vereinigung hat jedoch auch erhebliche Kontroversen verursacht, insbesondere in der japanischen Öffentlichkeit, die mit den Literaten der Nation eine Geschichte haben, in der sie gegen das Ausrüstung von historisch und kulturell bedeutenden Varianten protestieren.[6][7] (Sehen Kanji § orthografische Reform und Listen von Kanji. Heute erweitert sich die Liste der Zeichen, die für die Verwendung in Eigentumsnamen offiziell anerkannt sind, in bescheidenem Tempo weiter.)
1993 die Japan Electronic Industries Development Association (Jeida) veröffentlichte eine Broschüre mit dem Titel "未来の文字コード体系に私達は不安をもっています"(Wir sind ängstlich um das zukünftige Charakter -Codierungssystem Jpno 20985671), Zusammenfassung der großen Kritik an dem von Unicode verfolgten Han -Vereinigung.
Aditya Mukerjee kritisierte die Bemühungen als Versuch, eine künstliche, begrenzte Reihe von Charakteren zu schaffen, anstatt die Vielfalt asiatischer Sprachen vollständig zu erkennen, und verglichen die Han -Vereinigung mit einer hypothetischen Vereinigung europäischer Alphabete, einschließlich Englisch und Russisch, wie das gleiche Wurzeln in der gleichen Wurzel in Griechisch. Er wies auch auf eine schnell wachsende Emoji -Untergruppe von Unicode hin, was zu einer absurden Situation führte, in der er A eingeben kann U+1F4A9
Haufen Poo Charakter hat einen eigenen Codepunkt, aber er kann seinen Vornamen nicht richtig eingeben Bengali Ohne Charaktere zu ersetzen.[8]
Graphemes gegen Glyphen
A Graphem ist die kleinste abstrakte Bedeutungseinheit in einem Schreibsystem. Jedes Graphem hat viele mögliche Glyph -Ausdrücke, alle werden jedoch von denen mit Lesen und Schreiben von Kenntnissen eines bestimmten Schreibsystems als das gleiche Graphem anerkannt. Obwohl Unicode typischerweise Zeichen für Codepunkte zuweist, um die Grapheme innerhalb eines Schreibsystems auszudrücken, den Unicode -Standard (Abschnitt 3.4 D7) Vorsicht:
Ein abstrakter Charakter entspricht nicht unbedingt dem, was ein Benutzer als "Charakter" betrachtet und nicht mit a verwechselt werden sollte Graphem.
Dieses Zitat bezieht sich jedoch auf die Tatsache, dass einige Grapheme aus mehreren Zeichen bestehen. Also zum Beispiel der Charakter U+0061 a Lateinischer kleiner Buchstabe a kombiniert mit U+030a ◌̊ Ring oben kombinieren (d. H. Die Kombination "Å") kann von einem Benutzer als einzelnes Graphem verstanden werden, während sie aus mehreren abstrakten Zeichen von Unicode zusammengesetzt werden. Außerdem weist Unicode eine kleine Zahl (außer aus Kompatibilitätsgründen) von Formatierungszeichen, Whitespace -Zeichen und anderen abstrakten Zeichen, die keine Grapheme sind, sondern stattdessen zur Steuerung der Pausen zwischen Zeilen, Wörtern, Graphemen und anderen abstrakten Zeichen zugewiesen, einige Codepunkte (außer aus Kompatibilitätsgründen). Graphem -Cluster. Mit den einheitlichen Han -Ideografien fährt der Unicode -Standard von früheren Praktiken ab, um abstrakte Zeichen nicht als Grapheme zuzuweisen, sondern nach der zugrunde liegenden Bedeutung des Graphems: Was Linguisten manchmal nennen SEMEMES. Diese Abreise wird daher nicht einfach durch die oft zitierte Unterscheidung zwischen einem abstrakten Charakter und einem Glyphen erklärt, sondern ist mehr in der Differenz zwischen einem als Graphem zugewiesenen abstrakten Zeichen und einem abstrakten Charakter verwurzelt, das als Semem zugewiesen ist. Dagegen überlegen ASCIIVereinigung von Interpunktion und Diakritik, wo Grapheme mit sehr unterschiedlichen Bedeutungen (zum Beispiel eine Apostroph und eine einzelne Anführungszeichen) sind einheitlich, weil die Glyphen gleich sind. Für Unihan sind die Charaktere nicht durch ihr Aussehen, sondern durch ihre Definition oder Bedeutung einheitlich.
Damit ein Graphem durch verschiedene Glyphen dargestellt wird, bedeutet das Graphem Glyphenschwankungen, die normalerweise durch Auswahl einer Schriftart oder eines anderen bestimmt werden oder Glyphensubstitutionsmerkmale verwendet, bei denen mehrere Glyphen in einer einzigen Schrift enthalten sind. Solche Glyphenvariationen werden durch Unicode ein Merkmal reicher Textprotokolle berücksichtigt und nicht ordnungsgemäß durch die einfachen Textziele von Unicode behandelt. Wenn die Änderung von einem Glyphen zum anderen jedoch eine Änderung von einem Graphem zum anderen darstellt - wobei ein Glyphe beispielsweise nicht das gleiche Graphem bedeuten kann wie der kleine Buchstaben "A" -, trennt Unicode diese in separate Codepunkte. Für Unihan wird das Gleiche getan, wenn sich die abstrakte Bedeutung ändert, anstatt von der abstrakten Bedeutung eines Graphems (dem Buchstaben "A") zu sprechen, die Vereinigung von Han -Ideographen weist einen neuen Codepunkt für jede unterschiedliche Bedeutung zu - auch wenn das ist - auch wenn das ist Die Bedeutung wird durch verschiedene Grapheme in verschiedenen Sprachen ausgedrückt. Obwohl ein Graphem wie "ö" in Englisch etwas anderes bedeuten könnte (wie im Wort "Coördiniert") als auf Deutsch, ist es immer noch das gleiche Graphem und kann leicht einheitlich sein, damit Englisch und Deutsch ein gemeinsames teilen können abstraktes lateinisches Schreibsystem (zusammen mit Latein selbst). Dieses Beispiel weist auch auf einen anderen Grund hin, dass "abstrakter Charakter" und graphem als abstrakte Einheit in einer geschriebenen Sprache nicht unbedingt eins zu eins zugeordnet sind. In Englisch kann die kombinierte Diaerese, "¨" und das "o" es als zwei getrennte Grapheme angesehen werden, während in Sprachen wie Schwedisch der Buchstabe "ö" als einzelnes Graphem angesehen werden kann. In englischer Sprache wird der Punkt auf einem "I" als Teil des "I" -Angraphens verstanden, während in anderen Sprachen wie Türkisch der Punkt als separates Graphem angesehen werden kann, das dem punktlosen "ı" hinzugefügt wurde.
Um mit der Verwendung verschiedener Grapheme für dasselbe Unihan -Sememe umzugehen, hat sich Unicode auf verschiedene Mechanismen verlassen: insbesondere in Bezug auf das Rendern von Text. Eine davon war, es einfach als eine Schriftprobleme zu behandeln, damit verschiedene Schriftarten Chinesisch, Japanisch oder Koreanisch machen können. Auch Schriftformate wie OpenType ermöglichen die Zuordnung von alternativen Glyphen entsprechend der Sprache, sodass ein Text -Rendering -System auf die Umgebungseinstellungen des Benutzers schauen kann, um zu bestimmen, welche Glyphen verwendet werden sollen. Das Problem bei diesen Ansätzen ist, dass sie die Ziele von Unicode nicht erreichen, eine konsistente Art der Codierung mehrsprachiger Text zu definieren.[9]
Anstatt das Problem als ein reiches Textproblem der Glyphen zu behandeln, fügte Unicode das Konzept von hinzu Variationswählern, zuerst in Version 3.2 eingeführt und in Version 4.0 ergänzt.[10] Während Variationswählern als Kombination von Zeichen behandelt werden, haben sie keine assoziierte diakritische oder marke. Durch die Kombination mit einem Basiszeichen signalisieren sie stattdessen, dass die zwei Zeichensequenz eine Variation (typischerweise in Bezug auf das Graphem, aber auch in Bezug auf die zugrunde liegende Bedeutung wie im Fall eines Standortnamens oder eines anderen ordnungsgemäßen Substantivs) des Basiszeichens auswählt. Dies ist dann keine Auswahl einer alternativen Glyphe, sondern die Auswahl einer Graphem -Variation oder eine Variation des abstrakten Basiszeichens. Eine solche Zwei-Charakter-Sequenz kann jedoch in modernen Schriftarten leicht auf eine separate einzelne Glyphe abgebildet werden. Da Unicode 256 separate Variationswählern zugewiesen hat, kann es 256 Variationen für jeden Han -Ideogramm zuweisen. Solche Variationen können für die eine oder andere Sprache spezifisch sein und die Codierung von Klartext ermöglichen, die solche Graphem -Variationen enthält.
Unihan "abstrakte Charaktere"
Da der Unihan -Standard "abstrakte Charaktere", nicht "Glyphen" codiert, wurden die von Unicode produzierten grafischen Artefakte als temporäre technische Hürden und höchstens kosmetisch angesehen. Insbesondere in Japan, teilweise aufgrund der Art und Weise, wie chinesische Charaktere historisch in japanische Schreibsysteme aufgenommen wurden, wurde die Unfähigkeit, eine bestimmte Variante anzugeben, als bedeutendes Hindernis für die Verwendung von Unicode in wissenschaftlicher Arbeit angesehen. Zum Beispiel bedeutet die Vereinigung von "Gras" (oben erklärt), dass ein historischer Text nicht codiert werden kann, um seine besondere Orthographie zu erhalten. Stattdessen müsste der Gelehrte beispielsweise den gewünschten Glyphen in einer bestimmten Schrift lokalisiert, um den Text als geschrieben zu vermitteln und den Zweck eines einheitlichen Zeichensatzes zu besiegen. Unicode hat auf diese Anforderungen reagiert, indem Variationswählern zugewiesen werden, damit Autoren Graphem -Variationen bestimmter Ideografien (oder sogar andere Zeichen) auswählen können.[10]
Kleine Unterschiede in der grafischen Darstellung sind ebenfalls problematisch, wenn sie die Lesbarkeit beeinflussen oder zur falschen kulturellen Tradition gehören. Abgesehen davon, dass einige Unicode -Schriftarten für Texte mit mehreren "Unihan -Sprachen" unbrauchbar machen, können Namen oder andere orthografisch sensible Terminologie falsch angezeigt werden. (Eigennamen sind in der Regel besonders orthografisch konservativ - um dies zu ändern, um die Schreibweise des Namens zu ändern, um einer Sprachreform in den USA oder in Großbritannien zu entsprechen.) Während dies in erster Linie als grafische Darstellung oder Rendering -Problem angesehen werden kann, die durch kunstvollere Schriftarten überwunden werden soll Die weit verbreitete Verwendung von Unicode würde es schwierig machen, solche Unterscheidungen zu bewahren. Das Problem eines Charakters, das semantisch unterschiedliche Konzepte darstellt, ist auch im lateinischen Teil von Unicode vorhanden. Das Unicode -Zeichen für ein Apostroph ist das gleiche wie das Zeichen für ein richtiges einzelnes Zitat (’). Andererseits die Hauptstadt Lateinischer Brief A ist nicht einheitlich mit dem griechischer Brief Α oder der Kyrillischer Brief А. Dies ist natürlich aus Gründen der Kompatibilität wünschenswert und befasst sich mit einem viel kleineren alphabetischen Charakter -Set.
Während der Vereinigungsaspekt von Unicode aus den oben angegebenen Gründen in einigen Vierteln umstritten ist, codiert Unicode jetzt eine Vielzahl von selten verwendeten Zeichen einer mehr oder weniger antiquarischen Natur.
Ein Teil der Kontroverse beruht auf der Tatsache, dass die Entscheidung, die HAN -Vereinigung durch das erste Unicode -Konsortium auszuführen, das zu dieser Zeit ein Konsortium nordamerikanischer Unternehmen und Organisationen war (die meisten von ihnen in Kalifornien).[11] aber keine Vertreter der ostasiatischen Regierungsvertreter. Das ursprüngliche Designziel bestand darin, einen 16-Bit-Standard zu schaffen.[12] und die Han -Vereinigung war daher ein kritischer Schritt, um Zehntausende von Charakter -Duplikationen zu vermeiden. Diese 16-Bit-Anforderung wurde später aufgegeben, was die Größe des Charakters heute weniger ein Problem darstellt.
Die Kontroverse erstreckte sich später auf die international repräsentative ISO: die Initiale CJK Joint Research Group (CJK-JRG) favorisierte einen Vorschlag (Dis 10646) für einen nicht nicht einheitlichen Charakter-Satz, der zugunsten der Vereinigung mit dem einheitlichen Charakter des Unicode Consortiums durch die Stimmen der amerikanischen und europäischen ISO-Mitglieder ausgelöst wurde "(obwohl der Die japanische Position war unklar).[13] Die Bestätigung der Unicode -Han -Vereinigung war ein notwendiger Schritt für die erhitzte ISO 10646/Unicode -Fusion.
Ein Großteil der Kontroverse um Han -Vereinigung basiert auf der Unterscheidung zwischen Glyphen, wie in Unicode definiert und die verwandte, aber eindeutige Idee von Grapheme. Unicode weist abstrakt Schrift. Ein Charakter kann durch viele unterschiedliche Glyphen dargestellt werden, zum Beispiel ein "g" oder ein "a", die beide möglicherweise eine Schleife haben (ɑ, ɡ) oder zwei (a, g). Für einen Leser lateinischer Skripts basierender Sprachen werden die beiden Variationen des "A" -Scharakters jedoch als das gleiche Graphem erkannt. Unicode wurden in den National Character Code Standards zu addiert, wie die Quelltrennregel von Unicode erforderlich ist, selbst wenn sie aus bereits verfügbaren Zeichen bestehen können. Die in CJK -Sprachen vorhandenen National Character Code -Standards sind angesichts der technologischen Einschränkungen, unter denen sie sich entwickelt haben, erheblich involviert, und so waren die offiziellen CJK -Teilnehmer an der HAN -Vereinigung möglicherweise durchaus für die Reform.
Im Gegensatz zu europäischen Versionen weisen CJK-Unicode-Schriftarten aufgrund der HAN-Vereinigung große, aber unregelmäßige Überlappungsmuster auf, die sprachspezifische Schriftarten erfordern. Leider erschweren sich sprachspezifische Schriftarten auch schwierig, auf eine Variante zuzugreifen, die, wie beim "Gras" -Schilit, in einem anderen Sprachstil typischerweise typischerweise erscheint. (Das heißt, es wäre schwierig, mit dem Vier-Takt-Radikaler auf traditionelle Chinesen in einer japanischen Umgebung auf "Gras" zuzugreifen, was in der Regel das Drei-Takt-Radikal darstellen würde.) Unihan-Befürworter neigen dazu, Markup-Sprachen zu bevorzugen Für die Definition von Sprachzeichenfolgen, dies würde jedoch nicht die Verwendung einer bestimmten Variante in dem angegebenen Fall sicherstellen, nur die sprachspezifische Schriftart häufiger darstellt ein Zeichen als diese Variante. (Zu diesem Zeitpunkt treten nur stilistische Unterschiede ein, da eine Auswahl japanischer und chinesischer Schriftarten wahrscheinlich nicht visuell kompatibel ist.)
Chinesische Nutzer scheinen weniger Einwände gegen Han -Vereinigung zu haben, vor allem, weil Unicode nicht versucht hat, sich zu vereinheitlichen Vereinfachte chinesische Charaktere mit Traditionelle chinesische Charaktere. (Vereinfachte chinesische Charaktere werden unter chinesischen Sprechern in der verwendet Volksrepublik China, Singapur, und Malaysia. Traditionelle chinesische Charaktere werden in Hongkong und Taiwan verwendet (Die großen 5) und sie sind mit einigen Unterschieden den koreanischen und japanischen Nutzern besser vertraut.) Unicode wird in Bezug auf dieses politisch aufgeladene Thema als neutral angesehen und hat vereinfachte und traditionelle chinesische Glyphen getrennt codiert (z. B. die Ideografin für "Abfindung" ist "Deporte" ist. 丟 U+4e1f für traditionelle chinesische big5 #a5e1 und 丢 U+4E22 für vereinfachte chinesische GB #2210). Es wird auch angemerkt, dass traditionelle und vereinfachte Zeichen separat gemäß den Unicode-Han-Vereinigungsregeln codiert werden sollten, da sie in bereits bestehenden PRC-Zeichensätzen unterschieden werden. Darüber hinaus ist traditionelle bis zu vereinfachte Charaktere wie bei anderen Varianten keine Eins-zu-Eins-Beziehung.
Alternativen
Es gibt mehrere alternative Zeichensätze, die nicht nach dem Prinzip der Han -Vereinigung kodieren und damit frei von seinen Einschränkungen sind:
Diese regionsabhängigen Charaktersätze werden aufgrund ihrer regionspezifischen Natur auch als nicht von der Einheit der HAN-Vereinigung angesehen:
- ISO/IEC 2022 (Basierend auf Sequenzcodes, um zwischen chinesischen, japanischen, koreanischen Zeichensets zu wechseln - daher ohne Vereinigung)
- Big5 Extensions
- GCCS und sein Nachfolger Hkscs
Keiner dieser alternativen Standards wurde jedoch so weit verbreitet wie UnicodeDas ist jetzt der Basischarakter für viele neue Standards und Protokolle, die international übernommen wurden, und ist in die Architektur von Betriebssystemen integriert (Microsoft Windows, Apfel Mac OS, und viele Unix-artig Systeme), Programmiersprachen (Perl, Python, C#, Java, Common Lisp, Apl, C, C ++) und Bibliotheken (IBM Internationale Komponenten für Unicode (Intensivstation) zusammen mit dem Pango, Graphit, Schreiber, Entzünden, und ATSUI Rendering -Motoren), Schriftformate (TrueType und Offener Typ) usw.
Im März 1989 a (B) Tron-Basierte System wurde von japanischen Regierungsorganisationen "Zentrum für Bildungscomputer" als Wahlsystem für die Schulbildung einschließlich der Schulbildung angenommen Pflichtschulbildung.[14] Ein Bericht mit dem Titel "1989 nationaler Handelsabschätzungsbericht über Außenhandelsperren" von "1989" aus Büro des US -amerikanischen Handelsvertreters haben das System speziell als Handelsbarriere in Japan aufgelistet. In dem Bericht wurde behauptet, dass die Annahme des auf Tron basierenden Systems durch die japanische Regierung für japanische Hersteller von Vorteil ist und somit die US-amerikanischen Betriebssysteme vom riesigen neuen Markt ausgeschlossen hat. Insbesondere im Bericht listet MS-DOS, OS/2 und UNIX als Beispiele auf. Das Büro von USTR wurde angeblich unter Microsofts Einfluss, als seinem ehemaligen Offizier Tom Robertson von Microsoft eine lukrative Position angeboten wurde.[15] Während das Tron -System selbst anschließend aus der Liste der Sanktionen entfernt wurde Abschnitt 301 des Handelsgesetzes von 1974 Nach Proteste der Organisation im Mai 1989 verursachte der Handelsstreit die Ministerium für internationale Handel und Industrie eine Anfrage von zu akzeptieren von Masayoshi Sohn Stornieren des Zentrums für Bildungsgesellauswahl des TRON-basierten Systems zur Verwendung von Bildungscomputern.[16] Der Vorfall gilt als symbolisches Ereignis für den Verlust der Dynamik und des späteren Todes des BTRON-Systems, was zur weit verbreiteten Einführung von MS-DOS in Japan und zur späteren Einführung von Unicode mit seinen Nachfolgerfenstern führte.
Fusion aller äquivalenten Charaktere
Es gab keinen Vorstoß auf die vollständige semantische Vereinigung aller semantisch verknüpften Charaktere, obwohl die Idee die jeweiligen Benutzer ostasiatischer Sprachen gleich behandeln würde, ob sie in koreanischen, vereinfachten chinesischen, traditionellen Chinesen schreiben. Kyūjitai Japanisch, Shinjitai Japanisch oder Vietnamesisch. Anstelle einiger Varianten, die unterschiedliche Codepunkte erhalten, während andere Gruppen von Varianten Einzelcodepunkte freigeben müssen, konnten alle Varianten nur mit Metadaten -Tags (z. B. CSS -Formatierung in Webseiten) zuverlässig ausgedrückt werden. Die Belastung wäre bei allen, die unterschiedliche Versionen verwenden 直, 別, 兩, 兔, ob dieser Unterschied auf Vereinfachung, internationale Varianz oder intra-nationale Varianz zurückzuführen ist. Für einige Plattformen (z. B. Smartphones) kann ein Gerät jedoch nur eine vorinstallierte Schriftart enthalten. Die System -Schriftart muss für jeden Codepunkt eine Entscheidung für den Standardglyphen treffen, und diese Glyphen können sich stark unterscheiden, was auf unterschiedliche zugrunde liegende Grapheme hinweist.
Infolgedessen ist es mit zwei Hauptproblemen, sich auf das gesamte Vorstand als Ansatz zu verlassen. Erstens gibt es Kontexte, in denen Sprachmarken nicht verfügbar sind (Code Commits, Plain Text). Zweitens müsste jede Lösung für jedes Betriebssystem mit vielen Glyphen für semantisch identische Zeichen mit vielen Varianten vorinstalliert werden. Zusätzlich zu den Standardcharakteren in vereinfachten chinesischen, traditionellen Chinesen, Koreanisch, Vietnamesisch, Kyūjitai -Japanisch und Shinjitai -Japanisch gibt es auch "alte" Formen von Charakteren, die für Historiker, Linguisten und Philologen von Interesse sind.
Die Unihan -Datenbank von Unicode hat bereits Verbindungen zwischen vielen Zeichen gezogen. Die Unicode -Datenbank katalogisiert die Verbindungen zwischen Variantenzeichen mit unterschiedlichen Codepunkten bereits. Für Zeichen mit einem gemeinsamen Codepunkt ist das Referenz -Glyphenbild jedoch normalerweise in Richtung der traditionellen chinesischen Version voreingenommen. Auch die Entscheidung, Paare als semantische Varianten zu klassifizieren oder zu klassifizieren oder Z-Varianten ist trotz Rationalisierungen im Handbuch nicht immer konsistent oder klar.[17]
Sogenannte semantische Varianten von 丟 (U+4e1f) und 丢 (U+4E22) sind Beispiele, die Unicode in ihren abstrakten Formen als unterschiedlich unterscheidet, während Unicode auflistet 佛 und 仏 Als Z-Varianten unterscheidet sich nur im Schriftart. Paradoxerweise berücksichtigt Unicode 兩 und 両 nahezu identische Z-Varianten zu sein und gleichzeitig als signifikant unterschiedliche semantische Varianten zu klassifizieren. Es gibt auch Fälle, in denen einige Charaktere gleichzeitig semantische Varianten und spezielle semantische Varianten und vereinfachte Varianten sind: 個 (U+500b) und 个 (U+4e2a). Es gibt Fälle von nicht-mutueller Äquivalenz. Zum Beispiel der Unihan -Datenbankeintrag für 亀 (U+4e80) berücksichtigt 龜 (U+9f9c) sein Z-Variante, aber der Eintrag für 龜 listet nicht auf 亀 als Z-Variante, obwohl 龜 war offensichtlich bereits zu dem Zeitpunkt, als der Eintrag für den Eintrag für 亀 wurde geschrieben.
Einige Bürofehler führten zu einer Verdoppelung von vollständig identischen Zeichen wie z. 﨣 (U+fa23) und (U+27EAF). Wenn eine Schriftart an beide Punkte mit Glyphen kodiert ist, so dass eine Schriftart für beide verwendet wird, sollten sie identisch erscheinen. Diese Fälle werden als Z-Variante aufgeführt, obwohl sie überhaupt keine Abweichung haben. Absichtlich doppelte Zeichen wurden hinzugefügt, um zu erleichtern Bit-for-Bit-Roundtrip-Konvertierung. Da die Roundtrip-Konvertierung ein frühes Verkaufsargument von Unicode war, bedeutete dies, dass Unicode das gleiche tun musste, wenn ein nationaler Nutzungsstand einen Charakter duplizierte. Unicode nennt diese absichtlichen Duplikationen "Kompatibilitätsvarianten"Wie bei 漢 (u+fa9a), die anruft 漢 (U+6F22) seine Kompatibilitätsvariante. Solange eine Anwendung die gleiche Schriftart für beide verwendet, sollten sie identisch erscheinen. Manchmal wie im Fall von 車 Mit u+8eca und u+f902 listet das hinzugefügte Kompatibilitätszeichen die bereits vorhandene Version von auf 車 als sowohl seine Kompatibilitätsvariante als auch ihre Z-Variante. Das Feld der Kompatibilitätsvariante überschreibt das Z-Variante-Feld und erzwingt die Normalisierung unter allen Formen, einschließlich kanonischer Äquivalenz. Trotz des Namens sind Kompatibilitätsvarianten tatsächlich kanonisch äquivalent und in jedem Unicode -Normalisierungsschema und nicht nur unter Kompatibilitätsnormalisierung vereint. Dies ähnelt wie wie U+212B Å Angstromzeichen ist kanonisch äquivalent zu einer Vorkomponzierung U+00C5 Å Lateinischer Großbuchstaben A mit Ring oben. Viel Software (z. B. die Mediawiki -Software, die Wikipedia hostet) ersetzt alle kanonisch äquivalenten Zeichen, die entmutigt sind (z. B. das Angstrom -Symbol) durch das empfohlene Äquivalent. Trotz des Namens sind CJK "Kompatibilitätsvarianten" kanonisch äquivalente Zeichen und keine Kompatibilitätszeichen.
漢 (U+FA9A) wurde später als in der Datenbank hinzugefügt als 漢 (U+6F22) war und sein Eintrag informiert den Benutzer über die Kompatibilitätsinformationen. Auf der anderen Seite, 漢 (U+6F22) hat diese Äquivalenz in diesem Eintrag nicht aufgeführt. Unicode verlangt, dass alle Einträge, sobald sie zugelassen sind, die Kompatibilität oder Äquivalenz nicht ändern können, sodass die Normalisierungsregeln für bereits vorhandene Zeichen nicht geändert werden.
Einige Paare von traditionellen und vereinfachten werden ebenfalls als semantische Varianten angesehen. Nach den Definitionen von Unicode ist es sinnvoll, dass alle Vereinfachungen (die nicht zu ganz unterschiedlichen Charakteren führen, die für ihre Homophonie zusammengeführt werden) eine Form der semantischen Variante sein werden. Unicode klassifiziert 丟 und 丢 wie die jeweiligen traditionellen und vereinfachten Varianten des anderen und auch als die semantischen Varianten des anderen. Während Unicode klassifiziert jedoch 億 (U+5104) und 亿 (U+4EBF) Wie die jeweiligen traditionellen und vereinfachten Varianten des anderen nicht berücksichtigt 億 und 亿 semantische Varianten voneinander sein.
Unicode behauptet, dass "es im Idealfall keine Paare von Z-Varianten im Unicode-Standard geben würden."[17] Dies scheint, dass das Ziel darin besteht, zumindest alle kleinen Varianten, Kompatibilitätsablösten und versehentliche Entlassungen zu vereinen, wodurch die Unterscheidung zu Schriftarten und Sprachetikeln überlassen wird. Dies steht im Widerspruch zu dem angegebenen Ziel von Unicode, diesen Gemeinkosten wegzunehmen, und um eine beliebige Anzahl von Skripten der Welt mit einem Codierungssystem auf demselben Dokument zu ermöglichen.[Unsachgemäße Synthese?] In Kapitel Eins der Handbuch heißt es: "Mit Unicode hat die Informationstechnologiebranche proliferierende Charaktersätze durch Datenstabilität, globale Interoperabilität und Datenaustausch, vereinfachte Software und reduzierte Entwicklungskosten ersetzt. Der Unicode-Standard geht weit über die begrenzte Fähigkeit von ASCII hinaus, nur die Ober- und Kleinbuchstaben-Buchstaben a bis Z zu codieren. Es bietet die Fähigkeit, alle für die geschriebenen Sprachen der Welt verwendeten Zeichen zu codieren oder Kontrollcode ist erforderlich, um ein Zeichen in jeder Sprache anzugeben. Das Unicode -Charakter -Codierung behandelt alphabetische Zeichen, ideografische Zeichen und Symbole äquivalent, was bedeutet, dass sie in jeder Mischung und mit gleicher Einrichtung verwendet werden können. "[9]
Das lässt uns mit einem einheitlichen Referenzgraphem für alle Z-Varianten festgelegt, was umstritten ist, da nur wenige außerhalb Japans erkennen würden 佛 und 仏 als äquivalent. Sogar in Japan befinden sich die Varianten auf verschiedenen Seiten einer großen Vereinfachung namens Shinjitai. Unicode würde die Vereinfachung der VR China effektiv machen 侣 (U+4fa3) und 侶 (U+4FB6) Ein monumentaler Unterschied im Vergleich. Ein solcher Plan würde auch die sehr visuell unterschiedlichen Variationen für Zeichen wie beseitigen 直 (U+76f4) und 雇 (U+96C7).
Man würde erwarten, dass alle vereinfachten Charaktere gleichzeitig auch Z-Varianten oder semantische Varianten mit ihren traditionellen Kollegen sein würden, aber viele sind es auch nicht. Es ist einfacher, den seltsamen Fall zu erklären, dass semantische Varianten gleichzeitig sowohl semantische Varianten als auch spezialisierte Varianten gleichzeitig sein können, wenn die Definition von Unicode darin besteht, dass spezielle semantische Varianten nur in bestimmten Kontexten die gleiche Bedeutung haben. Sprachen verwenden sie anders. Ein Paar, dessen Charaktere auf Japanisch zu 100% Drop-In-Ersatz für einander sind, sind auf Chinesisch möglicherweise nicht so flexibel. Daher müsste eine umfassende Fusion empfohlener Codepunkte einige Varianten beibehalten, die sich nur geringfügig unterscheiden, selbst wenn die Bedeutung für alle Kontexte in einer Sprache 100% gleich ist -in Ersatz.
Beispiele für sprachabhängige Glyphen
In jeder Zeile der folgenden Tabelle wird das gleiche Zeichen in allen sechs Spalten wiederholt. Jede Spalte ist jedoch markiert (von der Lang
Attribut) als in einer anderen Sprache: Chinesisch (vereinfacht und zwei Arten von traditionell), japanisch, Koreanisch, oder Vietnamesisch. Das Browser sollte für jedes Zeichen a auswählen Glyphe (von einem Schriftart) Geeignet für die angegebene Sprache. (Neben den tatsächlichen Zeichenschwankungen-suchen Sie nach Unterschieden in der Strichreihenfolge, der Anzahl oder der Richtung. Auf Ihrem System und der Schriftart, die ausgewählt wurde, um diesen Artikel anzuzeigen, enthält keine Glyphen für diese Zeichen.
Codepunkt | Chinesisch (vereinfacht) ( Zh-Hans )) | Chinesisch (traditionell) ( Zh-Hant )) | Chinesisch (traditionell, Hongkong) ( Zh-Hant-Hk )) | japanisch ( Ja )) | Koreanisch ( ko )) | Vietnamesisch ( vi-hani )) | Englisch |
---|---|---|---|---|---|---|---|
U+4eca | 今 | 今 | 今 | 今 | 今 | 今 | jetzt |
U+4ee4 | 令 | 令 | 令 | 令 | 令 | 令 | Ursache/Befehl |
U+514d | 免 | 免 | 免 | 免 | 免 | 免 | ausgenommen/ersatz |
U+5165 | 入 | 入 | 入 | 入 | 入 | 入 | Eintreten |
U+5168 | 全 | 全 | 全 | 全 | 全 | 全 | alle/total |
U+5173 | 关 | 关 | 关 | 关 | 关 | 关 | schließen (vereinfacht) / lachen (traditionell) |
U+5177 | 具 | 具 | 具 | 具 | 具 | 具 | Werkzeug |
U+5203 | 刃 | 刃 | 刃 | 刃 | 刃 | 刃 | Schneide |
U+5316 | 化 | 化 | 化 | 化 | 化 | 化 | Transformation/Veränderung |
U+5916 | 外 | 外 | 外 | 外 | 外 | 外 | außen |
U+60c5 | 情 | 情 | 情 | 情 | 情 | 情 | Gefühl |
U+624d | 才 | 才 | 才 | 才 | 才 | 才 | Talent |
U+62B5 | 抵 | 抵 | 抵 | 抵 | 抵 | 抵 | ankommen/widerstehen |
U+6B21 | 次 | 次 | 次 | 次 | 次 | 次 | sekundär/folgen |
U+6d77 | 海 | 海 | 海 | 海 | 海 | 海 | Meer |
U+76F4 | 直 | 直 | 直 | 直 | 直 | 直 | direkt/gerade |
U+771f | 真 | 真 | 真 | 真 | 眞 | 真 | Stimmt |
U+793a | 示 | 示 | 示 | 示 | 示 | 示 | Show |
U+795E | 神 | 神 | 神 | 神 | 神 | 神 | Gott |
U+7A7A | 空 | 空 | 空 | 空 | 空 | 空 | leer/luft |
U+8005 | 者 | 者 | 者 | 者 | 者 | 者 | einer, der/-ist/-er tut |
U+8349 | 草 | 草 | 草 | 草 | 草 | 草 | Gras |
U+8525 | 蔥 | 蔥 | 蔥 | 蔥 | 蔥 | 蔥 | Zwiebel |
U+89d2 | 角 | 角 | 角 | 角 | 角 | 角 | Rand/Horn |
U+9053 | 道 | 道 | 道 | 道 | 道 | 道 | Weg/Pfad/Straße |
U+96C7 | 雇 | 雇 | 雇 | 雇 | 雇 | 雇 | beschäftigen |
U+9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 | 骨 | Knochen |
Keine Charaktervariante, die exklusiv für Koreanisch oder Vietnamesisch ist, hat einen eigenen Codepunkt erhalten, während fast alle japanischen Shinjitai -Varianten oder vereinfachten chinesischen Varianten jeweils unterschiedliche Codepunkte und eindeutige Referenzglyphen im Unicode -Standard haben.
Im 20. Jahrhundert haben die ostasiatischen Länder ihre eigenen Codierungsstandards erstellt. Innerhalb jedes Standards haben es Varianten mit unterschiedlichen Codepunkten existiert, daher die unterschiedlichen Codepunkte in Unicode für bestimmte Sätze von Varianten. Einfach vereinfachtes Chinesisch als Beispiel die beiden Charaktervarianten von 內 (U+5167) und 内 (U+5185) unterscheiden sich genauso wie die koreanischen und nicht koreanischen Varianten von 全 (U+5168). Jede jeweilige Variante des ersten Charakters hat entweder 入 (U+5165) oder 人 (U+4EBA). Jede jeweilige Variante des zweiten Zeichens hat entweder 入 (U+5165) oder 人 (U+4EBA). Beide Varianten des ersten Charakters erhielten ihre eigenen Codepunkte. Die beiden Varianten des zweiten Zeichens mussten jedoch den gleichen Codepunkt teilen.
Die Begründung, die Unicode gibt 內/内, während Korea nie separate Codepunkte für die verschiedenen Varianten von gemacht hat 全. Es gibt einen Grund dafür, der nichts damit zu tun hat, wie die Hauskörper die Charaktere selbst sehen. China hat im 20. Jahrhundert einen Prozess durchlaufen, der sich mehrere Zeichen veränderte (wenn nicht vereinfacht). Während dieses Übergangs bestand die Notwendigkeit, beide Varianten innerhalb desselben Dokuments zu codieren. Koreanisch hat die Variante von immer verwendet 全 mit dem 入 (U+5165) Radikal oben. Daher hatte es keinen Grund, beide Varianten zu codieren. Koreanische Sprachdokumente im 20. Jahrhundert hatten wenig Grund, beide Versionen im selben Dokument darzustellen.
Fast alle Varianten, die die VR China entwickelte oder standardisierte, erhielten aufgrund des Vermögens des vereinfachten chinesischen Übergangs, der in das Rechenalter durchläuft, nur unterschiedliche Codepunkte. Dieses Privileg scheint jedoch inkonsistent zu gelten, während die meisten in Japan und des Festlandchina durchgeführten Vereinfachungen mit Codepunkten in den nationalen Standards, einschließlich in jedem Land, die unterschiedlich vereinfacht wurden, als unterschiedliche Codepunkte in Unicode geschafft haben.
62 Shinjitai "vereinfachte" Charaktere mit unterschiedlichen Codepunkten in Japan wurden mit ihren traditionellen Kyūjitai-Äquivalenten zusammengefasst wie 海. Dies kann Probleme für die Sprach -Tagging -Strategie verursachen. Es gibt kein universelles Tag für die traditionellen und "vereinfachten" Versionen von Japanisch wie für Chinesen. So, jeder japanische Schriftsteller, der die Kyūjitai -Form von ausstellen möchte 海 Möglicherweise muss der Charakter als "traditionelles Chinesisch" markieren oder darauf vertrauen, dass die japanische Schriftart des Empfängers nur die Kyūjitai -Glyphen verwendet, aber Tags traditioneller chinesischer und vereinfachter Chinesen erforderlich sein können, um die beiden Formen nebeneinander in einem japanischen Lehrbuch zu zeigen. Dies würde jedoch ausschließen, dieselbe Schrift für ein ganzes Dokument zu verwenden. Es gibt zwei verschiedene Codepunkte für 海 in Unicode, aber nur aus "Kompatibilitätsgründen". Jede Unicode-konformante Schrift muss die äquivalenten Codepunkte von Kyūjitai und Shinjitai in Unicode als gleich anzeigen. Inoffiziell kann eine Schriftart angezeigt werden 海 unterschiedlich mit 海 (u+6d77) als Shinjitai -Version und 海 (U+FA45) als Kyūjitai -Version (die mit der traditionellen Version in geschriebenem Chinesisch und Koreanisch identisch ist).
Das radikale 糸 (U+7CF8) wird in Zeichen wie 紅/红Mit zwei Varianten ist die zweite Form einfach die Kursivform. Die radikalen Komponenten von 紅 (U+7d05) und 红 (U+7ea2) sind semantisch identisch und die Glyphen unterscheiden sich nur in letzteren unter Verwendung einer Kursivversion der 糸 Komponente. Auf dem chinesischen Festland wollten die Standards jedoch die Kursivform standardisieren, wenn sie in Charakteren wie verwendet werden 红. Da diese Veränderung in relativ kurzer Zeit stattfand, gab es eine Übergangszeit. Beide 紅 (U+7d05) und 红 (U+7ea2) Erhielt separate Codepunkte in den Textcodierungsstandards der VR China, sodass Dokumente für chinesische Sprache beide Versionen verwenden können. Die beiden Varianten erhielten auch in Unicode unterschiedliche Codepunkte.
Der Fall des radikalen 艸 (U+8278) beweist, wie willkürlich der Zustand ist. Wenn sie verwendet werden, um Zeichen zu komponieren wie 草 (U+8349) wurde das Radikal oben platziert, hatte jedoch zwei verschiedene Formen. Traditionelle chinesische und Koreanische verwenden eine Vier-Takt-Version. Oben 草 Sollte etwas sein, das wie zwei Pluszeichen aussieht (⺿). Vereinfachtes Chinesisch, Kyūjitai Japanisch und Shinjitai Japanisch verwenden eine Drei-Takt-Version, wie zwei Pluszeichen, die ihre horizontalen Striche teilen (⺾, d.h. 草). Die Textcodierungskörper der VR China haben die beiden Varianten nicht unterschiedlich codiert. Die Tatsache, dass fast jede andere Änderung, die von der VR China verursacht wurde, egal wie geringfügig, ihren eigenen Codepunkt gewährleistet ist, dass diese Ausnahme möglicherweise unbeabsichtigt war. Unicode kopierte die bestehenden Standards so, wie es ist, und bewahrte solche Unregelmäßigkeiten.
Das Unicode -Konsortium hat in anderen Fällen Fehler erkannt. Die unzähligen Unicode-Blöcke für CJK-Han-Ideogramme haben Entlassungen in Originalstandards, entschließliche Entlassungen, die durch fehlerhafte Einfuhr der ursprünglichen Standards sowie versehentliche Fusionen verursacht werden, die später korrigiert werden, was einen Präzedenzfall für disunifizierende Charaktere darstellt.
Für Muttersprachler können Varianten unverständlich sein oder in ausgebildeten Kontexten inakzeptabel sein. Englische Sprecher mögen eine handgeschriebene Notiz verstehen, die "4p5 kg" als "495 kg" sagt, aber das Schreiben der neun rückwärts (so sieht es wie ein "P" aus) kann erschütternd sein und würde in jeder Schule als falsch angesehen. Ebenso für Benutzer einer CJK -Sprache, die ein Dokument mit "fremden" Glyphen liest: Varianten von 骨 kann als Spiegelbilder erscheinen, 者 kann einen Schlaganfall fehlen/einen fremden Schlaganfall haben, und 令 kann für nicht japanische Menschen unlesbar sein. (In Japan werden beide Varianten akzeptiert).
Beispiele für einige nicht nicht einheitliche Han-Ideografien
In einigen Fällen, in denen die Änderungen häufig am auffälligsten sind Lang
Attribute. Einige Varianten mit wohl minimalen Unterschieden erhalten jedoch unterschiedliche CodePoints, und nicht jede Variante mit wohl wesentlichen Änderungen erhalten einen einzigartigen CodePoint. Nehmen Sie als Beispiel einen Charakter wie z. 入 (U+5165), für die die einzige Möglichkeit, die Varianten anzuzeigen Lang
Attribut) wie in der vorherigen Tabelle beschrieben. Andererseits für 內 (U+5167), die Variante von 内 (U+5185) Erhält einen einzigartigen CodePoint. Für einige Charaktere wie 兌/兑 (U+514C/U+5151), kann jede Methode verwendet werden, um die verschiedenen Glyphen anzuzeigen. In der folgenden Tabelle vergleicht jede Zeile Varianten, denen verschiedene Codepunkte zugewiesen wurden. Beachten Sie für die Kürze Shinjitai Varianten mit unterschiedlichen Komponenten nehmen normalerweise (und nicht überraschend) eindeutige Codepoints (z. B. 氣/気). Sie werden nicht hier erscheinen, noch werden die vereinfachten chinesischen Zeichen, die konsistent vereinfachte radikale Komponenten annehmen (z. B. 紅/红, 語/语).[2] Diese Liste ist nicht erschöpfend.
Vereinfacht | Traditionell | japanisch | Andere Variante | Englisch |
---|---|---|---|---|
U+4E22 丢 | U+4e1f 丟 | verlieren | ||
U+4E24 两 | U+5169 兩 | U+4E21 両 | U+34b3 㒳 | zwei, beide |
U+4E58 乘 | U+4E58 乘 | U+4E57 乗 | U+6909 椉 | Reiten |
U+4ea7 产 | U+7522 產 | U+7523 産 | gebären | |
U+4FA3 侣 | U+4FB6 侶 | Begleiter | ||
U+5151 兑 | U+514c 兌 | kassieren | ||
U+5185 内 | U+5167 內 | Innerhalb | ||
U+522b 别 | U+5225 別 | verlassen | ||
U+7985 禅 | U+79AA 禪 | U+7985 禅 | Meditation (Zen) | |
U+7A0E 税 | U+7A05 稅 | Steuern | ||
U+997f 饿 | U+9913 餓 | hungrig | ||
U+9AD8 高 | U+9AD8 高 | U+9AD9 髙 | hoch | |
U+9F9f 龟 | U+9F9c 龜 | U+4E80 亀 | Schildkröte | |
U+7814 硏 | U+7814 硏 | U+784f 研 | forschen | |
Quellen: MDBG Chinese-English-Wörterbuch |
IDEOGRAPHE Variationsdatenbank (IVD)
Um Probleme zu beheben, die durch HAN -Vereinigung mitgebracht wurden, wurde ein technisches Unicode -Standard, das als Unicode -Datenbank für ideografische Variation bezeichnet wird, erstellt, um das Problem der Angabe spezifischer Glyphen in der Klartextumgebung zu beheben.[18] Durch die Registrierung von Glyphensammlungen in die ideografische Variationsdatenbank (IVD) können ideografische Variationswählern zur Bildung von ideografischen Variationssequenz (IVS) verwendet werden, um die entsprechende Glyphe in der Textverarbeitung in einer Unicode -Umgebung anzugeben oder einzuschränken.
Unicode -Bereiche
Von Unicode zugewiesene ideografische Zeichen werden in den folgenden Blöcken angezeigt:
- CJK Unified Ideographs (4E00–9fff) (auch als URO bekannt, Abkürzung von einheitlichem Repertoire und Bestellung)[19]
- CJK Unified Ideographs Extension a (3400–4DBF)
- CJK Unified Ideographs Extension B (20000–2a6df)
- CJK Unified Ideographs Extension C. (2A700–2B73F)
- CJK Unified Ideographs Extension D. (2B740–2B81F)
- CJK Unified Ideographs Extension e (2B820–2ceaf)
- CJK Unified Ideographs Extension f (2ceb0–2ebef)
- CJK Unified Ideographs Extension G (30000–3134f)
- CJK -Kompatibilitätsideographien (F900 - FAFF) (die zwölf Zeichen bei FA0E, FA0F, FA11, FA13, FA14, FA1F, FA21, FA23, FA24, FA27, FA28 und FA29 sind tatsächlich "einheitliche Ideografien" nicht "Kompatibilitätsideographien"))
Unicode enthält die Unterstützung von CJKV -Radikalen, Strichen, Zeichensetzung, Markierungen und Symbolen in den folgenden Blöcken:
- CJK Radicals Supplement (2E80–2eff)
- CJK -Striche (31C0–31EF)
- CJK -Symbole und Zeichensetzung (3000–303f)
- Ideografische Beschreibung Zeichen (2ff0–2fff)
Zusätzliche Kompatibilitätszeichen (entmutigte Verwendung) Zeichen werden in diesen Blöcken angezeigt:
- CJK -Kompatibilität (3300–33ff)
- CJK -Kompatibilitätsformulare (Fe30 - Fe4f)
- CJK -Kompatibilitätsideographien (F900 - Faff)
- CJK -Kompatibilitätsideografien Supplement (2F800–2fa1f)
- Schloss CJK -Buchstaben und Monate (3200–32ff)
- Geschlossene ideografische Ergänzung (1F200–1f2ff)
- Kangxi -Radikale (2F00–2fdf)
Diese Kompatibilitätsfiguren (ohne die zwölf einheitlichen Ideografien im CJK -Kompatibilitätsideografien Block) sind für die Kompatibilität mit Legacy -Text -Handhabungssystemen und anderen Legacy -Charakter -Sätzen enthalten. Dazu gehören Formen von Zeichen für vertikales Textlayout und reiche Textzeichen, die Unicode mit anderen Mitteln empfiehlt.
Internationale Ideografien Kern
Der International Ideographs Core (IICORE) ist eine Teilmenge von 9810 Ideographs, die aus den CJK Unified Ideographs -Tabellen abgeleitet wurden, die in Geräten mit begrenztem Speicher, Eingangs-/Ausgangsfunktion und/oder Anwendungen ausgelegt sind ist nicht machbar. Es gibt 9810 Zeichen im aktuellen Standard.[20]
Unihan -Datenbankdateien
Das Unihan -Projekt hat sich immer bemüht, ihre Build -Datenbank zur Verfügung zu stellen.[1]
Das Libunihan -Projekt bietet eine normalisierte SQLite Unihan -Datenbank und eine entsprechende C -Bibliothek.[21] Alle Tabellen in dieser Datenbank sind in Fünfte normale Form. Libunihan wird unter dem freigelassen LGPL, während seine Datenbank, Unihandb, unter dem veröffentlicht wird MIT -Lizenz.
Siehe auch
- Chinesische Charaktercodierung
- GB 18030
- Sinization
- Z-Variante
- List of CJK fonts
- Alographie
- Variante chinesische Charaktere
Anmerkungen
- ^ Die meisten davon sind jedoch nach dem Ziel von Unicode, jedes Schreibsystem zu codieren, das jeweils verwendet wurde oder jemals verwendet wurde. Es sind nur 2000 bis 3000 Zeichen erforderlich, um als gebildet zu sein.
Verweise
- ^ a b "Unihan.zip". Der Unicode -Standard. Unicode -Konsortium.
- ^ a b "Unihan -Datenbank -Lookup". Der Unicode -Standard. Unicode -Konsortium.
- ^ "Unihan -Datenbank -Lookup: Beispiel -Suche nach 中". Der Unicode -Standard. Unicode -Konsortium.
- ^ "Kapitel 18: Ostasien, Prinzipien der Han -Vereinigung" (PDF). Der Unicode -Standard. Unicode -Konsortium.
- ^ Whistler, Ken (2010-10-25). "Unicode Technischer Note 26: Über die Codierung von Latein, Griechisch, Kyrillisch und Han".
- ^ Unicode überarbeitet Steven J. Searle; Web Master, Tron Web
- ^ "IVD/IVS とは - 文字 情報 基盤 整備 事業 事業". Mojikiban.ipa.go.jp.
- ^ "Ich kann dir einen Haufen Poo schreiben, aber ich kann meinen Namen nicht schreiben.". Modellansichtskultur. Abgerufen 2021-11-03.
- ^ a b "Kapitel 1 Einleitung" (PDF). Der Unicode -Standard. Unicode -Konsortium.
- ^ a b "Datenbank für ideografische Variation". Unicode -Konsortium.
- ^ "Early Years of Unicode". Unicode -Konsortium.
- ^ Becker, Joseph D. (1998-08-29). "Unicode 88" (PDF).
- ^ "Unicode in Japan: Leitfaden zu einem technischen und psychologischen Kampf". Archiviert vom Original am 2009-06-27.
{{}}
: CS1 Wartung: Bot: Original -URL -Status unbekannt (Link) - ^ 小 林紀興 『松下 電器 の 果し 状』 1 章
- ^ Krikke, Januar (15. Oktober 2003). "Das beliebteste Betriebssystem der Welt". Linuxinsider.com.
- ^ 大下 英治 『孫正義 起業 の 若き 獅子』 (( ISBN4-06-208718-9) pp. 285-294
- ^ a b "UAX #38: Unicode Han -Datenbank (Unihan)". www.unicode.org.
- ^ "UTS #37: Unicode -Datenbank für ideografische Variation". www.unicode.org.
- ^ "Uro". ccjKtype.fonts.adobe.com.
- ^ "OGCIO: Download -Bereich: Internationale Ideografien Core (IICORE) Vergleichsnutzung". www.ogcio.gov.hk.
- ^ (陳定彞), Ding-yi Chen. "Libunihan - eine Bibliothek für Unihan -Charakterdatenbank in der fünften Normalform". libunihan.sourceforge.net.