Mojibake

Das UTF-8-Codierte japanische Wikipedia -Artikel für Mojibake Wie angezeigt, wenn es interpretiert wird als Windows-1252 Codierung

Mojibake (japanisch: 文字化け; IPA:[Mod͡ʑibake]) ist der verstümmelte Text, der das Ergebnis des Dekodus von Text mit einem unbeabsichtigten ist Zeichenkodierung.[1] Das Ergebnis ist ein systematischer Austausch von Symbolen durch völlig unabhängige, oft von einem anderen Schreibsystem.

Diese Anzeige kann das generische enthalten Ersatzcharakter ("�") an Orten, an denen die binäre Darstellung als ungültig angesehen wird. Ein Ersatz kann auch mehrere aufeinanderfolgende Symbole beinhalten, wie in einer Codierung angezeigt, wenn derselbe Binärcode ein Symbol in der anderen Codierung darstellt. Dies liegt entweder auf eine unterschiedliche Codierung der konstanten Länge (wie bei asiatischen 16-Bit-Codierungen gegen europäische 8-Bit UTF-8 und UTF-16).

Fehlgeschlagenes Rendering von Glyphen aufgrund fehlender Schriftarten oder fehlenden Glyphen in einer Schriftart ist ein anderes Problem, das nicht mit Mojibake verwechselt werden darf. Die Symptome dieses fehlgeschlagenen Renders umfassen Blöcke mit dem Codepunkt angezeigt in hexadezimal oder mit dem generischen Ersatzcharakter. Wichtig ist, dass diese Ersetzungen sind gültig und sind das Ergebnis der korrekten Fehlerbehandlung durch die Software.

Etymologie

Mojibake bedeutet "Charaktertransformation" in japanisch. Das Wort besteht aus 文字 (Moji, IPA:[mod͡ʑi]), "Charakter" und 化け (backen, IPA:[backen], ausgesprochen "Bah-keh"), "Transform".

Ursachen

Um den codierten Originaltext korrekt zu reproduzieren, muss die Korrespondenz zwischen den codierten Daten und dem Begriff seiner Codierung erhalten bleiben. Da Mojibake die Instanz der Nichteinhaltung zwischen diesen ist, kann es erreicht werden, indem die Daten selbst manipuliert oder einfach nur neu gestaltet werden.

Mojibake wird häufig mit Textdaten gesehen, die mit einer falschen Codierung markiert wurden. Es mag gar nicht markiert werden, sondern zwischen Computern mit unterschiedlichen Standardcodierungen bewegt werden. Eine wichtige Schwierigkeitsquelle sind Kommunikationsprotokolle Das stützt sich auf Einstellungen auf jedem Computer, anstatt zu senden oder zu speichern Metadaten zusammen mit den Daten.

Die unterschiedlichen Standardeinstellungen zwischen Computern sind teilweise auf unterschiedliche Bereitstellungen von zurückzuführen Unicode unter Betriebssystem Familien und teilweise die Spezialisierungen der Legacy Codings für verschiedene Schreibsysteme von menschlichen Sprachen. Wohingegen Linux -Verteilungen Meistens umgeschaltet auf UTF-8 in 2004,[2] Microsoft Windows Verwendet im Allgemeinen UTF-16 und verwendet manchmal 8-Bit-Code-Seiten für Textdateien in verschiedenen Sprachen.[zweifelhaft ]

Für einige Schreibsystemeein Beispiel sein japanischIn der Vergangenheit wurden mehrere Kodierungen eingesetzt, was dazu führte, dass Benutzer Mojibake relativ oft sehen. Als japanisches Beispiel das Wort Mojibake "文字 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け 化け" EUC-JP Kann falsch als "ハクサ � ス 、 ア ア", "ハクサ嵂ス 、 ア ア" angezeigt werdenMS-932) oder "ハクサ郾ス 、 ア" (Schicht JIS-2004). Der gleiche Text gespeichert wie UTF-8 wird als "譁 � 蟄怜喧縺 � �" angezeigt, wenn sie als Schicht jis interpretiert wird. Dies wird weiter verschärft, wenn andere Orte beteiligt sind: Der gleiche UTF-8-Text erscheint in Software, die den Text annimmt, in der Windows-1252 oder ISO-8859-1 Codierungen, normalerweise als Western oder (zum Beispiel) als "鏂囧 瓧 鍖 栥亼" bezeichnet, wenn es in a interpretiert wird GBK (Festland China) Gebietsschema.

MOJIBAKE -Beispiel
Original Text
Rohe Bytes der EUC-JP-Codierung Ca. B8 BB FA B2 Bd A4 B1
Bytes als Schicht-Jis-Codierung interpretiert
Bytes als ISO-8859-1-Codierung interpretiert Ê ¸ » ú ² ½ ¤ ±
Bytes als GBK -Codierung interpretiert

Unterspezifikation

Wenn die Codierung nicht angegeben ist, liegt es an der Software, sie auf andere Weise zu bestimmen. Abhängig von der Art der Software ist die typische Lösung entweder Konfiguration oder Charset -Erkennung Heuristik. Beide sind anfällig für Fehlvorhersagen in nicht so-oder-oder-oder-szenarischen Szenarien.

Die Kodierung von Textdateien wird beeinflusst von Gebietsschema Einstellung, die von der Sprache des Benutzers abhängt, Marke von Betriebssystem und möglicherweise andere Bedingungen. Daher ist die angenommene Codierung systematisch falsch für Dateien, die von einem Computer mit einer anderen Einstellung oder sogar von einem anderen stammen lokalisiert Software im selben System. Für Unicode besteht eine Lösung darin, a zu verwenden Byte -Bestellmarke, aber für Quellcode Und andere maschinenlesbare Text, viele Parser tolerieren dies nicht. Ein anderer speichert die Codierung als Metadaten im Dateisystem. Dateisysteme, die unterstützen Erweiterte Dateiattribute kann dies als speichern als user.CharSet.[3] Dies erfordert auch Unterstützung bei Software, die es nutzen möchten, aber andere Software nicht stört.

Während einige Kodierungen leicht zu erkennen sind, insbesondere UTF-8, gibt es viele, die schwer zu unterscheiden sind (siehe Charset -Erkennung). EIN Webbrowser Kann möglicherweise nicht in der Lage sein, eine Seite zu unterscheiden, die in codiert ist EUC-JP und ein anderer in Shift-Jis Wenn das Codierungsschema nicht explizit verwendet wird HTTP -Header gesendet mit den Dokumenten oder verwenden die Html Unterlagen Meta -Tags Sie werden verwendet, um fehlende HTTP -Headers zu ersetzen, wenn der Server nicht so konfiguriert werden kann, dass sie die richtigen HTTP -Headers senden. sehen Zeichenkodierungen in HTML.

Fehlspezifikation

Mojibake tritt auch auf, wenn die Codierung falsch angegeben ist. Dies geschieht häufig zwischen ähnlichen Codierungen. Zum Beispiel die Eudora E -Mail -Client für Fenster Es war bekannt, dass es E -Mails sendet ISO-8859-1 das war in Wirklichkeit Windows-1252.[4] Windows-1252 enthält zusätzliche druckbare Zeichen in der C1 Bereich (der am häufigsten gesehene gekrümmt wird Anführungszeichen und extra Striche), die in der Software, die dem ISO -Standard entspricht, nicht ordnungsgemäß angezeigt wurden; Dies beeinflusste insbesondere die Software, die unter anderen Betriebssystemen ausgeführt wurde, wie z. Unix.

Benutzerübersicht

Von den noch in gemeinsamen Nutzung verwendeten Codierungen stammten viele aus der Einnahme ASCII und anhängen; Infolgedessen sind diese Codierungen teilweise miteinander kompatibel. Beispiele hierfür sind Windows-1252 und ISO 8859-1. Menschen können daher den erweiterten Codierungssatz verwechseln, den sie mit einfachem ASCII verwenden.

Überspezifikation

Wenn es Protokolle schichten, die jeder versuchen, die Codierung auf der Grundlage verschiedener Informationen anzugeben, können die am wenigsten bestimmten Informationen für den Empfänger irreführend sein. Betrachten Sie zum Beispiel a Webserver Servieren einer statischen HTML -Datei über HTTP. Der Zeichensatz kann dem Kunden auf eine beliebige Anzahl von 3 Arten mitgeteilt werden:

  • im HTTP -Header. Diese Informationen können auf der Serverkonfiguration basieren (z. B. beim Servieren einer Datei aus der Festplatte) oder von der auf dem Server ausgeführten Anwendung (für dynamische Websites) gesteuert.
  • in der Datei als HTML Meta -Tag (http-äquiv oder Charset) oder der Codierung Attribut von an Xml Erklärung. Dies ist die Codierung, in der der Autor die bestimmte Datei speichern wollte.
  • in der Datei als a Byte -Bestellmarke. Dies ist die Codierung, in der der Redakteur des Autors es tatsächlich gespeichert hat. Es sei denn, ein versehentlicher Codierungskonvertierung ist stattgefunden (indem sie in einer Codierung geöffnet und in einem anderen speichert), ist dies korrekt. Es ist jedoch nur in erhältlich Unicode Codierungen wie UTF-8 oder UTF-16.

Mangel an Hardware- oder Softwareunterstützung

Viel ältere Hardware wird normalerweise nur so ausgelegt, dass nur ein Zeichensatz unterstützt wird, und der Zeichensatz kann normalerweise nicht geändert werden. Die in der Anzeigefirmware enthaltene Charaktertabelle wird lokalisiert, um Zeichen für das Land zu haben, in dem das Gerät verkauft werden soll, und in der Regel unterscheidet sich die Tabelle von Land zu Land. Daher werden diese Systeme möglicherweise Mojibake angezeigt, wenn Text auf einem System aus einem anderen Land generiert wird. Ebenso unterstützen viele frühe Betriebssysteme nicht mehrere Codierungsformate und werden somit Mojibake angezeigt, wenn sie nicht standardmäßige Text angezeigt Microsoft Windows und Palm os werden beispielsweise pro Länderbasis lokalisiert und unterstützt Coding-Standards, die für das Land relevant sind Die Unterstützung ist geöffnet.

Auflösungen

Anwendungen verwenden UTF-8 Als Standard -Codierung kann aufgrund seiner weit verbreiteten Verwendung und Rückwärtskompatibilität mit einem größeren Grad an Interoperabilität erzielt werden US-Ascii. UTF-8 kann auch direkt von einem einfachen Algorithmus erkannt werden, sodass gut geschriebene Software in der Lage sein sollte, UTF-8 mit anderen Codierungen zu vermischen.

Die Schwierigkeit, eine Instanz von Mojibake zu lösen, hängt von der Anwendung ab, in der sie auftritt, und die Ursachen. Zwei der häufigsten Anwendungen, bei denen Mojibake auftreten kann Internetbrowser und Textverarbeitungen. Moderne Browser und Textverarbeitungsprogramme unterstützen häufig eine breite Palette von Charaktercodierungen. Browser ermöglichen es einem Benutzer häufig, seine zu ändern Motor machen Codierungseinstellung im laufenden Fliegen, während Textverarbeitungsprogramme dem Benutzer beim Öffnen einer Datei die entsprechende Codierung auswählen. Es kann einige dauern Versuch und Irrtum Damit Benutzer die richtige Codierung finden können.

Das Problem wird komplizierter, wenn es in einer Anwendung auftritt, die normalerweise keine breite Palette von Charaktercodierung unterstützt, z. In diesem Fall muss der Benutzer die Codierungseinstellungen des Betriebssystems so ändern, dass sie dem des Spiels entsprechen. Das Ändern der systemweiten Codierungseinstellungen kann jedoch auch zu Mojibake in bereits bestehenden Anwendungen führen. Im Windows XP oder später hat ein Benutzer auch die Option zu verwenden Microsoft Applocale, eine Anwendung, die die Änderung der Gebietsschema-Einstellungen pro Antragsbetrieb ermöglicht. Trotzdem ist das Ändern der Einstellungen für das Betriebssystem -Codierungseinstellungen bei früheren Betriebssystemen wie z. B. nicht möglich Windows 98; Um dieses Problem in früheren Betriebssystemen zu beheben, müsste ein Benutzer Schriftstellungsanwendungen von Drittanbietern verwenden.

Probleme in verschiedenen Schreibsystemen

Englisch

Mojibake in englischen Texten tritt im Allgemeinen in Interpunktion auf, wie z. Em Striche ( -), EN -Striche (-), und lockige Zitate (",", ","), Aber selten im Charaktertext, da die meisten Codierungen mit übereinstimmen ASCII auf die Codierung der englisches Alphabet. Zum Beispiel die Pfund-Zeichen "£" wird als "£" erscheinen, wenn es vom Absender als codiert wurde UTF-8 aber vom Empfänger als interpretiert als CP1252 oder ISO 8859-1. Wenn Sie mit CP1252 iteriert werden, kann dies zu "£", "" "" ""

Einige Computer haben in älteren Epochen näherspezifische Codierungen, die auch für englischen Text zu Missverhältnissen geführt haben.Kommodore Marke 8 Bit Computer verwendet PETSCII Codierung, besonders bemerkenswert für die Umkehrung des oberen und unteren Falls im Vergleich zu Standard ASCII. PETSCII -Drucker arbeiteten gut an anderen Computern der Ära, drehten jedoch den Fall aller Briefe um. IBM Mainframes verwenden die Ebcdic Codierung, das ASCII überhaupt nicht übereinstimmt.

Andere westeuropäische Sprachen

Die Alphabete der Nord -Germanische Sprachen, katalanisch, finnisch, Deutsch, Französisch, Portugiesisch und Spanisch sind alle Erweiterungen der Lateinisches Alphabet. Die zusätzlichen Zeichen sind typischerweise diejenigen, die beschädigt werden, wodurch Texte mit Mojibake nur leicht unlesbar machen:

… Und ihre Großbuchstaben, falls zutreffend.

Dies sind Sprachen, für die die ISO-8859-1 Zeichensatz (auch bekannt als Latein 1 oder Western) wurde verwendet. ISO-8859-1 wurde jedoch durch zwei konkurrierende Standards veraltet, die rückwärtskompatible Windows-1252und die leicht veränderten ISO-8859-15. Beide fügen die hinzu Eurozeichen € und die Franzosen œ, aber ansonsten ist jede Verwirrung dieser drei Charakter -Sets in diesen Sprachen kein Mojibake. Darüber hinaus ist es immer sicher, ISO-8859-1 als Windows-1252 zu interpretieren und es ziemlich sicher als ISO-8859-15 zu interpretieren Währungszeichen (¤). Jedoch mit dem Aufkommen von UTF-8, Mojibake ist in bestimmten Szenarien häufiger geworden, z. Austausch von Textdateien zwischen Unix und Fenster Computer aufgrund der Inkompatibilität von UTF-8 mit Latin-1 und Windows-1252. UTF-8 kann jedoch direkt von einem einfachen Algorithmus erkannt werden, sodass gut geschriebene Software in der Lage sein sollte, UTF-8 mit anderen Codierungen zu vermischen. Dies war also am häufigsten, wenn viele Software, die UTF-8 nicht unterstützt, nicht unterstützt hatten. Die meisten dieser Sprachen wurden von MS-DOS-Standard-CP437 und anderen Maschinen-Standardcodierungen mit Ausnahme von ASCII unterstützt. Daher waren Probleme beim Kauf einer Betriebssystemversion weniger häufig. Windows und MS-DOS sind jedoch nicht kompatibel.

Auf Schwedisch werden Norweger, Dänisch und Deutsch selten wiederholt, und es ist normalerweise offensichtlich, wenn ein Charakter verfälscht wird, z. Der zweite Brief in "kã⁠¤rlek" (kärlek, "Liebe"). Auf diese Weise, obwohl der Leser zwischen Å, Ä und Ö erraten muss, bleiben fast alle Texte lesbar. Finnischer Text hingegen bietet wiederholte Vokale in Wörtern wie hääyö ("Hochzeitsnacht"), die manchmal Text sehr schwer zu lesen (z. hääyö erscheint als "hã⁠¤ã⁠¤yã⁠¶"). Isländische und Faroesen haben zehn und acht möglicherweise verwirrende Charaktere, was es daher schwieriger machen kann, korrupte Charaktere zu erraten. Isländische Wörter mögen þjóðlöð ("Hervorragende Gastfreundschaft") werden fast völlig unverständlich, wenn sie als "ã¾jã³ã ° lã¶ã °" gerendert werden.

Auf Deutsch, Buchstabensalat ("Brief Salat") ist ein häufiger Begriff für dieses Phänomen und auf Spanisch. deformación (buchstäblich Verformung).

Einige Benutzer transportieren ihr Schreiben, wenn sie einen Computer verwenden, entweder durch weglassen der problematischen Diakritik oder durch Verwendung von Digraph -Ersatz (Å → AA, ä/æ → AE, ö/Ø → OE, ü → UE usw.). Somit könnte ein Autor "Ueber" anstelle von "über" schreiben, was auf Deutsch üblich ist, wenn Umlauts sind nicht verfügbar. Die letztere Praxis scheint im deutschen Sprachbereich besser toleriert zu sein als in der nordische Länder. Zum Beispiel sind auf Norwegisch Digraphen mit archaischer Dänisch verbunden und können scherzhaft verwendet werden. Digraphen sind jedoch nützlich in der Kommunikation mit anderen Teilen der Welt. Als Beispiel der norwegische Fußballspieler Ole Gunnar Solskjær Hatte seinen Namen "Solskjaer" auf seinem Rücken geschrieben, als er für dafür spielte Manchester United.

Ein Artefakt von UTF-8 falsch interpretiert als ISO-8859-1, "Ring meg nã ¥" ("Ring meg nå"), wurde in einem SMS -Betrug im Juni 2014 in Norwegen tobt.[5]

Beispiele
Schwedisches Beispiel: Smörgås (Offenes Sandwich))
Dateikodierung Einstellung im Browser Ergebnis
MS-DOS 437 ISO 8859-1 Sm "rg † s
ISO 8859-1 Mac Roman Smˆrgâs
UTF-8 ISO 8859-1 Smérgã ¥ s
UTF-8 Mac Roman Sm√∂rg√ • s

Zentral- und Osteuropäer

Benutzer von Zentral und Osteuropäer Sprachen können auch betroffen sein. Da die meisten Computer Mitte bis Ende der 1980er Jahre nicht mit einem Netzwerk verbunden waren, gab es für jede Sprache unterschiedliche Charakter-Codierungen mit diakritisch Charaktere (siehe ISO/IEC 8859 und KOI-8), oft auch variiert auch von Betriebssystemen.

ungarisch

ungarisch ist eine weitere betroffene Sprache, die die 26 grundlegenden englischen Charaktere sowie die akzentuierten Formen Á, é, í, Ó, ú, Ö, ü (alle im lateinischen 1-Charakter vorhanden) sowie die beiden Charaktere verwendet ő und ű, die nicht in Latein-1 sind. Diese beiden Zeichen können korrekt in Latin-2, Windows-1250 und Unicode codiert werden. Bevor Unicode in E-Mail-Kunden üblich wurde, hatten E-Mails, die ungarischer Text enthielten, oft die Buchstaben und ű ű ű korrumpiert, manchmal bis zur Unerkennbarkeit. It is common to respond to an e-mail rendered unreadable (see examples below) by character mangling (referred to as "betűszemét", meaning "letter garbage") with the phrase "Árvíztűrő tükörfúrógép", a nonsense phrase (literally "Flood- Resistente Spiegelbohrmaschine "), die alle in Ungarn verwendeten akzentuierten Charaktere enthält.

Beispiele
Quellcodierung Zielcodierung Ergebnis Auftreten
Ungarisches Beispiel Árvíztűrő Tükörfúrógép
Árvíztűrő Tükörfúrógép
Charaktere in Rot sind falsch und stimmen nicht mit dem oberen linken Beispiel überein.
CP 852 CP 437 RVZtδRè TükörfΘRαGép
Árvíztrï Tükörfúrógép
Dies war sehr häufig in DOS-era Als der Text vom Mitteleuropäer kodiert wurde CP 852 Codierung; Allerdings die Betriebssystem, a Software oder Drucker verwendete die Standardeinstellung CP 437 Codierung. Bitte beachten Sie, dass Kleinbuchstaben hauptsächlich korrekt sind, Ausnahme mit ő (ï) und ű (√). Ü/ü ist korrekt, weil CP 852 mit Deutsch kompatibel gemacht wurde. Heutzutage tritt hauptsächlich auf gedruckte Rezepte und Schecks auf.
CWI-2 CP 437 ÅRVìZtÿRº TükörfùRòGép
Árvíztûrô Tükörfúrógép
Das CWI-2 Die Kodierung wurde so konzipiert, dass der Text auch dann ziemlich gut lesbar bleibt, wenn der Anzeige oder der Drucker den Standard verwendet CP 437 Codierung. Diese Codierung wurde in den 1980er und frühen 1990er Jahren stark eingesetzt, aber heutzutage ist sie vollständig veraltet.
Windows-1250 Windows-1252 ÁrvíztÛRÕ Tükörfúrógép
Árvíztûrõ Tükörfúrógép
Die Standard-westliche Windows-Codierung wird anstelle des zentral-europäischen. Nur ő-ő (õ-õ) und ű-ű (û-û) sind falsch, aber der Text ist vollständig lesbar. Dies ist heutzutage der häufigste Fehler. Aufgrund von Unwissenheit tritt dies häufig auf Webseiten oder sogar in gedruckten Medien auf.
CP 852 Windows-1250 µRVÖZtëRŠ TšKRféRŕG P
RVˇztűr t k"rfŁr˘gp
Mittelschwerer Windows -Codierung wird anstelle einer DOS -Codierung verwendet. Die Verwendung von ű ist korrekt.
Windows-1250 CP 852 RVZtRŇ TKÍRfRËGP
ßRVÝztűr§ tŘk÷rf˙rˇgÚp
Die mitteleuropäische DOS -Codierung wird anstelle der Windows -Codierung verwendet. Die Verwendung von ű ist korrekt.
Zitiert 7-Bit ASCII = C1RV= CDZt= DbR= D5 T= DCK= D6Rf= DaR= D3G= C9P
= E1RV= Edzt= FBr= F5 t= Fck= F6rf= Far= F3g= E9p
Hauptsächlich durch fälschlich konfigurierte Mailserver verursacht, kann aber in auftreten SMS Nachrichten auch auf einigen Mobiltelefonen.
UTF-8 Windows-1252 ÃRVÃZtÅ °RÅTÜKEIN-RfWieREIN"GEIN‰P
EINRVÃztÅ ±rEIN' tà ¼kEIN¶rfHabrÃgÉp
Hauptsächlich durch fälschlicherweise konfigurierte Webdienste oder Webmail -Clients, die nicht auf internationale Nutzung getestet wurden (da das Problem für englische Texte verborgen bleibt). In diesem Fall ist der tatsächliche (oft generierte) Inhalt in UTF-8; Es ist jedoch nicht in der konfiguriert Html Header, so dass die Rendering -Engine sie mit der Standard -Western -Codierung anzeigt.

Polieren

Vor der Schaffung von ISO 8859-2 1987 verwendeten Benutzer verschiedener Computerplattformen ihre eigenen Charaktercodierungen wie zum Beispiel Amigapl auf Amiga, Atari Club in Atari St und Masovia, IBM CP852, Mazovia und Windows CP1250 Auf IBM PCs. Polnische Unternehmen, die früh verkaufen DOS Computer erstellten ihre eigenen, für beide Seiten kompatiblen Möglichkeiten, um polnische Zeichen zu codieren, und programmierten einfach neu um Eproms der Grafikkarten (normalerweise CGA, Ega, oder Herkules) bereitstellen Hardware -Code -Seiten Mit den erforderlichen Glyphen für Politur - bürgerlich gelegen, ohne darauf zu verweisen, wo andere Computerverkäufer sie platziert hatten.

Die Situation begann sich zu verbessern, als nach Druck von akademischen und Benutzergruppen, ISO 8859-2 erfolgte als "Internetstandard" mit begrenzter Unterstützung der dominanten Anbieter -Software (heute hauptsächlich durch Unicode ersetzt). Mit den zahlreichen Problemen, die durch die Vielfalt der Codierungen verursacht werden, beziehen sich einige Benutzer bis heute auf polnische diakritische Charaktere als krzaczki ([ˈKʂät͜ʂ.ki], zündete. "kleine Sträucher").

Russische und andere kyrillische Alphabete

Mojibake kann umgangssprachlich genannt werden krakozyabry (кракозя́бры [krɐkɐˈzʲæbrɪ̈]) in Russisch, was von mehreren Systemen für die Codierung kompliziert war und bleibt kyrillisch.[6] Das Sovietunion und früh Russische Föderation aufgetreten Koi -Codierungen (Kod Obmena Informatsiey, Код Обмена Информацией, was übersetzt in "Code for Information Exchange"). Dies begann mit nur 7-Bit mit Cyrillic KOI7, bezogen auf ASCII aber mit lateinischen und einigen anderen Zeichen, die durch kyrillische Buchstaben ersetzt wurden. Dann kam 8-Bit KOI8 codieren, das ist ein ASCII -Erweiterung Das kodiert kyrillische Buchstaben nur mit Hochbit-Set-Oktetten, die 7-Bit-Codes von KOI7 entsprechen. Aus diesem Grund bleibt der KOI8 -Text, sogar russisch 8bitmime-Unazare E -Mail -Systeme. Zum Beispiel Wörter "Школа русского языка" shkola russkogo yazyka, codiert in KOI8 und dann durch den hohen Bit -Stripping -Prozess, endet als "[Kola Russkogo Qzyka". Schließlich erhielt KOI8 verschiedene Geschmacksrichtungen für russisch und bulgarisch (KOI8-R), Ukrainisch (Koi8-u), Belarussisch (Koi8-ru) und sogar Tajik (KOI8-T).

Inzwischen im Westen, Code Seite 866 unterstützt ukrainisch und Belarussisch sowie russisch/bulgarisch in MS-DOS. Zum Microsoft Windows, Code Seite 1251 Unterstützung für Unterstützung für serbisch und Andere slawische Varianten von kyrillisch.

Zuletzt die Unicode Codierung umfasst Codepunkte Für praktisch alle Charaktere aller Sprachen der Welt, einschließlich aller kyrillischen Charaktere.

Vor Unicode musste die Textcodierung mit einer Schriftart mit demselben Codierungssystem übereinstimmen. Versäumnis, dies zu tun, erzeugte unlesbar Kauderwelsch deren spezifisches Erscheinungsbild variierte je nach genauer Kombination von Textcodierung und Schriftkodierung. Beispielsweise führt der Versuch, nicht-nicht-nicht-kyrillischen Text mit einer Schriftart zu sehen, die auf das lateinische Alphabet beschränkt ist, oder unter Verwendung der Standard-Codierung ("Western") typischerweise zu Text, der fast ausschließlich aus Vokalen mit diakritischen Marken besteht. (Koi8 "Библиотека"(biblioteka, Bibliothek) wird "" "" ".) Verwenden von Windows Codepage 1251, um Text in Koi8 zu sehen, oder umgekehrt umgekehrt zu verstümmelten Text, der hauptsächlich aus Großbuchstaben besteht (Koi8 und Codepage 1251 Die gleiche ASCII wo Codepage 1251 Kleinbuchstaben und umgekehrt). Im Allgemeinen ist kyrillischer Kauderwelsch symptomatisch für die Verwendung der falschen kyrillischen Schriftart. In den ersten Jahren des russischen Sektors des World Wide Web waren sowohl Koi8 als auch Codepage 1251 häufig. Ab 2017 kann immer noch HTML -Seiten in Codepage 1251 und selten KOI8 -Codierungen sowie Unicode begegnen. (Schätzungsweise 1,7% aller Webseiten weltweit - alle enthaltenen Sprachen - sind in Codepage 1251 codiert.[7]) Obwohl der HTML -Standard die Möglichkeit enthält, die Codierung für eine bestimmte Webseite in seiner Quelle anzugeben,[8] Dies wird manchmal vernachlässigt und zwingt den Benutzer, die Encodings im Browser manuell zu wechseln.

Im bulgarisch, Mojibake wird oft genannt majmunica (маймуница), was "Affen [Alphabet]" bedeutet. Im serbisch, es wird genannt đubre (ђубре), Bedeutung "Müll"Im Gegensatz zum ehemaligen UdSSR verwendeten South Slaws nie so etwas wie Koi8, und Code Seite 1251 war die dominierende kyrillische Kodierung vor Unicode. Daher erlebten diese Sprachen weniger Coding -Inkodierbarkeitsprobleme als Russisch. In den 1980er Jahren verwendeten bulgarische Computer ihre eigenen, Mik -Codierung, was oberflächlich ähnlich ist (wenn auch unvereinbar mit) cp866.

Beispiel
Russisches Beispiel: Кракозябры (krakozyabry, Müllfiguren)
Dateikodierung Einstellung im Browser Ergebnis
MS-DOS 855 ISO 8859-1 Æá æöóÞ ¢ Áñ
KOI8-R ISO 8859-1 ëòáëïúñòù
UTF-8 KOI8-R п я─under

Jugoslawische Sprachen

kroatisch, bosnisch, serbisch (die abschließenden Sorten von Serbo-Kroatischer Sprache) und Slowenisch Zu dem grundlegenden lateinischen Alphabet die Buchstaben Š, đ, č, č, ž und ihre Kapitalkollegen Š, đ, č, ć, ž (nur č/č, Š/Š und ž/ž auf Slowenisch; offiziell, wenn auch č/č, Š/Š und ž/ž Andere werden bei Bedarf verwendet, meistens auch in fremden Namen). Alle diese Buchstaben sind in definiert in Latein-2 und Windows-1250, während nur einige (Š, Š, ž, ž, đ) im üblichen Betriebssystem existieren Windows-1252und sind da wegen einiger anderer Sprachen.

Obwohl Mojibake mit einem dieser Zeichen auftreten kann, sind die Buchstaben, die nicht in Windows-1252 enthalten sind, für Fehler viel anfälliger. So wird auch heutzutage "Šđčćž Šđčćž" oft als "Šðèæž Šðèæž" gezeigt, obwohl ð, è, Æ, è æ niemals in slawischen Sprachen verwendet werden.

Bei Basic ASCII (z. je nach Wortfall). Alle diese Ersatzmöglichkeiten führen Unklarheiten ein, sodass das Rekonstruktion des Originals aus einer solchen Form normalerweise bei Bedarf manuell durchgeführt wird.

Das Windows-1252 Codierung ist wichtig, da die englischen Versionen des Windows -Betriebssystems am weitesten verbreitet sind, nicht lokalisierte. Zu den Gründen dafür zählen ein relativ kleiner und fragmentierter Markt, der den Preis für hohe Qualitätslokalisierung erhöht, ein hohes Maß an Softwarepiraterie (wiederum durch einen hohen Softwarepreis im Vergleich zu Einkommen verursacht), was die Lokalisierungsbemühungen entmutigt, und Menschen, die englische Versionen bevorzugen von Windows und anderen Software.

Die Fahrt nach unterscheiden Kroatisch aus serbisch, bosnisch aus kroatisch und serbisch und jetzt sogar Montenegrin Aus den anderen drei schafft viele Probleme. Es gibt viele verschiedene Lokalisierungen, die unterschiedliche Standards und unterschiedliche Qualität verwenden. Es gibt keine gemeinsamen Übersetzungen für die große Menge an Computerterminologie, die im Englischen stammt. Am Ende verwenden die Leute adoptierte englische Wörter ("Kompjuter" für "Computer", "Kompajlirati" für "kompilieren" usw.), und wenn sie nicht an die übersetzten Begriffe gewöhnt sind, verstehen möglicherweise nicht, welche Option in einem Menü angenommen wird Basierend auf der übersetzten Phrase. Daher wählen Menschen, die Englisch und diejenigen, die an englische Terminologie gewöhnt sind (die am meisten sind, weil englische Terminologie aufgrund dieser Probleme meist unterrichtet wird, regelmäßig die ursprünglichen englischen Versionen der nicht spezialisierten Software aus.

Wenn ein kyrillisches Skript verwendet wird (für mazedonisch und teilweise serbisch) Das Problem ist ähnlich wie Andere kyrillisch basierte Skripte.

Neuere Versionen von englischen Fenstern erlauben das Codepage Um geändert zu werden (ältere Versionen erfordern spezielle englische Versionen mit dieser Unterstützung), aber diese Einstellung kann und wurde oft falsch eingestellt. Zum Beispiel können Windows 98 und Windows Me auf die meisten nicht rechten Links eingestellt werden Single-Byte Codeseiten einschließlich 1250, jedoch nur zur Installationszeit.

Kaukasische Sprachen

Die Schreibsysteme bestimmter Sprachen des Kaukasus Region, einschließlich der Skripte von georgisch und Armenisch, kann Mojibake produzieren. Dieses Problem ist besonders akut im Fall von Armscii oder armscii, eine Reihe von veralteten Charaktercodierungen für das armenische Alphabet, das durch Unicode -Standards abgelöst wurde. Armscii wird aufgrund mangelnder Unterstützung in der Computerindustrie nicht weit verbreitet. Zum Beispiel, Microsoft Windows unterstützt es nicht.

Asiatische Kodierungen

Eine andere Art von Mojibake tritt auf, wenn Text in einer Multi-Byte Ostasiatische Sprachen. Mit dieser Art von Mojibake werden mehr als ein (typischerweise zwei) Zeichen gleichzeitig verfälscht, z. "K 舐 Lek" (kärlek) auf Schwedisch, wo "är"wird als" 舐 "analysiert. Im Vergleich zum obigen Mojibake ist dies schwieriger zu lesen, da Buchstaben, die nicht mit dem problematischen Å, ä oder ö zu tun haben "ÄN" (was "舅" wird). Da zwei Buchstaben kombiniert werden, scheint der Mojibake auch zufälliger zu sein (über 50 Varianten im Vergleich zu den normalen drei, ohne die selteneren Hauptstädte). In einigen seltenen Fällen, eine gesamte Textzeichenfolge, die fasst ein Muster bestimmter Wortlängen wie den Satz ein. "Bush versteckte die Fakten", kann falsch interpretiert werden.

Vietnamesisch

Im VietnamesischDas Phänomen heißt Chữ ma, Loạn Mã kann auftreten, wenn der Computer versucht, diakritisches Zeichen zu codieren Windows-1258, TCVN3 oder VNI bis UTF-8. Chữ ma war in Vietnam bei Verwendung von Windows XP -Computern oder billigen Mobiltelefonen üblich.

Beispiel: Trăm năm Trong Cõi người ta
(Truyện Kiều, Nguyễn du))
Originalcodierung Zielcodierung Ergebnis
Windows-1258 UTF-8 TrÄm nÄM Trong cõIch ngÆ ° á »Ich ta
Tcvn3 UTF-8 Tr¨m n¨M Trong câIch ngêIch ta
VNI (Windows) UTF-8 Trm nM Trong cIch ngÖôøIch ta

japanisch

Im japanischDas gleiche Phänomen wird, wie erwähnt, genannt Mojibake (文字化け). Es ist ein besonderes Problem in Japan aufgrund der zahlreichen verschiedenen Kodierungen, die für japanische Text vorhanden sind. Neben Unicode-Codierungen wie UTF-8 und UTF-16 gibt es andere Standardcodierungen, wie z. Shift-Jis (Windows -Maschinen) und EUC-JP (UNIX -Systeme). Mojibake wird nicht von japanischen Nutzern angetroffen, sondern wird häufig von Nicht-Japanern angetroffen, wenn versucht wird, Software auszuführen, die für den japanischen Markt geschrieben wurde.

Chinesisch

Im ChinesischDas gleiche Phänomen heißt Luàn Mǎ (Pinyin, Vereinfachtes Chinesisch 乱码, Traditionelles Chinesisch 亂碼, was "chaotischer Code" bedeutet) und kann auftreten, wenn computergestützter Text in einem codiert ist Chinesische Charaktercodierung wird aber mit der falschen Codierung angezeigt. In diesem Fall ist es häufig möglich, das Problem zu beheben, indem die Zeichenkodierung ohne Datenverlust gewechselt wird. Die Situation ist kompliziert, da mehrere chinesische Charakter -Codierungssysteme existieren, die häufigsten sind: Unicode, Die großen 5, und Guobiao (mit mehreren rückwärts kompatiblen Versionen) und die Möglichkeit, dass chinesische Zeichen mit japanischer Codierung codiert werden.

Es ist leicht, die ursprüngliche Codierung zu identifizieren, wenn Luanma tritt in Guobiao Codings auf:

Originalcodierung Angesehen als Ergebnis Original Text Notiz
Die großen 5 Gb ?T 瓣 变 巨 肚 肚 肚 三 國志曹 操傳 Verstümmelte chinesische Charaktere ohne Hinweis auf originelle Bedeutung. Das rote Zeichen ist kein gültiger CodePoint in GB 2312.
Shift-Jis Gb 暥帤 壔 偗 僥 僗僩 僗僩 文字 化け テスト Kana wird als Zeichen mit dem radikalen 亻 angezeigt, während Kanji andere Zeichen sind. Die meisten von ihnen sind äußerst ungewöhnlich und in modernen Chinesen nicht praktisch.
EUC-kr Gb 叼力 捞 钙 胶 抛农聪墨 抛农聪墨 디제 이 맥스 테크니카 테크니카 Zufällige gemeinsame vereinfachte chinesische Zeichen, die in den meisten Fällen keinen Sinn ergeben. Aufgrund von Räumen zwischen allen Zeichen leicht zu identifizieren.

Ein zusätzliches Problem wird verursacht, wenn Codings fehlende Zeichen fehlen, was bei seltenen oder veralteten Zeichen üblich ist, die noch in persönlichen oder Ortsnamen verwendet werden. Beispiele hierfür sind Taiwanese Politiker Wang Chien-Shien (Chinesisch: 王建煊; Pinyin: Wáng Jiànxuān) 's "煊", Yu shyi-kun (vereinfachtes Chinesisch: 游锡堃; traditionelles Chinesisch: 游錫堃; Pinyin: Yóu Xíkūn) "堃" und Sänger David Tao (Chinesisch: 陶喆; Pinyin: Táo Zhé) 's "喆" fehlt in Die großen 5, Ex-PRC Premier Zhu Rongji (Chinesisch: 朱镕基; Pinyin: Zhū Róngjī) 's "镕" fehlt in GB 2312, Copyright -Symbol "©" fehlen GBK.[9]

Zeitungen haben sich auf verschiedene Weise mit diesem Problem befasst, einschließlich der Verwendung von Software zum Kombinieren von zwei vorhandenen, ähnlichen Zeichen. Verwenden eines Bildes der Persönlichkeit; Oder einfach ein Homophon durch den seltenen Charakter auszusetzen, in der Hoffnung, dass der Leser in der Lage sein würde, die richtige Schlussfolgerung zu erzielen.

Indic -Text

Ein ähnlicher Effekt kann in auftreten Brahmische oder Indic -Skripte von Südasienin solchen verwendet Indo-Aryan- oder Indic-Sprachen wie Hindustani (Hindi-urdu), Bengali, Punjabi, Marathiund andere, auch wenn der angewandte Charakter -Set von der Anwendung ordnungsgemäß erkannt wird. Dies liegt daran, dass in vielen Indic -Skripten die Regeln, mit denen einzelne Buchstabensymbole Symbole für Silben erstellen, möglicherweise nicht ordnungsgemäß verstanden werden, wenn ein Computer die entsprechende Software fehlt, selbst wenn die Glyphen für die einzelnen Buchstabenformulare verfügbar sind.

Ein Beispiel dafür ist das alte Wikipedia -Logo, was versucht, den Charakter analog zu "Wi" (die erste Silbe von "Wikipedia") auf jedem der vielen Puzzleteile zu zeigen. Das Puzzleteil, das das tragen soll Devanagari Charakter für "WI", stattdessen verwendet das "WA" -Scharakter, gefolgt von einem ungepaarten "I" Modifikator Vokal, leicht als Mojibake erkennbar, der von einem Computer generiert wird, der nicht so konfiguriert ist, dass es den Indic -Text anzeigt.[10] Das ab Mai 2010 neu gestaltete Logo hat diese Fehler behoben.

Die Idee des einfachen Textes erfordert, dass das Betriebssystem eine Schriftart bereitstellt, um Unicode -Codes anzuzeigen. Diese Schriftart unterscheidet sich von Betriebssystem für Singhala von Betriebssystem zu Betriebssystem und macht orthografisch falsche Glyphen für einige Buchstaben (Silben) in allen Betriebssystemen. Zum Beispiel ist das 'Reph' die Kurzform für 'r' ein diakritisches, das normalerweise über einen einfachen Buchstaben geht. Es ist jedoch falsch, in bestimmten Kontexten einige Buchstaben wie "YA" oder "LA" zu übernehmen. Für sanskritische Wörter oder Namen, die von modernen Sprachen wie कार्य, IAST: Kāryaoder आआ्या, Iast: āryāEs ist geeignet, es auf diese Buchstaben zu legen. Im Gegensatz dazu wird für ähnliche Geräusche in modernen Sprachen, die sich aus ihren spezifischen Regeln ergeben, nicht an die Spitze, wie das Wort कoge णlässig, IAST: karaṇāryā, eine Stammform des gemeinsamen Wortes ककारा/ी, IAST: Karaṇārā/rī, in dem Marathi -Sprache.[11] Aber es kommt in den meisten Betriebssystemen vor. Dies scheint ein Fehler der internen Programmierung der Schriftarten zu sein. In Mac OS und iOS und der Kombination von Muurdhaja L (Dark L) und 'U' und seine lange Form ergeben beide falsche Formen.

Einige indik- und indic-abgeleitete Skripte, insbesondere vor allem Lao, wurden nicht offiziell unterstützt von Windows XP bis zur Veröffentlichung von Vista.[12] Verschiedene Websites haben jedoch kostenlose Schriftarten hergestellt.

birmanisch

Aufgrund westlicher Sanktionen[13] und die späte Ankunft der birmanischen Sprachunterstützung in Computern,[14][15] Ein Großteil der frühen birmanischen Lokalisierung war ohne internationale Zusammenarbeit einheimisch. Die vorherrschenden Mittel der birmanischen Unterstützung erfolgen über die Zawgyi Schriftart, eine Schriftart, die als erstellt wurde Unicode -Schriftart war aber tatsächlich nur teilweise unicode konform.[15] In der Zawgyi -Schriftart, einige Codepoints Für birmanisches Skript wurden wie in angegeben in implementiert Unicode, aber andere waren es nicht.[16] Das Unicode -Konsortium bezieht sich darauf als Ad -hoc -Schriftkodierungen.[17] Mit dem Aufkommen von Mobiltelefonen ersetzten mobile Anbieter wie Samsung und Huawei einfach die UNICODE -konformen Systemschriften durch Zawgyi -Versionen.[14]

Aufgrund dieser ad hoc Codierungen, Kommunikation zwischen Nutzern von Zawgyi und Unicode würden als verstümmelter Text zurücklegen. Um dieses Problem zu umgehen, würden Inhaltsproduzenten sowohl in Zawgyi als auch in Unicode Beiträge machen.[18] Die Regierung von Myanmar hat den 1. Oktober 2019 als "U-Day" bezeichnet, um offiziell auf Unicode umzusteigen.[13] Der volle Übergang dauert schätzungsweise zwei Jahre.[19]

Afrikanische Sprachen

In Sicherheit Schreibsysteme Afrikas, Uncodierter Text ist unlesbar. Texte, die Mojibake erzeugen können, umfassen diejenigen aus dem Horn von Afrika so wie die Ge'ez Skript in Äthiopien und Eritrea, benutzt für Amharisch, Tigreund andere Sprachen und die Somalische Sprache, was die einsetzt Osmanya Alphabet. Im Südafrika, das Mwangwego Alphabet wird verwendet, um Sprachen von zu schreiben Malawi und die Mandombe Alphabet wurde für die geschaffen Demokratische Republik Kongo, aber diese werden im Allgemeinen nicht unterstützt. Verschiedene andere Schreibsysteme, die beheimatet sind Westafrika präsentieren ähnliche Probleme wie die N'ko Alphabet, benutzt für Mandingsprachen in Guinea, und die Vai Silbe, benutzt in Liberia.

Arabisch

Eine andere betroffene Sprache ist Arabisch (sehen unter). Der Text wird unlesbar, wenn die Encodings nicht übereinstimmen.

Beispiele

Dateikodierung Einstellung im Browser Ergebnis
Arabisches Beispiel: (Universelle Erklärung der Menschenrechte))
Browser -Rendering: الإعلان العالمى لحقوق الإنسان
UTF-8 Windows-1252 ï »¿Ø§ù„ Ø ¥ عiesen „اù † اù„ ع§ù „ù… ù ‰ ù ø ø yst † اù„ Ø ¥ † † ø³oral †
KOI8-R ╩ © ╖ы└╖ы└╔╔╧ы└╧ы└╖ы├ ╖ы└╖ы└╧╧╧╖ы└ы┘ы┴ ы└╜ы┌ы┬ы┌╜ы┌ы┬ы┌╖ы└╔ы├ёёёёёёё ╖ы├
ISO 8859-5 ялschränke
CP 866 я╗┐╪з┘д╪е╪╣┘д╪з┘ж ╪з┘д╪╣╪з┘д┘е┘й ┘д╪н┘┘и┘ches ╪з┘д╪е┘ж╪ │╪з┘ж
ISO 8859-6 ُ ؛؟ ظ�ع�ظ�ظ�ظ�ظ�ظ� ظ�ع�ظ�ظ�ظ�ühren �ع�
ISO 8859-2 Ziel
Windows-1256 Windows-1252 Çáåúáçä Çáúçáãì áíÞæÞ Çáåäóçä

Die Beispiele in diesem Artikel haben nicht UTF-8 als Browsereinstellung, da UTF-8 leicht erkennbar ist. Wenn ein Browser UTF-8 unterstützt, sollte er es automatisch erkennen und nicht versuchen, etwas anderes als UTF-8 zu interpretieren.

Siehe auch

  • Codepunkt
  • Ersatzcharakter
  • Ersatzcharakter
  • Neue Zeile - Die Konventionen zur Darstellung des Linienunterbrechers unterscheiden sich zwischen Windows- und UNIX -Systemen. Obwohl die meisten Software beide Konventionen (was trivial ist), Software, die den Unterschied (z. Versionskontrollsysteme und Datenvergleich Tools) können wesentlich schwieriger werden, wenn Sie sich nicht an eine Konvention halten.
  • Byte -Bestellmarke - Am meisten im Band Möglichkeit, die Codierung zusammen mit den Daten zu speichern - Vorbereiten Sie sie vor. Dies geschieht durch die Absicht, dass Menschen für Menschen mit konformer Software unsichtbar sind, wird jedoch von Design als "Müllfiguren" für uneingeschränkte Software (einschließlich viele Dolmetscher).
  • HTML -Entitäten - Eine Codierung von Sonderzeichen in HTML, meist optional, aber für bestimmte Zeichen erforderlich Flucht Interpretation als Markup.

    Wenn diese Transformation nicht angewendet wird, ist dies eine Sicherheitsanfälligkeit (siehe Cross-Site-Scripting) Das Anwenden zu oft führt dazu, dass diese Charaktere auf das Grüben dieser Charaktere verstrichen werden. Zum Beispiel die Anführungszeichen " wird ", & quot;, & amp; quot; usw.

  • Bush versteckte die Fakten

Verweise

  1. ^ King, Ritchie (2012). "Wird Unicode bald der Universalcode sein? [Die Daten]". IEEE -Spektrum. 49 (7): 60. doi:10.1109/mspec.2012.6221090.
  2. ^ WELTISCHANN, Stephan (31. März 2004). "curl -v linux.ars (Internationalisierung)". ARS Technica. Abgerufen 5. Oktober 2018.
  3. ^ "Richtlinien für erweiterte Attribute". 2013-05-17. Abgerufen 2015-02-15.
  4. ^ "Unicode Mailinglist im Eudora -E -Mail -Client". 2001-05-13. Abgerufen 2014-11-01.
  5. ^ "SMS-SCAM". 18. Juni 2014. Abgerufen 19. Juni, 2014.
  6. ^ p. 141, Kontrolle + Alt + Löschen: Ein Wörterbuch von Cyberslang, Jonathon Keats, Globe Pequot, 2007, ISBN1-59921-039-8.
  7. ^ "Verwendung von Windows-1251 für Websites".
  8. ^ "Charaktercodierungen in HTML deklarieren".
  9. ^ "PRC GBK (XGB)". Microsoft. Archiviert von das Original Am 2002-10-01. Conversion -Karte zwischen Code Seite 936 und Unicode. Brauchen manuell auszuwählen GB 18030 oder GBK im Browser, um es richtig anzuzeigen.
  10. ^ Cohen, Noam (25. Juni 2007). "Einige Fehler trotzen den Korrekturen: Ein Tippfehler in Wikipedias Logo brütet den Sanskrit". Die New York Times. Abgerufen 17. Juli, 2009.
  11. ^ https://marathi.indiatyping.com/[nackte URL]
  12. ^ "Inhalt bewegt (Windows)" ". Msdn.microsoft.com. Abgerufen 2014-02-05.
  13. ^ a b "Unicode in, Zawgyi Out: Die Moderne holt endlich in Myanmars digitaler Welt auf". Die Japan -Zeit. 27. September 2019. Abgerufen 24. Dezember 2019. Der 1. Oktober ist "U-Day", als Myanmar offiziell das neue System übernehmen wird ... Microsoft und Apple haben anderen Ländern geholfen, vor Jahren zu standardisieren, aber westliche Sanktionen bedeuteten, dass Myanmar ausgeschaltet wurde.
  14. ^ a b Hotchkiss, Griffin (23. März 2016). "Schlacht der Schriftarten". Frontier Myanmar. Abgerufen 24. Dezember 2019. Mit der Veröffentlichung von Windows XP Service Pack 2 wurden komplexe Skripte unterstützt, was es Windows ermöglichte, eine unicode-konforme burmesische Schriftart wie Myanmar1 (2005 veröffentlicht) zu rendern. ... Myazedi, Bit und später Zawgyi beschrieb das Rendering -Problem, indem sie zusätzliche Codepunkte hinzufügen, die den ethnischen Sprachen Myanmars vorbehalten waren. Das Neukarta verhindert nicht nur die zukünftige Unterstützung für ethnische Sprachen, sondern führt auch zu einem Schreibsystem, das selbst für erfahrene Benutzer verwirrend und ineffizient sein kann. ... Huawei und Samsung, die beiden beliebtesten Smartphone -Marken in Myanmar, werden nur durch Erfassen des größten Marktanteils motiviert, was bedeutet, dass sie Zawgyi unterstützen.
  15. ^ a b Sünde, Thant (7. September 2019). "Unified unter einem Schriftsystem als Myanmar bereitet sich darauf vor, von Zawgyi nach Unicode zu wandern.". Steigende Stimmen. Abgerufen 24. Dezember 2019. Standard -Myanmar Unicode -Schriftarten waren im Gegensatz zu der privaten und teilweise unicode konformen Zawgyi -Schriftart nie im Mainstream. ... Unicode verbessert die Verarbeitung der natürlichen Sprache
  16. ^ "Warum Unicode benötigt wird". Google -Code: Zawgyi -Projekt. Abgerufen 31. Oktober 2013.
  17. ^ "Myanmar Skripte und Sprachen". Häufig gestellte Fragen. Unicode -Konsortium. Abgerufen 24. Dezember 2019. "UTF-8" gilt technisch nicht für Ad-hoc-Schriftkodierungen wie Zawgyi.
  18. ^ Lagrow, Nick; Pruzan, Miri (26. September 2019). "Autokonversion integrieren: Facebooks Weg von Zawgyi zu Unicode - Facebook Engineering". Facebook Engineering. Facebook. Abgerufen 25. Dezember 2019. Es erschwert die Kommunikation auf digitalen Plattformen, da Inhalte, die in Unicode geschrieben wurden, mit Zawgyi -Nutzern verstümmelt und umgekehrt. ... Um ihr Publikum besser zu erreichen, posten Inhaltsproduzenten in Myanmar oft sowohl in Zawgyi als auch in Unicode in einem einzigen Beitrag, ganz zu schweigen von Englisch oder anderen Sprachen.
  19. ^ Sah Yi Nanda (21. November 2019). "Myanmar wechselt zu Unicode, um zwei Jahre zu dauern: App -Entwickler". Die Myanmar -Zeiten. Abgerufen 24. Dezember 2019.

Externe Links

  • Die Wörterbuchdefinition von Mojibake bei wiktionary
  • Medien im Zusammenhang mit Mojibake bei Wikimedia Commons