Western lateinische Zeichensätze (Computer)

Mehrere binäre Darstellungen von 8-Bit Zeichensätze für gemeinsame Westeuropäische Sprachen werden in diesem Artikel verglichen. Diese Kodierungen wurden für die Darstellung von ausgelegt Italienisch, Spanisch, Portugiesisch, Französisch, Deutsch, Niederländisch, Englisch, dänisch, Schwedisch, norwegisch, und isländisch, die die verwenden Lateinisches Alphabet, ein paar zusätzliche Buchstaben und solche mit Vorkomponierten Diakritik, etwas Interpunktionund verschiedene Symbole (einschließlich einiger griechischer Buchstaben). Obwohl sie "westeuropäisch" bezeichnet werden, werden viele dieser Sprachen auf der ganzen Welt gesprochen. Außerdem unterstützen diese Charakter -Sets viele andere Sprachen, wie z. malaiisch, Swahili, und Klassisches Latein.

Dieses Material ist technisch veraltet, nachdem er funktional durch ersetzt wurde durch Unicode. Es hat jedoch weiterhin historisches Interesse.

Zusammenfassung

Das ISO-8859 eine Reihe von 8 Bit Zeichensätze codiert alle Latein Zeichensätze in verwendet in Europa, wenn auch das gleiche Codepunkte mehrere Verwendungszwecke haben, die Schwierigkeiten verursachten (einschließlich Mojibakeoder verstümmelte Charaktere und Kommunikationsprobleme). Die Ankunft von Unicode, mit einem eindeutigen Codepunkt für jeden Glyphe, löste diese Probleme.

Geschichte

Die früheren sieben-bisschen UNS. Amerikanischer Standardcode für den Informationsaustausch ('ASCII') Codierung hat Zeichen, die ausreichen, um nur wenige Sprachen wie Englisch, Latein, Malaiisch und Swahili richtig darzustellen. Es fehlen einige Briefe und Buchstaben-diakritische Kombinationen, die in anderen lateinischen Alphabetsprachen verwendet werden. Da es jedoch keine andere Wahl für die meisten US-amerikanischen Computerplattformen gab, war die Verwendung von ASCII unvermeidlich, außer wo es eine starke nationale Computerindustrie gab. Da war das ISO 646 Gruppe von Codierungen, die einige der Symbole in ASCII durch lokale Zeichen ersetzten, der Raum war jedoch sehr begrenzt, und einige der ersetzten Symbole waren in Dingen wie Programmiersprachen weit verbreitet.

Die meisten Computer verwendeten intern acht Bit Bytes, aber die Kommunikation (als als von Natur aus unzuverlässige) sieben Datenbits plus eins verwendeten Paritätsbit. Mit der Zeit wurde es üblich, alle acht Bits für Daten zu verwenden und Platz für weitere 128 Zeichen zu schaffen. In den frühen Tagen waren die meisten systemspezifisch, aber allmählich die ISO/IEC 8859 Standards entstanden, um eine plattformübergreifende Ähnlichkeit zu liefern, um den Informationsaustausch zu aktivieren.

Gegen Ende des 20. Jahrhunderts, als die Speicher- und Speicherkosten gesunken sind, sind die Probleme, die mit mehreren Bedeutungen eines bestimmten acht Bit-Codes verbunden sind (es gibt nur sieben ISO-Latin-Code-Sets), nicht mehr gerechtfertigt. Alle wichtigen Betriebssysteme haben sich zugezogen Unicode als ihre Hauptdarstellung. Da Windows jedoch nicht unterstützte UTF-8 Methode zur Codierung von Unicode (bevorzugen UTF-16), viele Anwendungen waren weiterhin auf diese Legacy -Charakter -Sets beschränkt.

Das Euro -Zeichen

Das Einführung des Euro und es ist damit verbunden Eurozeichen () führte einen signifikanten Druck auf die Entwickler von Computersystemen ein, um dieses neue Symbol zu unterstützen, und die meisten 8-Bit-Charakter-Sets mussten in irgendeiner Weise angepasst werden.

  • Apfel mit Makroman und Sun Microsystems mit Solaris os einfach die ersetzt Generisches Währungszeichen (¤). Dies verursachte an einigen Orten Schwierigkeiten, da Organisationen andere Verwendungszwecke für ihre gefunden hatten Codepunktwie das Firmenlogo.
  • ISO führte eine weitere Variante von ISO 8859 ein, ISO 8859-15, der das generische Währungszeichen durch das Euro -Zeichen ersetzte und einige andere Ersatz für Symbole durch Buchstaben mit Diakritikern machte. ISO 8859-15 erhielt nie eine weit verbreitete Adoption.
  • Mit Windows-1252, Microsoft platzierte das Euro -Zeichen in eine Lücke (Position 80verhexen) im bestehenden C1 -Kontrollcodes, eine Entscheidung, die andere Anbieter als konterarchitektural betrachteten.

Diese Entscheidungen hatten zwar nur eine begrenzte Wirkung auf Dokumente, die nur innerhalb eines einzelnen Computers (oder zumindest innerhalb eines einzelnen Anbieters "verwendet wurden"Digitales Ökosystem") Dies bedeutete, dass Dokumente, die ein Euro -Zeichen enthalten, beim Austausch zwischen Ökosystemen nicht wie erwartet rendern würden.

Alle diese Probleme wurden gelöst, da Betriebssysteme auf die Unterstützung aufgerüstet wurden Unicode als Standard, das das Euro -Zeichen bei U+20AC codiert (Dezimalzahl 8364).

Vergleichstabelle

Codepunkte U+0000 U+007F werden in dieser Tabelle derzeit nicht angezeigt, da sie in allen hier aufgeführten Zeichensätzen direkt zugeordnet sind. Das ASCII Das Codierungsstandard definiert die ursprüngliche Spezifikation für die Zuordnung der ersten 0-127 Zeichen.

Der Tisch ist von angeordnet von Unicode Codepunkt. Charaktersätze werden hier von ihren bezeichnet Iana Namen in oberer Fall.

Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
NBSP U+00A0 A0 A0 A0 Ff Ff Ca.
¡ U+00A1 A1 A1 A1 ANZEIGE ANZEIGE C1
¢ U+00A2 A2 A2 A2 9b Bd A2
£ U+00A3 A3 A3 A3 9c 9c A3
¤ U+00A4 A4   A4   Vgl  
¥ U+00A5 A5 A5 A5 9d SEIN B4
¦ U+00A6 A6   A6   Dd  
§ U+00A7 A7 A7 A7   F5 A4
¨ U+00A8 A8   A8   F9 AC
© U+00A9 A9 A9 A9   B8 A9
ª U+00AA Aa Aa Aa A6 A6 BB
« U+00Ab Ab Ab Ab Ae Ae C7
¬ U+00AC AC AC AC Aa Aa C2
SCHÜCHTERN U+00Ad ANZEIGE ANZEIGE ANZEIGE   F0  
® U+00AE Ae Ae Ae   A9 A8
¯ U+00AF Af Af Af   EE F8
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
° U+00B0 B0 B0 B0 F8 F8 A1
± U+00B1 B1 B1 B1 F1 F1 B1
² U+00B2 B2 B2 B2 FD FD  
³ U+00B3 B3 B3 B3   Fc  
´ U+00B4 B4   B4   EF Ab
µ U+00B5 B5 B5 B5 E6 E6 B5
U+00B6 B6 B6 B6   F4 A6
· U+00B7 B7 B7 B7 FA FA E1
¸ U+00B8 B8   B8   F7 Fc
¹ U+00B9 B9 B9 B9   FB  
º U+00BA Ba Ba Ba A7 A7 BC
» U+00BB BB BB BB Af Af C8
¼ U+00BC BC   BC AC AC  
½ U+00BD Bd   Bd Ab Ab  
¾ U+00be SEIN   SEIN   F3  
¿ U+00BF Bf Bf Bf A8 A8 C0
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
À U+00C0 C0 C0 C0   B7 CB
Á U+00C1 C1 C1 C1   B5 E7
 U+00C2 C2 C2 C2   B6 E5
à U+00C3 C3 C3 C3   C7 CC
Ä U+00C4 C4 C4 C4 8e 8e 80
Å U+00C5 C5 C5 C5 8f 8f 81
Æ U+00C6 C6 C6 C6 92 92 Ae
Ç U+00C7 C7 C7 C7 80 80 82
È U+00C8 C8 C8 C8   D4 E9
É U+00C9 C9 C9 C9 90 90 83
Ê U+00CA Ca. Ca. Ca.   D2 E6
Ë U+00CB CB CB CB   D3 E8
Ì U+00cc CC CC CC   De Ed
Í U+00CD CD CD CD   D6 EA
Î U+00CE Ce Ce Ce   D7 Eb
Ï U+00cf Vgl Vgl Vgl   D8 EC
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
Ð U+00D0 D0 D0 D0   D1  
Ñ U+00D1 D1 D1 D1 A5 A5 84
Ò U+00D2 D2 D2 D2   E3 F1
Ó U+00D3 D3 D3 D3   E0 EE
Ô U+00D4 D4 D4 D4   E2 EF
Õ U+00D5 D5 D5 D5   E5 CD
Ö U+00D6 D6 D6 D6 99 99 85
× U+00D7 D7 D7 D7   9e  
Ø U+00D8 D8 D8 D8   9d Af
Ù U+00D9 D9 D9 D9   Eb F4
Ú U+00DA Da Da Da   E9 F2
Û U+00 db Db Db Db   EA F3
Ü U+00DC DC DC DC 9A 9A 86
Ý U+00DD Dd Dd Dd   Ed  
Þ U+00DE De De De   E8  
ß U+00DF Df Df Df E1 E1 A7
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
à U+00E0 E0 E0 E0 85 85 88
á U+00E1 E1 E1 E1 A0 A0 87
â U+00E2 E2 E2 E2 83 83 89
ã U+00E3 E3 E3 E3   C6 8b
ä U+00E4 E4 E4 E4 84 84 8a
å U+00E5 E5 E5 E5 86 86 8c
æ U+00E6 E6 E6 E6 91 91 SEIN
ç U+00E7 E7 E7 E7 87 87 8d
è U+00E8 E8 E8 E8 8a 8a 8f
é U+00E9 E9 E9 E9 82 82 8e
ê U+00ea EA EA EA 88 88 90
ë U+00EB Eb Eb Eb 89 89 91
ì U+00EC EC EC EC 8d 8d 93
í U+00ed Ed Ed Ed A1 A1 92
î U+00ee EE EE EE 8c 8c 94
ï U+00EF EF EF EF 8b 8b 95
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
ð U+00F0 F0 F0 F0   D0  
ñ U+00F1 F1 F1 F1 A4 A4 96
ò U+00F2 F2 F2 F2 95 95 98
ó U+00F3 F3 F3 F3 A2 A2 97
ô U+00F4 F4 F4 F4 93 93 99
õ U+00F5 F5 F5 F5   E4 9b
ö U+00F6 F6 F6 F6 94 94 9a
÷ U+00F7 F7 F7 F7 F6 F6 D6
ø U+00F8 F8 F8 F8   9b Bf
ù U+00F9 F9 F9 F9 97 97 9d
ú U+00FA FA FA FA A3 A3 9c
û U+00FB FB FB FB 96 96 9e
ü U+00FC Fc Fc Fc 81 81 9f
ý U+00FD FD FD FD   EC  
þ U+00FE Fe Fe Fe   E7  
ÿ U+00ff Ff Ff Ff 98 98 D8
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
ı U+0131         D5 F5
Œ U+0152   BC 8c     Ce
œ U+0153   Bd 9c     Vgl
Š U+0160   A6 8a      
š U+0161   A8 9A      
Ÿ U+0178   SEIN 9f     D9
Ž U+017d   B4 8e      
ž U+017E   B8 9e      
ƒ U+0192     83 9f 9f C4
ˆ U+02C6     88     F6
ˇ U+02C7           Ff
˘ U+02d8           F9
˙ U+02d9           FA
˚ U+02da           FB
˛ U+02 dB           Fe
˜ U+02DC     98     F7
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
˝ U+02dd           FD
Γ U+0393       E2    
Θ U+0398       E9    
Σ U+03A3       E4    
Φ U+03A6       E8    
Ω U+03A9       EA   Bd
α U+03B1       E0    
δ U+03B4       Eb    
ε U+03B5       EE    
π U+03C0       E3   B9
σ U+03C3       E5    
τ U+03C4       E7    
φ U+03C6       Ed    
U+2013     96     D0
U+2014     97     D1
U+2017         F2  
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
U+2018     91     D4
U+2019     92     D5
U+201A     82     E2
U+201c     93     D2
U+201d     94     D3
U+201e     84     E3
U+2020     86     A0
U+2021     87     E0
U+2022     95     A5
U+2026     85     C9
U+2030     89     E4
U+2039     8b     DC
U+203a     9b     Dd
U+2044           Da
U+207f       Fc    
U+20A7       9e    
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
U+20AC   A4 80   (D5)[NB 1][2][3] Db
U+2122     99     Aa
U+2202           B6
U+2206           C6
U+220f           B8
U+2211           B7
U+2219       F9    
U+221a       FB   C3
U+221E       EC   B0
U+2229       EF    
U+222b           Ba
U+2248       F7   C5
U+2260           ANZEIGE
U+2261       F0    
U+2264       F3   B2
U+2265       F2   B3
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
U+2310       A9    
U+2320       F4    
U+2321       F5    
U+2500       C4 C4  
U+2502       B3 B3  
U+250c       Da Da  
U+2510       Bf Bf  
U+2514       C0 C0  
U+2518       D9 D9  
U+251c       C3 C3  
U+2524       B4 B4  
U+252c       C2 C2  
U+2534       C1 C1  
U+253c       C5 C5  
U+2550       CD CD  
U+2551       Ba Ba  
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
U+2552       D5    
U+2553       D6    
U+2554       C9 C9  
U+2555       B8    
U+2556       B7    
U+2557       BB BB  
U+2558       D4    
U+2559       D3    
U+255a       C8 C8  
U+255b       SEIN    
U+255c       Bd    
U+255d       BC BC  
U+255E       C6    
U+255f       C7    
U+2560       CC CC  
U+2561       B5    
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
U+2562       B6    
U+2563       B9 B9  
U+2564       D1    
U+2565       D2    
U+2566       CB CB  
U+2567       Vgl    
U+2568       D0    
U+2569       Ca. Ca.  
U+256a       D8    
U+256B       D7    
U+256c       Ce Ce  
U+2580       Df Df  
U+2584       DC DC  
U+2588       Db Db  
U+258c       Dd    
U+2590       De    
Charakter Codepunkt ISO-8859-1 ISO-8859-15 Windows-1252 IBM437 IBM850 MACINTOSH
U+2591       B0 B0  
U+2592       B1 B1  
U+2593       B2 B2  
U+25A0       Fe Fe  
U+25ca           D7
U+FB01           De
U+FB02           Df
  • Die Zuordnungen für die IBM -Codeseiten stammen aus der Unicode Site geliefert von Microsoft. Siehe Dokument des Unicode -Konsortiums zum Dokument des Unicode Unterschiede zwischen IBMs und Microsofts Zuordnungen Für diese Codeseiten.
  • IBM437 und IBM850 definierte druckbare Zeichen für die Kontrollcode -Bereiche. Während diese beim Drucken von Text durch nicht verwendet werden konnten DOSWie sie vor dem Erreichen des Bildschirms gefangen würden, können sie von Anwendungen verwendet werden, die den Bildschirmspeicher direkt verwendeten.
  • Macintosh hat ein Apple -Logo ⟨⟩ bei 0xf0 und übersetzt es in U+F8ff in der Privatnutzungsbereich Für Unicode.

Anmerkungen

  1. ^ IBM PC DOS 2000, veröffentlicht 1998, änderte ihre Definition von Code Seite 850 auf das, was sie nannten Modifizierte Code Seite 850 Jetzt einschließlich des Euro -Zeichens an Code Point 213, anstatt Unterstützung für das neue hinzuzufügen Code Seite 858. Der Grund dafür könnte auf bestehende Einschränkungen bei der Implementierung der Codepage -Switching -Logik unter zurückgegangen sein MS-DOS/PC dos, die .CPI-Dateien auf 64 kb Größe oder etwa sechs Codepages Maximum beschränkte, eine Einschränkung, die in einigen OEM-Versionen von MS-DOS umgangen wurde, in Windows NTund existiert auch nicht in DR-DOS. Darüber hinaus begrenzt der Parser in MS-DOS / PC DOS die Anzahl der möglichen Länder- / Codepage-Einträge im Land. SYS setzt auf maximal 146 oder 438, eine Einschränkung, die in DR-DOS nicht existiert. Das Hinzufügen von Unterstützung für CodePage 858 hätte also möglicherweise gleichzeitig eine andere (z. B. Codepage 850) fallen lassen, was zu diesem Zeitpunkt möglicherweise keine praktikable Lösung war, da einige Anwendungen fest verdrahtet waren, um CodePage 850 zu verwenden.

Verweise

  1. ^ "00858". Codeseiten von CPGID. IBM. Archiviert vom Original am 2016-06-06. Abgerufen 2016-06-06.
  2. ^ Paul, Matthias R. (2001-08-15). "Ändern von Codepages in Freedos" (Technische Entwurfsspezifikation basierend auf FD-Dev Post [1]). Archiviert von das Original am 2016-06-06. Abgerufen 2016-06-06. Die neue offizielle ID für das mehrsprachige "Codepage 850 mit Euro -Zeichen" beträgt 858, nicht 850. IBM wird um 858 anstelle ihrer 850 -Variante mit zukünftigen Problemen ihrer Produkte wechseln. [...] Ich kann nur erraten, warum sie ihren Egax.cpi, Country.sys und nicht 858 hinzugefügt haben. Tastatur.Sys Dateien in PC DOS 2000. Viele Anwendungen von Drittanbietern sind für die Arbeit mit 850 ausgelegt und wussten nicht 858, als PC DOS 2000 veröffentlicht wurde. Es ist also für alle einfacher, aber leider ist es nicht kompatibel. [...] Wie oben erläutert, enthalten Country.sys und Tastatur.Sys nur zwei Codepage -Einträge für ein bestimmtes Land in westlichen Ausgaben von DOS. (In arabischen und hebräischen Themen können bis zu 8 Codepages für ein Land vorhanden sein, theoretisch gibt es keine Grenze unter dem Bereich der zulässigen Codepages 1..65534). [...] Das Problem ist, dass die Entfernung der Unterstützung für 850 möglicherweise Kompatibilitätsprobleme mit Anwendungen verursacht hat, die für die Verwendung von 850 fest verdrahtet sind. 858 als dritte Wahl zu allen Dateien hätte die Datei- und Tabellengrößen erheblich erhöht. Das Land. Io.sys/Ibmbio.com Legt ein 6 -kb -Scratchpad (für DOS 6) beiseite, um alle Informationen zu laden. Dies ermöglicht es maximal 438 Einträge in einer Land. Der NLSFunc-Parser hat diese Einschränkung nicht, und die Datei-Parsers in DR-DOS (Kernel und NLSFunc) kennen auch eine solche Einschränkung nicht. Ältere Probleme von MS-DOS/PC-DOS hatten sogar einen 2-KB-Puffer für maximal 146 Einträge. {{}}: Externer Link in |type= (Hilfe)
  3. ^ Paul, Matthias R. (2001-08-27). "Ändern von Codepages in Freedos (Follow-up)". Archiviert vom Original am 2014-10-01. Abgerufen 2013-05-08. [...] Man könnte auch benutzerdefinierte .cpi-Dateien im herkömmlichen Schriftart ohne Schwierigkeiten erstellen, aber Sie konnten nur bis [...] sechs Codepage in einer solchen Datei speichern, wenn sie von MS-DOS/PC verwendet werden sollten DOS (einige OEM-Probleme und NT können Dateien über 64 kb verarbeiten, MS-DOS/PC DOS können jedoch nicht).