ISO/IEC 8859
Standard | ISO/IEC 8859 |
---|---|
Einstufung | 8 Bit erweiterte ASCII, ISO/IEC 4873 Level 1 |
Erweitert | US-Ascii |
Vorausgegangen von | ISO/IEC 646 |
gefolgt von | ISO/IEC 10646 (Unicode) |
Andere verwandte Kodierungen (en) | ISO/IEC 10367, Windows-125x |
ISO/IEC 8859 ist ein Joint ISO und IEC Serie von Standards für 8-Bit Charaktercodierungen. Die Serie der Standards besteht aus nummerierten Teilen, wie z. ISO/IEC 8859-1, ISO/IEC 8859-2usw. Es gibt 15 Teile, ausgenommen die Verlassenen ISO/IEC 8859-12. Die ISO -Arbeitsgruppe, die diese Serie von Standards beibehält, wurde aufgelöst.
ISO/IEC 8859 Teile 1, 2, 3 und 4 waren ursprünglich ECMA International Standard ECMA-94.
Einführung
Während die Bitmuster der 95 druckbar ASCII Charaktere reichen aus, um Informationen in der Moderne auszutauschen Englisch, die meisten anderen Sprachen, die verwenden Lateinische Alphabete Benötigen Sie zusätzliche Symbole, die nicht von ASCII bedeckt sind. ISO/IEC 8859 versuchte, dieses Problem durch die Verwendung des achten Bittes in einem 8-Bit zu beheben Byte Positionen für weitere 96 druckbare Zeichen zuzulassen. Frühe Codierungen waren aufgrund von Einschränkungen einiger Datenübertragungsprotokolle und teilweise aus historischen Gründen auf 7 Bit begrenzt. Es wurden jedoch mehr Zeichen benötigt, als in eine einzelne 8-Bit-Charakter-Codierung passen, sodass mehrere Zuordnungen entwickelt wurden, darunter mindestens zehn für verschiedene lateinische Alphabete geeignet.
Die Standardteile ISO/IEC 8859 definieren nur druckbare Zeichen Steuerzeichen) in Übereinstimmung mit ISO/IEC 4873; Sie wurden so konzipiert, dass sie in Verbindung mit einem separaten Standard verwendet werden, der die mit diesen Bytes verbundenen Kontrollfunktionen definiert, wie z. ISO 6429 oder ISO 6630.[1] Zu diesem Zweck eine Reihe von Codierungen, die mit dem registriert sind Iana Ergänzen Sie die C0 Steuerungssatz (Steuerzeichen, die Bytes 0 bis 31 zugeordnet sind) von ISO 646 und die C1 Kontrollsatz (Kontrollzeichen, die nach Bytes 128 bis 159 zugeordnet sind) von ISO 6429, was zu vollständigen 8-Bit-Zeichenkarten mit den meisten, wenn nicht allen zugewiesenen Bytes führt. Diese Sets haben ISO-8859-n wie ihre bevorzugten MIME Name oder, in Fällen, in denen ein bevorzugter Mime -Name nicht angegeben ist, ihr kanonischer Name. Viele Leute verwenden die Begriffe ISO/IEC 8859-n und ISO-8859-n austauschbar. ISO/IEC 8859-11 Ich habe ein solches Zeichen nicht zugeordnet, vermutlich, weil es fast identisch war mit TIS 620.
Figuren
Der ISO/IEC 8859 -Standard ist für einen zuverlässigen Informationsaustausch ausgelegt, nicht für Typografie; Die Standardsymbole lassen für hochwertige Typografie erforderlich, z. ASCII und ISO/IEC 8859 -Standards oder Verwendung Unicode stattdessen.
Eine unentgeltee Regel, die auf praktischer Erfahrung basiert Doppelte Zitatmarken « und » Es wurden für einige europäische Sprachen eingeschlossen, aber nicht die Richtungsdoppelzitatsmarkierungen “ und ” Wird für Englisch und einige andere Sprachen verwendet.
Französisch hat seine nicht verstanden œ und Œ Ligaturen, weil sie als "OE" tippt werden konnten. Ebenfalls, ŸFür den All-Caps-Text wurde ebenfalls fallen gelassen.[2][3][4] Wenn auch unter verschiedenen CodePoints wurden diese drei Zeichen später wieder mit ISO/IEC 8859-15 1999 stellte auch das neue vor Eurozeichen Charakter €. Ebenso hat Niederländer das nicht bekommen ij und IJ Briefe, weil niederländische Sprecher es gewohnt hatten, diese stattdessen als zwei Buchstaben zu tippen.
Rumänisch verstanden anfangs nicht seine Ș/ș und Ț/ț (mit Komma) Briefe, weil diese Briefe ursprünglich mit vereinheitlicht wurden mit Ş/ş und Ţ/ţ (mit Cedilla) bis zum Unicode -Konsortium, in Anbetracht der Formen mit Komma darunter zu sein Glyphenvarianten der Formen mit Cedilla. Die Briefe mit explizitem Komma unten wurden jedoch später zum Unicode -Standard hinzugefügt und sind auch in ISO/IEC 8859-16.
Die meisten ISO/IEC 8859 -Codierungen bieten diakritische Markierungen, die für verschiedene europäische Sprachen mithilfe des lateinischen Skripts erforderlich sind. Andere liefern nicht-latinische Alphabete: griechisch, kyrillisch, hebräisch, Arabisch und Thai. Die meisten Codierungen enthalten nur Abstandszeichen, obwohl die thailändischen, hebräischen und arabischen auch enthalten Charaktere kombinieren.
Der Standard ist keine Bereitstellung für die Skripte ostasiatischer Sprachen (CJK) als ihre ideografische Schreibsysteme benötigen viele tausend Codepunkte. Obwohl es lateinbasierte Zeichen verwendet, Vietnamesisch passt nicht in 96 Positionen (ohne die Kombination von Diakritikern wie in Windows-1258) entweder. Jedes japanische Silbenalphabet (Hiragana oder Katakana, siehe Kana) würde passen, wie in Jis x 0201Aber wie mehrere andere Alphabete der Welt sind sie im ISO/IEC 8859 -System nicht codiert.
Die Teile von ISO/IEC 8859
ISO/IEC 8859 ist in die folgenden Teile unterteilt:
Teil | Name | Überarbeitungen | Andere Standards | Beschreibung |
---|---|---|---|---|
Teil 1 | Latein-1 Westeuropäische | 1987, 1998 | ECMA-94 (1985, 1986) | Vielleicht der am häufigsten verwendete Teil von ISO/IEC 8859, das die meisten westeuropäischen Sprachen abdeckt: dänisch (teilweise),[NB 1] Niederländisch (teilweise),[NB 2] Englisch, Faeroese, finnisch (teilweise),[NB 3] Französisch (teilweise),[NB 3] Deutsch, isländisch, irisch, Italienisch, norwegisch, Portugiesisch, Rhaeto-romanisch, schottisch Gälisch, Spanisch, katalanisch, und Schwedisch. Sprachen aus anderen Teilen der Welt sind ebenfalls abgedeckt, darunter: Osteuropäer albanisch, Südost asiatisch Indonesischsowie die afrikanischen Sprachen Afrikaans und Swahili. Eine Modifikation von Dec MCS; Die erste (1985) Standardversion auf ECMA -Ebene fehlte die Zeiten Zeichen und Division Obelus, die im nächsten Jahr hinzugefügt wurden. Das fehlende Eurozeichen und Kapital Ÿ befinden sich in der überarbeiteten Version ISO/IEC 8859-15 (siehe unten). Der entsprechende IANA-Zeichensatz ist ISO-8859-1. |
Teil 2 | Latein-2 Mitteleuropäisch | 1987, 1999 | ECMA-94 (1986)[NB 4] | Unterstützt die zentralen und osteuropäischen Sprachen, die das lateinische Alphabet verwenden, einschließlich bosnisch, Polieren, kroatisch, Tschechisch, slowakisch, Slowene, serbisch, und ungarisch. Das fehlende Eurozeichen Kann in der Version ISO/IEC 8859-16 gefunden werden. |
Teil 3 | Latin-3 Südeuropäisch | 1988, 1999 | Türkisch, maltesisch, und Esperanto. Weitgehend abgelöst von ISO/IEC 8859-9 für Türkisch. | |
Teil 4 | Latin-4 Nordeuropäer | 1988, 1998 | estnisch, lettisch, litauisch, Grönland, und Sami. | |
Teil 5 | Lateinisch/kyrillisch | 1988, 1999 | ECMA-113 (1988, 1999)[NB 5] | Deckt meistens slawische Sprachen ab, die a verwenden Kyrillisches Alphabet, einschließlich Belarussisch, bulgarisch, mazedonisch, Russisch, serbisch, und ukrainisch (teilweise).[NB 6] |
Teil 6 | Latein/Arabisch | 1987, 1999 | Deckt die häufigsten ab arabische Sprache Figuren. Unterstützt andere Sprachen nicht mit dem Arabische Schrift. Muss sein Bidi und Kursivverbindung zur Anzeige verarbeitet. | |
Teil 7 | Latein/Griechisch | 1987, 2003 | Deckt die Moderne ab griechische Sprache (Monotonische Orthographie). Kann auch für die Alten verwendet werden griechisch geschrieben ohne Akzente oder in monotoner Orthographie, aber fehlt die Diakritik für Polytonische Orthographie. Diese wurden mit Unicode eingeführt. Aktualisiert 2003, um das hinzuzufügen Eurozeichen, Drachme Zeichen und Abstand ypoggrammeni. | |
Teil 8 | Latein/Hebräisch | 1988, 1999 | Deckt die Moderne ab Hebräisch Alphabet wie in Israel verwendet. In der Praxis gibt es zwei verschiedene Kodierungen, logische Ordnung (muss sein Bidi verarbeitet für Anzeige) und visuell (links nach rechts) (in der Tat nach Bidi-Verarbeitung und Leitungsunterbrechung). 1999 aktualisiert, um hinzuzufügen LRM und Rlm. Aktualisiert auf nationaler Standardebene im Jahr 2002, um Euro- und Shekel -Zeichen und mehr bidirektionale Format -Effektoren hinzuzufügen; Die Ergänzungen von 2002 wurden nie wieder in die ISO -Standardversion aufgenommen. | |
Teil 9 | Latin-5 Türkisch | 1989, 1999 | Weitgehend das Gleiche wie ISO/IEC 8859-1 isländisch Briefe mit Türkisch Einsen. | |
Teil 10 | Latin-6 nordisch | 1992, 1998 | ECMA-144 (1990, 1992, 2000) | Eine Umlagerung von Latin-4. Für nordische Sprachen als nützlicher angesehen. Baltische Sprachen verwenden Latin-4 mehr. |
Teil 11 | Latein/Thai | 2001 | TIS-620 (1986, 1990) | Enthält Zeichen für die benötigt für die Thai Sprache. Erste Revision 1986 auf nationaler Standardebene als TIS 620. Erhöht auf den ISO -Standardstatus als Teil von ISO 8859 im Jahr 2001 mit Hinzufügen von a Nicht bahnbrechender Raum. |
| Latein/Devanagari | N / A | - | Die Arbeit bei der Erstellung eines Teils von 8859 für Devanagari wurde 1997 offiziell aufgegeben. Iscii und Unicode/ISO/IEC 10646 Deck Devanagari. |
Teil 13 | Latin-7 Baltischer Rand | 1998 | - | Einige Zeichen für baltische Sprachen, die bei Latin-4 und Latin-6 fehlten. Im Zusammenhang mit den früher veröffentlichten[NB 7] Windows-1257. |
Teil 14 | Latin-8 keltisch | 1998 | - | Deckt keltische Sprachen ab, wie z. gälisch und die Bretonsprache. Welsh -Buchstaben entsprechen den früheren (1994) ISO-IR-182. |
Teil 15 | Latin-9 | 1999 | - | Eine Überarbeitung von 8859-1, die einige wenig verwendete Symbole entfernt und sie durch das ersetzt Eurozeichen € und die Buchstaben Š, š, Ž, ž, Œ, œ, und Ÿ, was die Berichterstattung von vervollständigt Französisch, finnisch und estnisch. |
Teil 16 | Latein-10 Südosteuropäischer Europäer | 2001 | SR 14111 (1998) | Bestimmt für albanisch, kroatisch, ungarisch, Italienisch, Polieren, rumänisch und Slowene, aber auch Finnisch, Französisch, Deutsch und Irisch-Gälisch (Neue Orthographie). Der Fokus liegt mehr auf Buchstaben als auf Symbole. Das Währungszeichen wird durch die ersetzt Eurozeichen. |
Jeder Teil von ISO/IEC 8859 soll Sprachen unterstützen, die häufig voneinander ausleihen. Daher werden die von jeder Sprache benötigten Zeichen normalerweise von einem einzelnen Teil untergebracht. Es gibt jedoch einige Charaktere und Sprachkombinationen, die ohne Transkriptionen nicht berücksichtigt werden. Es wurden Anstrengungen unternommen, um Konvertierungen so reibungslos wie möglich zu gestalten. Zum Beispiel hat Deutsch alle sieben Sonderzeichen an denselben Positionen in allen lateinischen Varianten (1–4, 9, 10, 13–16) und in vielen Positionen unterscheiden sich die Zeichen nur in der Diakritik zwischen den Sätzen. Insbesondere wurden die Varianten 1–4 gemeinsam entworfen und haben die Eigenschaft, dass jedes codierte Zeichen entweder an einer bestimmten Position oder gar nicht erscheint.
Tisch
Binär | Oktober | Dez | Verhexen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Nicht bahnbrechender Raum (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | Ą | Ħ | Ą | Ё | ‘ | ¡ | Ą | ก | ” | Ḃ | ¡ | Ą | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ’ | ¢ | ¢ | Ē | ข | ¢ | ḃ | ¢ | ą | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | Ŗ | Ѓ | £ | Ģ | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | Ī | ค | ¤ | Ċ | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | Ĩ | Ѕ | ₯ | ¥ | Ĩ | ฅ | „ | ċ | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | Ļ | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ø | Ẁ | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | İ | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | Aa | ª | Ş | Ē | Њ | ͺ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
1010 1011 | 253 | 171 | Ab | « | Ť | Ğ | Ģ | Ћ | « | Ŧ | ซ | « | ḋ | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | ANZEIGE | Weicher Bindestrich (SCHÜCHTERN) | ญ | SCHÜCHTERN | |||||||||||||
1010 1110 | 256 | 174 | Ae | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | Af | ¯ | Ż | ¯ | Џ | ― | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | ą | ħ | ą | Б | ± | ą | ฑ | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ē | ฒ | ² | Ġ | ² | Č | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | ŗ | Г | ³ | ģ | ณ | ³ | ġ | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | ī | ด | “ | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | ĩ | Е | ΅ | µ | ĩ | ต | µ | ṁ | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | ļ | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ļ | ธ | ø | ẁ | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | ı | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | č | |||
1011 1010 | 272 | 186 | Ba | º | ş | ē | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | |||
1011 1011 | 273 | 187 | BB | » | ť | ğ | ģ | Л | ؛ | » | ŧ | ป | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | BC | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | Bd | ½ | ˝ | ½ | Ŋ | Н | ½ | ― | ฝ | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | SEIN | ¾ | ž | ž | О | Ύ | ¾ | ū | พ | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | Bf | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | À | Ŕ | À | Ā | Р | ΐ | À | Ā | ภ | Ą | À | |||||
1100 0001 | 301 | 193 | C1 | Á | С | ء | Α | Á | ม | Į | Á | ||||||||
1100 0010 | 302 | 194 | C2 | Â | Т | آ | Β | Â | ย | Ā | Â | ||||||||
1100 0011 | 303 | 195 | C3 | Ã | Ă | Ã | У | أ | Γ | Ã | ร | Ć | Ã | Ă | |||||
1100 0100 | 304 | 196 | C4 | Ä | Ф | ؤ | Δ | Ä | ฤ | Ä | |||||||||
1100 0101 | 305 | 197 | C5 | Å | Ĺ | Ċ | Å | Х | إ | Ε | Å | ล | Å | Ć | |||||
1100 0110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | ฦ | Ę | Æ | |||||
1100 0111 | 307 | 199 | C7 | Ç | Į | Ч | ا | Η | Ç | Į | ว | Ē | Ç | ||||||
1100 1000 | 310 | 200 | C8 | È | Č | È | Č | Ш | ب | Θ | È | Č | ศ | Č | È | ||||
1100 1001 | 311 | 201 | C9 | É | Щ | ة | Ι | É | ษ | É | |||||||||
1100 1010 | 312 | 202 | Ca. | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | ||||
1100 1011 | 313 | 203 | CB | Ë | Ы | ث | Λ | Ë | ห | Ė | Ë | ||||||||
1100 1100 | 314 | 204 | CC | Ì | Ě | Ì | Ė | Ь | ج | Μ | Ì | Ė | ฬ | Ģ | Ì | ||||
1100 1101 | 315 | 205 | CD | Í | Э | ح | Ν | Í | อ | Ķ | Í | ||||||||
1100 1110 | 316 | 206 | Ce | Î | Ю | خ | Ξ | Î | ฮ | Ī | ICH | ||||||||
1100 1111 | 317 | 207 | Vgl | Ï | Ď | Ï | Ī | Я | د | Ο | Ï | ฯ | Ļ | ICH | |||||
Binär | Oktober | Dez | Verhexen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | Ğ | Ð | ะ | Š | Ŵ | D | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | Ò | Ň | Ò | Ō | в | ز | Ò | Ō | า | Ņ | Ö | |||||
1101 0011 | 323 | 211 | D3 | Ó | Ķ | г | س | Σ | Ó | ำ | Ö | ||||||||
1101 0100 | 324 | 212 | D4 | Ô | д | ش | Τ | Ô | ิ | Ō | Ö | ||||||||
1101 0101 | 325 | 213 | D5 | Õ | Ő | Ġ | Õ | е | ص | Υ | Õ | ี | Ő | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | Ø | Ř | Ĝ | Ø | и | ظ | Ψ | Ø | ุ | Ų | Ø | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | й | ع | Ω | Ù | Ų | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | Da | Ú | к | غ | Ϊ | Ú | ฺ | Ś | Ú | ||||||||
1101 1011 | 333 | 219 | Db | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | Dd | Ý | Ŭ | Ũ | н | έ | İ | Ý | Ż | Ý | Ę | ||||||
1101 1110 | 336 | 222 | De | Þ | Ţ | Ŝ | Ū | о | ή | Ş | Þ | Ž | Ŷ | Þ | Ț | ||||
1101 1111 | 337 | 223 | Df | ß | п | ί | ‗ | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | à | ŕ | à | ā | р | ـ | ΰ | א | à | ā | เ | ą | a | |||
1110 0001 | 341 | 225 | E1 | á | с | ف | α | ב | á | แ | į | a | |||||||
1110 0010 | 342 | 226 | E2 | â | т | ق | β | ג | â | โ | ā | a | |||||||
1110 0011 | 343 | 227 | E3 | ã | ă | ã | у | ك | γ | ד | ã | ใ | ć | ã | ă | ||||
1110 0100 | 344 | 228 | E4 | ä | ф | ل | δ | ה | ä | ไ | a | ||||||||
1110 0101 | 345 | 229 | E5 | å | ĺ | ċ | å | х | م | ε | ו | å | ๅ | å | ć | ||||
1110 0110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | ๆ | ę | Æ | ||||
1110 0111 | 347 | 231 | E7 | ç | į | ч | ه | η | ח | ç | į | ็ | ē | ç | |||||
1110 1000 | 350 | 232 | E8 | è | č | è | č | ш | و | θ | ט | è | č | ่ | č | è | |||
1110 1001 | 351 | 233 | E9 | é | щ | ى | ι | י | é | ้ | é | ||||||||
1110 1010 | 352 | 234 | EA | ê | ę | ê | ę | ъ | ي | κ | ך | ê | ę | ๊ | ź | ê | |||
1110 1011 | 353 | 235 | Eb | ë | ы | ً | λ | כ | ë | ๋ | ė | ë | |||||||
1110 1100 | 354 | 236 | EC | ì | ě | ì | ė | ь | ٌ | μ | ל | ì | ė | ์ | ģ | ì | |||
1110 1101 | 355 | 237 | Ed | í | э | ٍ | ν | ם | í | ํ | ķ | í | |||||||
1110 1110 | 356 | 238 | EE | î | ю | َ | ξ | מ | î | ๎ | ī | ich | |||||||
1110 1111 | 357 | 239 | EF | ï | ď | ï | ī | я | ُ | ο | ן | ï | ๏ | ļ | ich | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | № | ِ | π | נ | ğ | ð | ๐ | š | ŵ | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | ò | ň | ò | ō | ђ | ْ | ς | ע | ò | ō | ๒ | ņ | Ö | |||
1111 0011 | 363 | 243 | F3 | ó | ķ | ѓ | σ | ף | ó | ๓ | Ö | ||||||||
1111 0100 | 364 | 244 | F4 | ô | є | τ | פ | ô | ๔ | ō | Ö | ||||||||
1111 0101 | 365 | 245 | F5 | õ | ő | ġ | õ | ѕ | υ | ץ | õ | ๕ | ő | ||||||
1111 0110 | 366 | 246 | F6 | ö | і | φ | צ | ö | ๖ | Ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | ø | ř | ĝ | ø | ј | ψ | ר | ø | ๘ | ų | ø | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | ๙ | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | ๚ | ś | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | ๛ | ū | û | |||||||
1111 1100 | 374 | 252 | Fc | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | ı | ý | ż | ý | ę | |||||
1111 1110 | 376 | 254 | Fe | þ | ţ | ŝ | ū | ў | ώ | Rlm | ş | þ | ž | ŷ | þ | ț | |||
1111 1111 | 377 | 255 | Ff | ÿ | ˙ | џ | ÿ | ĸ | ’ | Ÿ | |||||||||
Binär | Oktober | Dez | Verhexen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 |
Bei Position 0xa0 gibt es immer den nicht brechens Raum und 0xad ist meistens das weicher Bindestrich, was nur zeigt Zeilenumbrüche. Andere leere Felder sind entweder Nicht zugewiesen oder das verwendete System ist nicht in der Lage, sie anzuzeigen.
Es gibt Neue Ergänzungen als ISO/IEC 8859-7: 2003 und ISO/IEC 8859-8: 1999 Versionen. LRM steht für Marke von links nach rechts (U+200e) und RLM steht für Recht nach links (U+200f).
Beziehung zu Unicode und den UCs
Seit 1991 arbeitet das Unicode -Konsortium mit ISO und IEC zusammen, um die zu entwickeln Unicode Standard und ISO/IEC 10646: Der universelle Zeichensatz (UCS) im Tandem. Neuere Ausgaben von ISO/IEC 8859 Express -Zeichen in Bezug auf ihre Unicode/UCS -Namen und die U+nnnn Notation, die jeden Teil von ISO/IEC 8859 effektiv ein Unicode/UCS-Charakter-Codierungsschema ist, das eine sehr kleine Teilmenge der UCs auf einzelne 8-Bit-Bytes ordnet. Die ersten 256 Zeichen in Unicode und die UCs sind identisch mit denen in ISO/IEC-8859-1 (Latein-1).
Single-Byte-Charakter-Sets einschließlich der Teile von ISO/IEC 8859 und der Derivate von ihnen wurden in den neunziger Jahren bevorzugt, wobei die Vorteile von gut etabliertem und leichter in der Software implementiert wurden: Die Gleichung eines Byte zu einem Charakter ist einfach und angemessen Für die meisten einzelsprachigen Anwendungen und keine kombinierten Zeichen oder Variantenformulare. Als Unicode-fähige Betriebssysteme weiter verbreitet wurden, wurden ISO/IEC 8859 und andere Legacy-Codierungen weniger beliebt. Während Remnants von ISO 8859- und Single-Byte-Charaktermodellen in vielen Betriebssystemen, Programmiersprachen, Datenspeichersystemen, Netzwerkanwendungen, Anzeigenhardware und Endbenutzeranwendungssoftware verankert bleiben Tabellen, die bei Bedarf zu und von anderen Codierungen zugeordnet sind.
Aktueller Status
Der ISO/IEC 8859 -Standard wurde von ISO/IEC Joint Technical Committee 1, Unterausschuss 2, Arbeitsgruppe 3 (ISO/IEC JTC 1/SC 2/WG 3) aufrechterhalten. Im Juni 2004 wurden WG 3 aufgelöst, und die Wartungsaufgaben wurden auf übertragen Sc 2. Der Standard wird derzeit nicht aktualisiert, da der Unterausschuss nur verbleibend ist Arbeitsgruppe, WG 2, konzentriert sich auf die Entwicklung von Unicode's Universal codiertes Zeichensatz.
Das Waswg Codierungsstandard, das die in der zulässigen Zeichencodierungen angeben HTML5 Welche konformen Browser müssen unterstützen,[6] Enthält die meisten Teile von ISO/IEC 8859,[7] mit Ausnahme von Teilen 1, 9 und 11, die stattdessen als interpretiert werden Windows-1252, Windows-1254 und Windows-874 beziehungsweise.[8] Autoren neuer Seiten und Designer neuer Protokolle werden zur Verwendung angewiesen UTF-8 stattdessen.[8]
Siehe auch
- Liste der Computercharaktersätze
- Zahlenformen
- RPL -Zeichensatz (Ein ISO/IEC 8859-1 Superset für HP-Taschenrechner, der auch als "ECMA-94" bezeichnet wird)
- Dec Multinational Character Set (MCS)
- Dec National Ersatzcharakter Set (NRCS)
Anmerkungen
- ^ Fehlen mehrere akzentuelle Vokale einschließlich Ǿ und ǿ. Diese können durch nicht akzentuierte Vokale auf Kosten einer zunehmenden Unklarheit ersetzt werden.
- ^ Nur der IJ/ij (Brief IJ) fehlt, was normalerweise als ij dargestellt wird.
- ^ a b Fehlende Zeichen sind in ISO/IEC 8859-15.
- ^ Die Ausgabe von 1985 enthält nur eine Version von ISO-8859-1.
- ^ Die Ausgabe von 1986 definiert Koi8-e, was eine völlig andere Codierung ist.
- ^ 8859-5 verfehlt die Ґ/ґ Brief, der wieder in die eingeführt wurde Ukrainisches Alphabet in 1990.
- ^ Veröffentlicht 1995, registriert 1996.[5]
Verweise
- ^ ISO/IEC JTC 1/SC 2/WG 3 (1998-02-12). Endgültiger Text von Dis 8859-1, 8-Bit-Single-Byte-Coded Grafikzeichen-Sets-Teil 1: Lateinisches Alphabet Nr. 1 (PDF). ISO/IEC FDIS 8859-1: 1998; JTC1/SC2/N2988; WG3/N411.
Dieser Satz codierter grafischer Zeichen kann als Version eines 8-Bit-Codes gemäß ISO/IEC 2022 oder ISO/IEC 4873 auf Stufe 1 angesehen werden Grafikzeichen darstellen. Ihre Verwendung liegt außerhalb des Rahmens von ISO/IEC 8859; Es ist in anderen internationalen Standards angegeben, zum Beispiel ISO/IEC 6429.
- ^ Haralambous, Yannis (September 2007). Schriftarten & Codierungen. Übersetzt von Horne, P. Scott (1. Aufl.). Sebastopol, Kalifornien, USA: O'Reilly Media, Inc. pp.37–38. ISBN 978-0-596-10242-5.
[…] Laut einer städtischen Legende war der französische Delegierte an dem Tag, an dem der Standard zur Abstimmung kam und sein belgisches Gegenstück als Stellvertreter auftrat. Tatsächlich war der französische Delegierte ein Ingenieur, der überzeugt war, dass diese Ligatur nutzlos war, und die Schweizer und deutschen Vertreter drängten schwer, die mathematischen Symbole zu haben × und ÷ an den Positionen eingeschlossen, an denen Œ und œ würde logisch erscheinen. […]
- ^ André, Jacques (2003-10-15) [2003-10-02]. André, Bernard; Baron, Georges-Louis; Bruillard, Éric (Hrsg.). "Histoire d'œ, histoire d '@ des rumeurs typographiques et de Leurs Ensendements". Traitement de Texte ET Production de Dokumente INRP/Gediaps (in Französisch): 19–34. Archiviert vom Original am 2016-12-08. Abgerufen 2016-12-09.
- ^ André, Jacques (November 1996). "ISO Latin-1, Norm de Codage des Caractères Européens? Trois Caractères Français en Sont abwesend!" (PDF). Cahiers Gutenberg (in Französisch) (25): 65–77. Archiviert von das Original (PDF) am 2008-11-30.
- ^ Lazhintseva, Katya (1996-05-03). "Registrierung von New MIME Charset: Windows-1257". Iana.
- ^ "8.2.2.3. Charaktercodierungen". HTML 5.1 2. Auflage. W3c.
Benutzeragenten müssen die im Codierungsstandard von Whatwg definierten Codierungen unterstützen, einschließlich, aber nicht beschränkt auf […]
- ^ Van Kesteren, Anne. "Legacy Single-Byte Codings". Codierungsstandard. Waswg.
- ^ a b Van Kesteren, Anne. "Namen und Etiketten". Codierungsstandard. Waswg.
- Veröffentlichte Versionen jedes Teils von ISO/IEC 8859 sind gegen eine Gebühr von der verfügbar ISO -Katalogstelle und von der IEC Webstore.
- PDF -Versionen der endgültigen Entwürfe einiger Teile von ISO/IEC 8859, wie sie an die ISO/IEC JTC 1/SC 2/WG 3 zur Überprüfung und Veröffentlichung eingereicht wurden WG 3 Website:
- ISO/IEC 8859-1: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 1: Lateinischer Alphabet Nr. 1 1 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. April 1998)
- ISO/IEC 8859-4: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 4: Lateinischer Alphabet Nr. 4 (Entwurf vom 12. Februar 1998, veröffentlicht am 1. Juli 1998)
- ISO/IEC 8859-7: 1999 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 7: Latein/griechisches Alphabet (Entwurf vom 10. Juni 1999; ersetzt von ISO/IEC 8859-7: 2003, veröffentlicht am 10. Oktober 2003)
- ISO/IEC 8859-10: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 10: Lateinischer Alphabet Nr. 6 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. Juli 1998)
- ISO/IEC 8859-11: 1999 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 11: Latein/Thai-Zeichensatz (Entwurf vom 22. Juni 1999; ersetzt von ISO/IEC 8859-11: 2001, veröffentlicht am 15. Dezember 2001)
- ISO/IEC 8859-13: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 13: Lateinischer Alphabet Nr. 7 (Entwurf vom 15. April 1998, veröffentlicht am 15. Oktober 1998)
- ISO/IEC 8859-15: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 15: Lateinischer Alphabet Nr. 9 (Entwurf vom 1. August 1997; ersetzt von ISO/IEC 8859-15: 1999, veröffentlicht am 15. März 1999)
- ISO/IEC 8859-16: 2000 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 16: Lateinischer Alphabet Nr. 10 (Entwurf vom 15. November 1999; ersetzt von ISO/IEC 8859-16: 2001, veröffentlicht am 15. Juli 2001)
- ECMA Standards, die in Absicht genau den ISO/IEC 8859 -Zeichens -Standards entsprechen, finden Sie unter:
- Standard ECMA-94: 8 -Bit Single Byte codierte Grafikzeichen -Sets - Lateinische Alphabete Nr. 1 bis Nr. 4 2. Ausgabe (Juni 1986)
- Standard ECMA-113: 8-Bit-Single-Byte-codierte grafische Zeichensätze-lateinisches/kyrillisches Alphabet 3. Ausgabe (Dezember 1999)
- Standard ECMA-114: 8-Bit-Single-Byte-codierte grafische Zeichensätze-lateinisches/arabisches Alphabet 2. Ausgabe (Dezember 2000)
- Standard ECMA-118: 8-Bit-Single-Byte-codierte grafische Zeichensätze-Latein/griechisches Alphabet (Dezember 1986)
- Standard ECMA-121: 8-Bit-Single-Byte-codierte grafische Zeichensätze-Latein/hebräisches Alphabet 2. Ausgabe (Dezember 2000)
- Standard ECMA-128: 8-Bit-Single-Byte-codierte grafische Zeichensätze-Lateinisches Alphabet Nr. 5 2. Ausgabe (Dezember 1999)
- Standard ECMA-144: 8-Bit-Single-Byte-codierte Zeichensätze-Lateinisches Alphabet Nr. 6 3. Ausgabe (Dezember 2000)
- ISO/IEC 8859-1 nach Unicode Mapping -Tabellen Als Klartextdateien befinden sich am UNICODE FTP -Standort.
- Informelle Beschreibungen und Codediagramme für die meisten ISO/IEC 8859 -Standards sind in verfügbar ISO/IEC 8859 Alphabetsuppe (Spiegel)