ISO/IEC 8859

ISO 8859 Codierung der Familie
Standard ISO/IEC 8859
Einstufung 8 Bit erweiterte ASCII, ISO/IEC 4873 Level 1
Erweitert US-Ascii
Vorausgegangen von ISO/IEC 646
gefolgt von ISO/IEC 10646 (Unicode)
Andere verwandte Kodierungen (en) ISO/IEC 10367, Windows-125x

ISO/IEC 8859 ist ein Joint ISO und IEC Serie von Standards für 8-Bit Charaktercodierungen. Die Serie der Standards besteht aus nummerierten Teilen, wie z. ISO/IEC 8859-1, ISO/IEC 8859-2usw. Es gibt 15 Teile, ausgenommen die Verlassenen ISO/IEC 8859-12. Die ISO -Arbeitsgruppe, die diese Serie von Standards beibehält, wurde aufgelöst.

ISO/IEC 8859 Teile 1, 2, 3 und 4 waren ursprünglich ECMA International Standard ECMA-94.

Einführung

Während die Bitmuster der 95 druckbar ASCII Charaktere reichen aus, um Informationen in der Moderne auszutauschen Englisch, die meisten anderen Sprachen, die verwenden Lateinische Alphabete Benötigen Sie zusätzliche Symbole, die nicht von ASCII bedeckt sind. ISO/IEC 8859 versuchte, dieses Problem durch die Verwendung des achten Bittes in einem 8-Bit zu beheben Byte Positionen für weitere 96 druckbare Zeichen zuzulassen. Frühe Codierungen waren aufgrund von Einschränkungen einiger Datenübertragungsprotokolle und teilweise aus historischen Gründen auf 7 Bit begrenzt. Es wurden jedoch mehr Zeichen benötigt, als in eine einzelne 8-Bit-Charakter-Codierung passen, sodass mehrere Zuordnungen entwickelt wurden, darunter mindestens zehn für verschiedene lateinische Alphabete geeignet.

Die Standardteile ISO/IEC 8859 definieren nur druckbare Zeichen Steuerzeichen) in Übereinstimmung mit ISO/IEC 4873; Sie wurden so konzipiert, dass sie in Verbindung mit einem separaten Standard verwendet werden, der die mit diesen Bytes verbundenen Kontrollfunktionen definiert, wie z. ISO 6429 oder ISO 6630.[1] Zu diesem Zweck eine Reihe von Codierungen, die mit dem registriert sind Iana Ergänzen Sie die C0 Steuerungssatz (Steuerzeichen, die Bytes 0 bis 31 zugeordnet sind) von ISO 646 und die C1 Kontrollsatz (Kontrollzeichen, die nach Bytes 128 bis 159 zugeordnet sind) von ISO 6429, was zu vollständigen 8-Bit-Zeichenkarten mit den meisten, wenn nicht allen zugewiesenen Bytes führt. Diese Sets haben ISO-8859-n wie ihre bevorzugten MIME Name oder, in Fällen, in denen ein bevorzugter Mime -Name nicht angegeben ist, ihr kanonischer Name. Viele Leute verwenden die Begriffe ISO/IEC 8859-n und ISO-8859-n austauschbar. ISO/IEC 8859-11 Ich habe ein solches Zeichen nicht zugeordnet, vermutlich, weil es fast identisch war mit TIS 620.

Figuren

Der ISO/IEC 8859 -Standard ist für einen zuverlässigen Informationsaustausch ausgelegt, nicht für Typografie; Die Standardsymbole lassen für hochwertige Typografie erforderlich, z. ASCII und ISO/IEC 8859 -Standards oder Verwendung Unicode stattdessen.

Eine unentgeltee Regel, die auf praktischer Erfahrung basiert Doppelte Zitatmarken « und » Es wurden für einige europäische Sprachen eingeschlossen, aber nicht die Richtungsdoppelzitatsmarkierungen und Wird für Englisch und einige andere Sprachen verwendet.

Französisch hat seine nicht verstanden œ und Œ Ligaturen, weil sie als "OE" tippt werden konnten. Ebenfalls, ŸFür den All-Caps-Text wurde ebenfalls fallen gelassen.[2][3][4] Wenn auch unter verschiedenen CodePoints wurden diese drei Zeichen später wieder mit ISO/IEC 8859-15 1999 stellte auch das neue vor Eurozeichen Charakter €. Ebenso hat Niederländer das nicht bekommen ij und IJ Briefe, weil niederländische Sprecher es gewohnt hatten, diese stattdessen als zwei Buchstaben zu tippen.

Rumänisch verstanden anfangs nicht seine Ș/ș und Ț/ț (mit Komma) Briefe, weil diese Briefe ursprünglich mit vereinheitlicht wurden mit Ş/ş und Ţ/ţ (mit Cedilla) bis zum Unicode -Konsortium, in Anbetracht der Formen mit Komma darunter zu sein Glyphenvarianten der Formen mit Cedilla. Die Briefe mit explizitem Komma unten wurden jedoch später zum Unicode -Standard hinzugefügt und sind auch in ISO/IEC 8859-16.

Die meisten ISO/IEC 8859 -Codierungen bieten diakritische Markierungen, die für verschiedene europäische Sprachen mithilfe des lateinischen Skripts erforderlich sind. Andere liefern nicht-latinische Alphabete: griechisch, kyrillisch, hebräisch, Arabisch und Thai. Die meisten Codierungen enthalten nur Abstandszeichen, obwohl die thailändischen, hebräischen und arabischen auch enthalten Charaktere kombinieren.

Der Standard ist keine Bereitstellung für die Skripte ostasiatischer Sprachen (CJK) als ihre ideografische Schreibsysteme benötigen viele tausend Codepunkte. Obwohl es lateinbasierte Zeichen verwendet, Vietnamesisch passt nicht in 96 Positionen (ohne die Kombination von Diakritikern wie in Windows-1258) entweder. Jedes japanische Silbenalphabet (Hiragana oder Katakana, siehe Kana) würde passen, wie in Jis x 0201Aber wie mehrere andere Alphabete der Welt sind sie im ISO/IEC 8859 -System nicht codiert.

Die Teile von ISO/IEC 8859

ISO/IEC 8859 ist in die folgenden Teile unterteilt:

Teil Name Überarbeitungen Andere Standards Beschreibung
Teil 1 Latein-1
Westeuropäische
1987, 1998 ECMA-94 (1985, 1986) Vielleicht der am häufigsten verwendete Teil von ISO/IEC 8859, das die meisten westeuropäischen Sprachen abdeckt: dänisch (teilweise),[NB 1] Niederländisch (teilweise),[NB 2] Englisch, Faeroese, finnisch (teilweise),[NB 3] Französisch (teilweise),[NB 3] Deutsch, isländisch, irisch, Italienisch, norwegisch, Portugiesisch, Rhaeto-romanisch, schottisch Gälisch, Spanisch, katalanisch, und Schwedisch. Sprachen aus anderen Teilen der Welt sind ebenfalls abgedeckt, darunter: Osteuropäer albanisch, Südost asiatisch Indonesischsowie die afrikanischen Sprachen Afrikaans und Swahili.

Eine Modifikation von Dec MCS; Die erste (1985) Standardversion auf ECMA -Ebene fehlte die Zeiten Zeichen und Division Obelus, die im nächsten Jahr hinzugefügt wurden. Das fehlende Eurozeichen und Kapital Ÿ befinden sich in der überarbeiteten Version ISO/IEC 8859-15 (siehe unten). Der entsprechende IANA-Zeichensatz ist ISO-8859-1.

Teil 2 Latein-2
Mitteleuropäisch
1987, 1999 ECMA-94 (1986)[NB 4] Unterstützt die zentralen und osteuropäischen Sprachen, die das lateinische Alphabet verwenden, einschließlich bosnisch, Polieren, kroatisch, Tschechisch, slowakisch, Slowene, serbisch, und ungarisch. Das fehlende Eurozeichen Kann in der Version ISO/IEC 8859-16 gefunden werden.
Teil 3 Latin-3
Südeuropäisch
1988, 1999 Türkisch, maltesisch, und Esperanto. Weitgehend abgelöst von ISO/IEC 8859-9 für Türkisch.
Teil 4 Latin-4
Nordeuropäer
1988, 1998 estnisch, lettisch, litauisch, Grönland, und Sami.
Teil 5 Lateinisch/kyrillisch 1988, 1999 ECMA-113 (1988, 1999)[NB 5] Deckt meistens slawische Sprachen ab, die a verwenden Kyrillisches Alphabet, einschließlich Belarussisch, bulgarisch, mazedonisch, Russisch, serbisch, und ukrainisch (teilweise).[NB 6]
Teil 6 Latein/Arabisch 1987, 1999
Deckt die häufigsten ab arabische Sprache Figuren. Unterstützt andere Sprachen nicht mit dem Arabische Schrift. Muss sein Bidi und Kursivverbindung zur Anzeige verarbeitet.
Teil 7 Latein/Griechisch 1987, 2003
Deckt die Moderne ab griechische Sprache (Monotonische Orthographie). Kann auch für die Alten verwendet werden griechisch geschrieben ohne Akzente oder in monotoner Orthographie, aber fehlt die Diakritik für Polytonische Orthographie. Diese wurden mit Unicode eingeführt. Aktualisiert 2003, um das hinzuzufügen Eurozeichen, Drachme Zeichen und Abstand ypoggrammeni.
Teil 8 Latein/Hebräisch 1988, 1999
Deckt die Moderne ab Hebräisch Alphabet wie in Israel verwendet. In der Praxis gibt es zwei verschiedene Kodierungen, logische Ordnung (muss sein Bidi verarbeitet für Anzeige) und visuell (links nach rechts) (in der Tat nach Bidi-Verarbeitung und Leitungsunterbrechung). 1999 aktualisiert, um hinzuzufügen LRM und Rlm. Aktualisiert auf nationaler Standardebene im Jahr 2002, um Euro- und Shekel -Zeichen und mehr bidirektionale Format -Effektoren hinzuzufügen; Die Ergänzungen von 2002 wurden nie wieder in die ISO -Standardversion aufgenommen.
Teil 9 Latin-5
Türkisch
1989, 1999
Weitgehend das Gleiche wie ISO/IEC 8859-1 isländisch Briefe mit Türkisch Einsen.
Teil 10 Latin-6
nordisch
1992, 1998 ECMA-144 (1990, 1992, 2000) Eine Umlagerung von Latin-4. Für nordische Sprachen als nützlicher angesehen. Baltische Sprachen verwenden Latin-4 mehr.
Teil 11 Latein/Thai 2001 TIS-620 (1986, 1990) Enthält Zeichen für die benötigt für die Thai Sprache. Erste Revision 1986 auf nationaler Standardebene als TIS 620. Erhöht auf den ISO -Standardstatus als Teil von ISO 8859 im Jahr 2001 mit Hinzufügen von a Nicht bahnbrechender Raum.
Teil 12 Latein/Devanagari N / A - Die Arbeit bei der Erstellung eines Teils von 8859 für Devanagari wurde 1997 offiziell aufgegeben. Iscii und Unicode/ISO/IEC 10646 Deck Devanagari.
Teil 13 Latin-7
Baltischer Rand
1998 - Einige Zeichen für baltische Sprachen, die bei Latin-4 und Latin-6 fehlten. Im Zusammenhang mit den früher veröffentlichten[NB 7] Windows-1257.
Teil 14 Latin-8
keltisch
1998 - Deckt keltische Sprachen ab, wie z. gälisch und die Bretonsprache. Welsh -Buchstaben entsprechen den früheren (1994) ISO-IR-182.
Teil 15 Latin-9 1999 - Eine Überarbeitung von 8859-1, die einige wenig verwendete Symbole entfernt und sie durch das ersetzt Eurozeichen und die Buchstaben Š, š, Ž, ž, Œ, œ, und Ÿ, was die Berichterstattung von vervollständigt Französisch, finnisch und estnisch.
Teil 16 Latein-10
Südosteuropäischer Europäer
2001 SR 14111 (1998) Bestimmt für albanisch, kroatisch, ungarisch, Italienisch, Polieren, rumänisch und Slowene, aber auch Finnisch, Französisch, Deutsch und Irisch-Gälisch (Neue Orthographie). Der Fokus liegt mehr auf Buchstaben als auf Symbole. Das Währungszeichen wird durch die ersetzt Eurozeichen.

Jeder Teil von ISO/IEC 8859 soll Sprachen unterstützen, die häufig voneinander ausleihen. Daher werden die von jeder Sprache benötigten Zeichen normalerweise von einem einzelnen Teil untergebracht. Es gibt jedoch einige Charaktere und Sprachkombinationen, die ohne Transkriptionen nicht berücksichtigt werden. Es wurden Anstrengungen unternommen, um Konvertierungen so reibungslos wie möglich zu gestalten. Zum Beispiel hat Deutsch alle sieben Sonderzeichen an denselben Positionen in allen lateinischen Varianten (1–4, 9, 10, 13–16) und in vielen Positionen unterscheiden sich die Zeichen nur in der Diakritik zwischen den Sätzen. Insbesondere wurden die Varianten 1–4 gemeinsam entworfen und haben die Eigenschaft, dass jedes codierte Zeichen entweder an einer bestimmten Position oder gar nicht erscheint.

Tisch

Vergleich der verschiedenen Teile (1–16) von ISO/IEC 8859
Binär Oktober Dez Verhexen 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16
1010 0000 240 160 A0 Nicht bahnbrechender Raum (NBSP)
1010 0001 241 161 A1 ¡ Ą Ħ Ą Ё     ¡ Ą ¡ Ą
1010 0010 242 162 A2 ¢ ˘ ĸ Ђ   ¢ ¢ Ē ¢ ¢ ą
1010 0011 243 163 A3 £ Ł £ Ŗ Ѓ   £ Ģ £ Ł
1010 0100 244 164 A4 ¤ Є ¤ ¤ Ī ¤ Ċ
1010 0101 245 165 A5 ¥ Ľ   Ĩ Ѕ   ¥ Ĩ ċ ¥
1010 0110 246 166 A6 ¦ Ś Ĥ Ļ І   ¦ Ķ ¦ Š
1010 0111 247 167 A7 § Ї   § §
1010 1000 250 168 A8 ¨ Ј   ¨ Ļ Ø š
1010 1001 251 169 A9 © Š İ Š Љ   © Đ ©
1010 1010 252 170 Aa ª Ş Ē Њ   ͺ × ª Š Ŗ ª Ș
1010 1011 253 171 Ab « Ť Ğ Ģ Ћ   « Ŧ « «
1010 1100 254 172 AC ¬ Ź Ĵ Ŧ Ќ ، ¬ Ž ¬ ¬ Ź
1010 1101 255 173 ANZEIGE Weicher Bindestrich (SCHÜCHTERN) SCHÜCHTERN
1010 1110 256 174 Ae ® Ž   Ž Ў     ® Ū ® ź
1010 1111 257 175 Af ¯ Ż ¯ Џ   ¯ Ŋ Æ Ÿ ¯ Ż
1011 0000 260 176 B0 ° А   ° ° °
1011 0001 261 177 B1 ± ą ħ ą Б   ± ą ± ±
1011 0010 262 178 B2 ² ˛ ² ˛ В   ² ē ² Ġ ² Č
1011 0011 263 179 B3 ³ ł ³ ŗ Г   ³ ģ ³ ġ ³ ł
1011 0100 264 180 B4 ´ Д   ΄ ´ ī Ž
1011 0101 265 181 B5 µ ľ µ ĩ Е   ΅ µ ĩ µ µ
1011 0110 266 182 B6 ś ĥ ļ Ж   Ά ķ
1011 0111 267 183 B7 · ˇ · ˇ З   · · ·
1011 1000 270 184 B8 ¸ И   Έ ¸ ļ ø ž
1011 1001 271 185 B9 ¹ š ı š Й   Ή ¹ đ ¹ ¹ č
1011 1010 272 186 Ba º ş ē К   Ί ÷ º š ŗ º ș
1011 1011 273 187 BB » ť ğ ģ Л ؛ » ŧ » »
1011 1100 274 188 BC ¼ ź ĵ ŧ М   Ό ¼ ž ¼ Œ
1011 1101 275 189 Bd ½ ˝ ½ Ŋ Н   ½ ½ œ
1011 1110 276 190 SEIN ¾ ž   ž О   Ύ ¾ ū ¾ Ÿ
1011 1111 277 191 Bf ¿ ż ŋ П ؟ Ώ   ¿ ŋ æ ¿ ż
1100 0000 300 192 C0 À Ŕ À Ā Р   ΐ   À Ā Ą À
1100 0001 301 193 C1 Á С ء Α   Á Į Á
1100 0010 302 194 C2 Â Т آ Β   Â Ā Â
1100 0011 303 195 C3 Ã Ă   Ã У أ Γ   Ã Ć Ã Ă
1100 0100 304 196 C4 Ä Ф ؤ Δ   Ä Ä
1100 0101 305 197 C5 Å Ĺ Ċ Å Х إ Ε   Å Å Ć
1100 0110 306 198 C6 Æ Ć Ĉ Æ Ц ئ Ζ   Æ Ę Æ
1100 0111 307 199 C7 Ç Į Ч ا Η   Ç Į Ē Ç
1100 1000 310 200 C8 È Č È Č Ш ب Θ   È Č Č È
1100 1001 311 201 C9 É Щ ة Ι   É É
1100 1010 312 202 Ca. Ê Ę Ê Ę Ъ ت Κ   Ê Ę Ź Ê
1100 1011 313 203 CB Ë Ы ث Λ   Ë Ė Ë
1100 1100 314 204 CC Ì Ě Ì Ė Ь ج Μ   Ì Ė Ģ Ì
1100 1101 315 205 CD Í Э ح Ν   Í Ķ Í
1100 1110 316 206 Ce Î Ю خ Ξ   Î Ī ICH
1100 1111 317 207 Vgl Ï Ď Ï Ī Я د Ο   Ï Ļ ICH
Binär Oktober Dez Verhexen 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16
1101 0000 320 208 D0 Ð Đ   Đ а ذ Π   Ğ Ð Š Ŵ D
1101 0001 321 209 D1 Ñ Ń Ñ Ņ б ر Ρ   Ñ Ņ Ń Ñ Ń
1101 0010 322 210 D2 Ò Ň Ò Ō в ز     Ò Ō Ņ Ö
1101 0011 323 211 D3 Ó Ķ г س Σ   Ó Ö
1101 0100 324 212 D4 Ô д ش Τ   Ô Ō Ö
1101 0101 325 213 D5 Õ Ő Ġ Õ е ص Υ   Õ Ő
1101 0110 326 214 D6 Ö ж ض Φ   Ö Ö
1101 0111 327 215 D7 × з ط Χ   × Ũ × × Ś
1101 1000 330 216 D8 Ø Ř Ĝ Ø и ظ Ψ   Ø Ų Ø Ű
1101 1001 331 217 D9 Ù Ů Ù Ų й ع Ω   Ù Ų Ł Ù
1101 1010 332 218 Da Ú к غ Ϊ   Ú Ś Ú
1101 1011 333 219 Db Û Ű Û л   Ϋ   Û   Ū Û
1101 1100 334 220 DC Ü м   ά   Ü   Ü
1101 1101 335 221 Dd Ý Ŭ Ũ н   έ   İ Ý   Ż Ý Ę
1101 1110 336 222 De Þ Ţ Ŝ Ū о   ή   Ş Þ   Ž Ŷ Þ Ț
1101 1111 337 223 Df ß п   ί ß ฿ ß
1110 0000 340 224 E0 à ŕ à ā р ـ ΰ א à ā ą a
1110 0001 341 225 E1 á с ف α ב á į a
1110 0010 342 226 E2 â т ق β ג â ā a
1110 0011 343 227 E3 ã ă   ã у ك γ ד ã ć ã ă
1110 0100 344 228 E4 ä ф ل δ ה ä a
1110 0101 345 229 E5 å ĺ ċ å х م ε ו å å ć
1110 0110 346 230 E6 æ ć ĉ æ ц ن ζ ז æ ę Æ
1110 0111 347 231 E7 ç į ч ه η ח ç į ē ç
1110 1000 350 232 E8 è č è č ш و θ ט è č č è
1110 1001 351 233 E9 é щ ى ι י é é
1110 1010 352 234 EA ê ę ê ę ъ ي κ ך ê ę ź ê
1110 1011 353 235 Eb ë ы ً λ כ ë ė ë
1110 1100 354 236 EC ì ě ì ė ь ٌ μ ל ì ė ģ ì
1110 1101 355 237 Ed í э ٍ ν ם í ķ í
1110 1110 356 238 EE î ю َ ξ מ î ī ich
1110 1111 357 239 EF ï ď ï ī я ُ ο ן ï ļ ich
1111 0000 360 240 F0 ð đ   đ ِ π נ ğ ð š ŵ ð đ
1111 0001 361 241 F1 ñ ń ñ ņ ё ّ ρ ס ñ ņ ń ñ ń
1111 0010 362 242 F2 ò ň ò ō ђ ْ ς ע ò ō ņ Ö
1111 0011 363 243 F3 ó ķ ѓ   σ ף ó Ö
1111 0100 364 244 F4 ô є   τ פ ô ō Ö
1111 0101 365 245 F5 õ ő ġ õ ѕ   υ ץ õ ő
1111 0110 366 246 F6 ö і   φ צ ö Ö
1111 0111 367 247 F7 ÷ ї   χ ק ÷ ũ ÷ ÷ ś
1111 1000 370 248 F8 ø ř ĝ ø ј   ψ ר ø ų ø ű
1111 1001 371 249 F9 ù ů ù ų љ   ω ש ù ų ł ù
1111 1010 372 250 FA ú њ   ϊ ת ú ś ú
1111 1011 373 251 FB û ű û ћ   ϋ   û ū û
1111 1100 374 252 Fc ü ќ   ό   ü   ü
1111 1101 375 253 FD ý ŭ ũ §   ύ LRM ı ý   ż ý ę
1111 1110 376 254 Fe þ ţ ŝ ū ў   ώ Rlm ş þ   ž ŷ þ ț
1111 1111 377 255 Ff ÿ ˙ џ       ÿ ĸ   Ÿ
Binär Oktober Dez Verhexen 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16

Bei Position 0xa0 gibt es immer den nicht brechens Raum und 0xad ist meistens das weicher Bindestrich, was nur zeigt Zeilenumbrüche. Andere leere Felder sind entweder   Nicht zugewiesen oder das verwendete System ist nicht in der Lage, sie anzuzeigen.

Es gibt   Neue Ergänzungen als ISO/IEC 8859-7: 2003 und ISO/IEC 8859-8: 1999 Versionen. LRM steht für Marke von links nach rechts (U+200e) und RLM steht für Recht nach links (U+200f).

Beziehung zu Unicode und den UCs

Seit 1991 arbeitet das Unicode -Konsortium mit ISO und IEC zusammen, um die zu entwickeln Unicode Standard und ISO/IEC 10646: Der universelle Zeichensatz (UCS) im Tandem. Neuere Ausgaben von ISO/IEC 8859 Express -Zeichen in Bezug auf ihre Unicode/UCS -Namen und die U+nnnn Notation, die jeden Teil von ISO/IEC 8859 effektiv ein Unicode/UCS-Charakter-Codierungsschema ist, das eine sehr kleine Teilmenge der UCs auf einzelne 8-Bit-Bytes ordnet. Die ersten 256 Zeichen in Unicode und die UCs sind identisch mit denen in ISO/IEC-8859-1 (Latein-1).

Single-Byte-Charakter-Sets einschließlich der Teile von ISO/IEC 8859 und der Derivate von ihnen wurden in den neunziger Jahren bevorzugt, wobei die Vorteile von gut etabliertem und leichter in der Software implementiert wurden: Die Gleichung eines Byte zu einem Charakter ist einfach und angemessen Für die meisten einzelsprachigen Anwendungen und keine kombinierten Zeichen oder Variantenformulare. Als Unicode-fähige Betriebssysteme weiter verbreitet wurden, wurden ISO/IEC 8859 und andere Legacy-Codierungen weniger beliebt. Während Remnants von ISO 8859- und Single-Byte-Charaktermodellen in vielen Betriebssystemen, Programmiersprachen, Datenspeichersystemen, Netzwerkanwendungen, Anzeigenhardware und Endbenutzeranwendungssoftware verankert bleiben Tabellen, die bei Bedarf zu und von anderen Codierungen zugeordnet sind.

Aktueller Status

Der ISO/IEC 8859 -Standard wurde von ISO/IEC Joint Technical Committee 1, Unterausschuss 2, Arbeitsgruppe 3 (ISO/IEC JTC 1/SC 2/WG 3) aufrechterhalten. Im Juni 2004 wurden WG 3 aufgelöst, und die Wartungsaufgaben wurden auf übertragen Sc 2. Der Standard wird derzeit nicht aktualisiert, da der Unterausschuss nur verbleibend ist Arbeitsgruppe, WG 2, konzentriert sich auf die Entwicklung von Unicode's Universal codiertes Zeichensatz.

Das Waswg Codierungsstandard, das die in der zulässigen Zeichencodierungen angeben HTML5 Welche konformen Browser müssen unterstützen,[6] Enthält die meisten Teile von ISO/IEC 8859,[7] mit Ausnahme von Teilen 1, 9 und 11, die stattdessen als interpretiert werden Windows-1252, Windows-1254 und Windows-874 beziehungsweise.[8] Autoren neuer Seiten und Designer neuer Protokolle werden zur Verwendung angewiesen UTF-8 stattdessen.[8]

Siehe auch

Anmerkungen

  1. ^ Fehlen mehrere akzentuelle Vokale einschließlich Ǿ und ǿ. Diese können durch nicht akzentuierte Vokale auf Kosten einer zunehmenden Unklarheit ersetzt werden.
  2. ^ Nur der IJ/ij (Brief IJ) fehlt, was normalerweise als ij dargestellt wird.
  3. ^ a b Fehlende Zeichen sind in ISO/IEC 8859-15.
  4. ^ Die Ausgabe von 1985 enthält nur eine Version von ISO-8859-1.
  5. ^ Die Ausgabe von 1986 definiert Koi8-e, was eine völlig andere Codierung ist.
  6. ^ 8859-5 verfehlt die Ґ/ґ Brief, der wieder in die eingeführt wurde Ukrainisches Alphabet in 1990.
  7. ^ Veröffentlicht 1995, registriert 1996.[5]

Verweise

  1. ^ ISO/IEC JTC 1/SC 2/WG 3 (1998-02-12). Endgültiger Text von Dis 8859-1, 8-Bit-Single-Byte-Coded Grafikzeichen-Sets-Teil 1: Lateinisches Alphabet Nr. 1 (PDF). ISO/IEC FDIS 8859-1: 1998; JTC1/SC2/N2988; WG3/N411. Dieser Satz codierter grafischer Zeichen kann als Version eines 8-Bit-Codes gemäß ISO/IEC 2022 oder ISO/IEC 4873 auf Stufe 1 angesehen werden Grafikzeichen darstellen. Ihre Verwendung liegt außerhalb des Rahmens von ISO/IEC 8859; Es ist in anderen internationalen Standards angegeben, zum Beispiel ISO/IEC 6429.
  2. ^ Haralambous, Yannis (September 2007). Schriftarten & Codierungen. Übersetzt von Horne, P. Scott (1. Aufl.). Sebastopol, Kalifornien, USA: O'Reilly Media, Inc. pp.37–38. ISBN 978-0-596-10242-5. […] Laut einer städtischen Legende war der französische Delegierte an dem Tag, an dem der Standard zur Abstimmung kam und sein belgisches Gegenstück als Stellvertreter auftrat. Tatsächlich war der französische Delegierte ein Ingenieur, der überzeugt war, dass diese Ligatur nutzlos war, und die Schweizer und deutschen Vertreter drängten schwer, die mathematischen Symbole zu haben × und ÷ an den Positionen eingeschlossen, an denen Œ und œ würde logisch erscheinen. […]
  3. ^ André, Jacques (2003-10-15) [2003-10-02]. André, Bernard; Baron, Georges-Louis; Bruillard, Éric (Hrsg.). "Histoire d'œ, histoire d '@ des rumeurs typographiques et de Leurs Ensendements". Traitement de Texte ET Production de Dokumente INRP/Gediaps (in Französisch): 19–34. Archiviert vom Original am 2016-12-08. Abgerufen 2016-12-09.
  4. ^ André, Jacques (November 1996). "ISO Latin-1, Norm de Codage des Caractères Européens? Trois Caractères Français en Sont abwesend!" (PDF). Cahiers Gutenberg (in Französisch) (25): 65–77. Archiviert von das Original (PDF) am 2008-11-30.
  5. ^ Lazhintseva, Katya (1996-05-03). "Registrierung von New MIME Charset: Windows-1257". Iana.
  6. ^ "8.2.2.3. Charaktercodierungen". HTML 5.1 2. Auflage. W3c. Benutzeragenten müssen die im Codierungsstandard von Whatwg definierten Codierungen unterstützen, einschließlich, aber nicht beschränkt auf […]
  7. ^ Van Kesteren, Anne. "Legacy Single-Byte Codings". Codierungsstandard. Waswg.
  8. ^ a b Van Kesteren, Anne. "Namen und Etiketten". Codierungsstandard. Waswg.
  • Veröffentlichte Versionen jedes Teils von ISO/IEC 8859 sind gegen eine Gebühr von der verfügbar ISO -Katalogstelle und von der IEC Webstore.
  • PDF -Versionen der endgültigen Entwürfe einiger Teile von ISO/IEC 8859, wie sie an die ISO/IEC JTC 1/SC 2/WG 3 zur Überprüfung und Veröffentlichung eingereicht wurden WG 3 Website:
    • ISO/IEC 8859-1: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 1: Lateinischer Alphabet Nr. 1 1 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. April 1998)
    • ISO/IEC 8859-4: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 4: Lateinischer Alphabet Nr. 4 (Entwurf vom 12. Februar 1998, veröffentlicht am 1. Juli 1998)
    • ISO/IEC 8859-7: 1999 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 7: Latein/griechisches Alphabet (Entwurf vom 10. Juni 1999; ersetzt von ISO/IEC 8859-7: 2003, veröffentlicht am 10. Oktober 2003)
    • ISO/IEC 8859-10: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 10: Lateinischer Alphabet Nr. 6 (Entwurf vom 12. Februar 1998, veröffentlicht am 15. Juli 1998)
    • ISO/IEC 8859-11: 1999 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 11: Latein/Thai-Zeichensatz (Entwurf vom 22. Juni 1999; ersetzt von ISO/IEC 8859-11: 2001, veröffentlicht am 15. Dezember 2001)
    • ISO/IEC 8859-13: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 13: Lateinischer Alphabet Nr. 7 (Entwurf vom 15. April 1998, veröffentlicht am 15. Oktober 1998)
    • ISO/IEC 8859-15: 1998 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 15: Lateinischer Alphabet Nr. 9 (Entwurf vom 1. August 1997; ersetzt von ISO/IEC 8859-15: 1999, veröffentlicht am 15. März 1999)
    • ISO/IEC 8859-16: 2000 -8-Bit-Single-Byte-codierte grafische Zeichensätze, Teil 16: Lateinischer Alphabet Nr. 10 (Entwurf vom 15. November 1999; ersetzt von ISO/IEC 8859-16: 2001, veröffentlicht am 15. Juli 2001)
  • ECMA Standards, die in Absicht genau den ISO/IEC 8859 -Zeichens -Standards entsprechen, finden Sie unter:
    • Standard ECMA-94: 8 -Bit Single Byte codierte Grafikzeichen -Sets - Lateinische Alphabete Nr. 1 bis Nr. 4 2. Ausgabe (Juni 1986)
    • Standard ECMA-113: 8-Bit-Single-Byte-codierte grafische Zeichensätze-lateinisches/kyrillisches Alphabet 3. Ausgabe (Dezember 1999)
    • Standard ECMA-114: 8-Bit-Single-Byte-codierte grafische Zeichensätze-lateinisches/arabisches Alphabet 2. Ausgabe (Dezember 2000)
    • Standard ECMA-118: 8-Bit-Single-Byte-codierte grafische Zeichensätze-Latein/griechisches Alphabet (Dezember 1986)
    • Standard ECMA-121: 8-Bit-Single-Byte-codierte grafische Zeichensätze-Latein/hebräisches Alphabet 2. Ausgabe (Dezember 2000)
    • Standard ECMA-128: 8-Bit-Single-Byte-codierte grafische Zeichensätze-Lateinisches Alphabet Nr. 5 2. Ausgabe (Dezember 1999)
    • Standard ECMA-144: 8-Bit-Single-Byte-codierte Zeichensätze-Lateinisches Alphabet Nr. 6 3. Ausgabe (Dezember 2000)
  • ISO/IEC 8859-1 nach Unicode Mapping -Tabellen Als Klartextdateien befinden sich am UNICODE FTP -Standort.
  • Informelle Beschreibungen und Codediagramme für die meisten ISO/IEC 8859 -Standards sind in verfügbar ISO/IEC 8859 Alphabetsuppe (Spiegel)