ISO/IEC 8859-1

ISO/IEC 8859-1: 1998
Latin-1-infobox.svg
ISO/IEC 8859-1 Code-Seitenlayout
Mime / Iana ISO-8859-1
Alias ​​(e) ISO-IR-100, CSISOLATIN1, LATIN1, L1, IBM819, CP819
Sprachen) Englisch, verschiedene andere
Standard ISO/IEC 8859
Einstufung Erweiterte ASCII, ISO/IEC 8859
Erweitert US-Ascii
Bezogen auf Dec MCS
gefolgt von
Andere verwandte Kodierungen (en) Brascii

ISO/IEC 8859-1: 1998, Informationstechnologie - 8 Bit Single-Byte Codierte Grafik Charakter Sets - Teil 1: Lateinisches Alphabet Nr. 1, ist Teil von ISO/IEC 8859 eine Reihe von ASCII-Basierend Standard Charaktercodierungen, Erstausgabe 1987 veröffentlicht. ISO/IEC 8859-1 codiert das, was es als "lateinisches Alphabet Nr. 1" bezeichnet, bestehend aus 191 Figuren von dem Lateinisches Skript. Dieses Charakterkodierschema wird im gesamten Bereich verwendet Amerika, Westeuropa, Ozeanienund vieles von Afrika. Es ist die Grundlage für einige beliebte 8-Bit-Charaktersätze und die ersten beiden Zeichenblöcke in Unicode.

ISO-8859-1 war (zumindest nach Standard) die Standardcodierung von Dokumenten, die über geliefert wurden Http mit einer Mime Typ Beginnend mit "Text/" (HTML5 veränderte dies in Windows-1252).[1][2] Ab Juli 2022, 1,2% von allen (aber nur 5 der Top 1000[3]) Websites verwenden ISO/IEC 8859-1.[4][5] Es ist das Meiste erklärt Single-Byte-Charakter-Codierung in der Welt im Web, aber als Webbrowser als Superset interpretieren Windows-1252 Die Dokumente können Zeichen aus diesem Satz enthalten.

Abhängig vom Land kann die Verwendung viel höher sein als der globale Durchschnitt, z. für Deutschland mit 4,3% (und einschließlich Windows-1252 mit 4,6%).[6][7]

ISO-8859-1 war die Standardcodierung der Werte bestimmter beschreibender HTTP Html3.2 Dokumente und werden nach vielen anderen Standards angegeben. Es wird manchmal angenommen Microsoft Windows (und Unix) Wenn es keine gibt Byte -Bestellmarke (Bom); Dies wird nur allmählich in geändert UTF-8.

ISO-8859-1 ist der Iana bevorzugter Name für diesen Standard, wenn er mit dem ergänzt wird C0- und C1 -Kontrollcodes aus ISO/IEC 6429. Die folgenden anderen Aliase sind registriert: ISO-IR-100, csisolatin1, Latein1, L1, IBM819. Code Seite 28591 a.k.a. Windows-28591 wird dafür in Windows verwendet.[8] IBM nennt es Code Seite 819 oder CP819 (Ccsid 819).[9][10][11][12] Orakel nennt es WE8ISO8859P1.[13]

Berichterstattung

Jedes Zeichen wird als einzelner Acht-Bit-Codewert codiert. Diese Codewerte können in nahezu jedem Datenaustauschsystem verwendet werden, um in den folgenden Sprachen zu kommunizieren (während es möglicherweise korrekt ausschließt Anführungszeichen wie für viele Sprachen, einschließlich Deutsch und Isländisch):

Moderne Sprachen mit vollständiger Berichterstattung

Anmerkungen
  1. ^ Grundlegende klassische Orthographie
  2. ^ Rumi Drehbuch
  3. ^ Bokmål und Nynorsk
  4. ^ Europäer und Brasilianer

Sprachen mit unvollständiger Berichterstattung

ISO-8859-1 wurde üblicherweise für bestimmte Sprachen verwendet, obwohl es keine Zeichen gibt, die von diesen Sprachen verwendet werden. In den meisten Fällen fehlt nur wenige Buchstaben oder sie werden selten verwendet, und sie können durch Zeichen ersetzt werden, die in ISO-8859-1 verwendet werden Typografische Näherung. In der folgenden Tabelle werden solche Sprachen aufgeführt.

Sprache Fehlende Zeichen Typische Problemumgehung Unterstützt durch
katalanisch Ŀ, ŀ (veraltet) Ll·
dänisch Ǿ, ǿ (der Akzent ist optional und ǿ ist sehr selten) Ø, Ø oder Øe
Niederländisch IJ, ij (aber mit fragwürdig Status); j́ in betonten Worten wie "Blíj́f" Digraphen Ij, ij; Blíjf
estnisch Š, s, Ž, ž (nur in Lehnwörtern vorhanden) Sh, sh, zh, zh ISO-8859-15, Windows-1252
finnisch Š, s, Ž, ž (nur in Lehnwörtern vorhanden) Sh, sh, zh, zh ISO-8859-15, Windows-1252
Französisch Œ, und das sehr seltene Ÿ Digraphen Oe, oe; Y oder ý ISO-8859-15, Windows-1252
Deutsch (Kapital ß, nur in allen Hauptstädten verwendet; 2017 in der offiziellen Orthographie enthalten, noch optional) Digraph Ss
ungarisch Ő, Ö, Ű, ű Ö, Ö, ü, ü
Õ, Ö, Û, û (die Charakter -CodePoints ersetzt in ISO/IEC 8859-2)
ISO/IEC 8859-2, Windows-1250
irisch (Traditionelle Orthographie) Ḃ, ḃ, ċ, ċ, ḋ, ḋ, ḟ, ḟ, ġ, ġ, ṁ, ṁ, ṗ, ṗ, ṡ, ṡ, ṫ, ṫ ṫ, ṫ BH, BH, CH, CH, DH, DH, FH, FH, GH, GH, MH, MH, PH, PH, SH, Sh, Th, Th, Th, th ISO-8859-14
Walisisch , ẁ, ẁ, , ẃ, ẃ, Ŵ, ŵ, ŵ, , ẅ, ẅ, , ỳ, ỳ, Ŷ, ŷ, ŷ, Ÿ W, w, y, y, ý, ý ISO-8859-14

Der Buchstabe ÿ, was nur sehr selten in Französisch erscheint, hauptsächlich in Städterennamen wie L'a Haven-Les-Rosen Und niemals zu Beginn von Wörtern ist nur in Kleinbuchstaben enthalten. Der Schlitz, der seiner Großbuchstaben entspricht ß aus der deutschen Sprache, die keine hatte Großbuchstaben Zu der Zeit, als der Standard erstellt wurde.

Anführungszeichen

Für einige oben aufgeführte Sprachen die richtige typografische Sprachen Anführungszeichen fehlen, wie nur « », " ", und ' ' sind inklusive. Außerdem sieht dieses Schema nicht orientierte (6- oder 9-förmige) einzelne oder doppelte Anführungszeichen vor. Einige Schriftarten zeigen den Abstandsgrabakzent (0x60) und den Apostroph (0x27) als passendes Paar orientierter einzelner Anführungszeichen an, dies wird jedoch nicht als Teil des modernen Standards angesehen.

Geschichte

ISO 8859-1 basierte auf dem Multinationaler Charaktersatz (MCS) verwendet von Digital Equipment Corporation (Dez) im Bevölkerung VT220 Terminal im Jahr 1983. Es wurde innerhalb der entwickelt Europäische Computerherstellervereinigung (ECMA) und im März 1985 als ECMA-94, veröffentlicht,[14] unter welchem ​​Namen ist es manchmal noch bekannt. Die zweite Ausgabe von ECMA-94 (Juni 1986)[15] ebenfalls enthalten ISO 8859-2, ISO 8859-3, und ISO 8859-4 als Teil der Spezifikation.

Der ursprüngliche Entwurf von ISO 8859-1 platzierte Französisch Œ und œ an den Codepunkten 215 (0xd7) und 247 (0xf7) wie in den MCs. Der Delegierter aus Frankreich, der weder Sprachwissenschaftler noch Typografen ist Ligaturen (wie oder ), unterstützt vom Delegierten -Team von Bull Publishing Company, das regelmäßig Französisch mit nicht gedruckt hat Œ/œ in ihrem Hausstil zu dieser Zeit. Ein anglophoner Delegierter aus Kanada bestand darauf, beibehalten zu werden Œ/œ wurde aber vom französischen Delegierten und dem Team von Bull zurückgewiesen. Diese Codepunkte wurden bald mit × und ÷ unter dem Vorschlag der deutschen Delegation gefüllt. Die Unterstützung für Französisch wurde weiter reduziert, als erneut fälschlicherweise angegeben wurde, dass der Brief ÿ ist "nicht französisch", was zur Abwesenheit der Hauptstadt führt Ÿ. In der Tat der Brief ÿ wird in einer Reihe französischer Eigennamen gefunden, und das Großbuchstaben wurde in Wörterbüchern und Enzyklopädien verwendet.[16] Diese Zeichen wurden hinzugefügt zu hinzugefügt zu ISO/IEC 8859-15: 1999. Brascii entspricht dem ursprünglichen Entwurf.

1985,, Kommodore ECMA-94 für seine Neue angenommen Amigaos Betriebssystem.[17] Der mit dem Amiga 1000 verwendete Seikosha MP-1300AI Impact Dot-Matrix-Drucker enthielt diese Codierung.

Im Jahr 1990 die allererste Version von Unicode verwendeten die Codepunkte von ISO-8859-1 als die ersten 256 Unicode-Codepunkte.

Im Jahr 1992 die Iana Registrierte die Zeichenkarte ISO_8859-1: 1987, häufiger durch seine bevorzugten bekannt MIME Name von ISO-8859-1 (Beachten Sie den zusätzlichen Bindestrich über ISO 8859-1), ein Superset von ISO 8859-1, für die Verwendung auf dem Internet. Diese Karte weist die zu C0- und C1 -Kontrollcodes Zu den nicht zugewiesenen Codewerten liefert so 256 Zeichen über jeden möglichen 8-Bit-Wert.

Code -Seitenlayout

ISO/IEC 8859-1
0 1 2 3 4 5 6 7 8 9 EIN B C D E F
0x
1x
2x Sp ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
8x
9x
Axt NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SCHÜCHTERN ® ¯
BX ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
CX À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
Dx Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
Ex à á â ã ä å æ ç è é ê ë ì í î ï
Fx ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
 Nicht definiert
 Symbole und Zeichensetzung
 Undefiniert in der ersten Veröffentlichung von ECMA-94 (1985).[14] Im ursprünglichen Entwurf wurde œ bei 0xd7 und œ bei 0xf7.

Ähnliche Zeichensätze

ISO/IEC 8859-15

ISO/IEC 8859-15 wurde 1999 als Update von ISO/IEC 8859-1 entwickelt. Es liefert einige Charaktere für französischen und finnischen Text und die Eurozeichen, die bei ISO/IEC 8859-1 fehlen. Dies erforderte die Entfernung einiger selten verwendeter Zeichen aus ISO/IEC 8859-1, einschließlich Bruchsymbole und Buchstabenfreier Diakritik: ¤, ¦, ¨, ´, ¸, ¼, ½, und ¾. Ironischerweise drei der neu hinzugefügten Charaktere (Œ, œ, und Ÿ) war bereits in anwesend gewesen in Dez1983 Multinationaler Charaktersatz (MCS), der Vorgänger von ISO/IEC 8859-1 (1987). Da ihre ursprünglichen Codepunkte jetzt für andere Zwecke wiederverwendet wurden, mussten die Zeichen unter verschiedenen, weniger logischen Codepunkten wieder eingeführt werden.

ISO-IR-204, eine geringere Modifikation, wurde 1998 registriert, was ISO-8859-1 veränderte, indem er die ersetzt wurde Universelles Währungszeichen (¤) mit dem Eurozeichen[18] (Die gleiche Substitution durch ISO-8859-15).

Windows-1252

Der populäre Windows-1252 Der Zeichensatz fügt alle fehlenden Zeichen hinzu ISO/IEC 8859-15, plus eine Reihe typografischer Symbole, indem die selten verwendeten C1 -Steuerelemente im Bereich 128 bis 159 ersetzt werden (verhexen 80 bis 9f). Es ist sehr häufig, den Windows-1252-Text als in ISO-8859-1 zu fällen. Ein häufiges Ergebnis war, dass alle Zitate und Apostrophes (produziert von "intelligenten Zitaten" in der Wortverarbeitungssoftware) durch Fragenmarkierungen oder Felder auf Nicht-Windows-Betriebssystemen ersetzt wurden, wodurch Text schwierig zu lesen ist. Viele Webbrowser und E-Mail-Clients interpretieren ISO-8859-1 Steuercodes als Windows-1252-Zeichen, und dieses Verhalten wurde später in standardisiert HTML5.[19]

Mac Roman

Das Apple Macintosh Der Computer führte eine Charaktercodierung ein, die genannt wurde Mac Roman 1984. Es sollte für Westeuropäer geeignet sein Desktop-Publishing. Es ist ein Superset von ASCIIund hat die meisten Charaktere, die sich in ISO-8859-1 und allen zusätzlichen Zeichen von Windows-1252, aber in einer völlig anderen Anordnung befinden. Die wenigen druckbaren Zeichen, die sich in ISO/IEC 8859-1, aber nicht in diesem Satz befinden Internet Explorer für Mac.

Sonstiges

Dos hatte Code Seite 850, die alle druckbaren Zeichen hatten, die ISO-8859-1 hatte (wenn auch in einer völlig anderen Anordnung) und die am häufigsten verwendeten Grafische Zeichen aus Code Seite 437.

Zwischen 1989[20] und 2015, Hewlett Packard benutzte ein weiteres Superet von ISO-8859-1 für viele ihrer Taschenrechner. Dieser proprietäre Charaktersatz wurde manchmal auch einfach als "ECMA-94" bezeichnet.[20]

Siehe auch

Verweise

  1. ^ "Codierungsstandard". coding.spec.whatwg.org.
  2. ^ "HTML Standard". html.spec.whatwg.org.
  3. ^ "Verwendungsumfrage über Charaktercodierungen durch Rangliste". w3techs.com. Abgerufen 2022-07-01.
  4. ^ "Historische Trends in den Nutzungsstatistiken von Charaktercodierungen für Websites, März 2022". w3techs.com. Abgerufen 2022-03-30.
  5. ^ "Quelle der Charaktercodierungsstatistiken?". w3techs.com.
  6. ^ "Verteilung von Charaktercodierungen auf Websites, die .DE verwenden". w3techs.com. Abgerufen 2022-07-01.
  7. ^ "Verteilung von Charaktercodierungen auf Websites, die Deutsch verwenden". w3techs.com. Abgerufen 2022-01-24.
  8. ^ "Code -Seiten -Identifikatoren". Microsoft Corporation. Abgerufen 2010-12-19.
  9. ^ "Code Seite 819 Informationsdokument". Archiviert von das Original Am 2017-01-16.
  10. ^ "CCSID 819 Informationsdokument". Archiviert von das Original am 2016-03-27.
  11. ^ Code Seite CPGID 00819 (PDF) (PDF), IBM
  12. ^ Code Seite CPGID 00819 (TXT), IBM
  13. ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Gesetz, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. "Anhang A: Gebietsschemasdaten". Oracle9i -Datenbank Globalisierung Support Guide (PDF) (Release 2 (9.2) ed.). Oracle Corporation. Oracle A96529-01. Archiviert (PDF) vom Original am 2017-02-14. Abgerufen 2017-02-14.
  14. ^ a b Standard ECMA-94: 8-Bit-Einzel-Byte-Coded Grafic-Zeichensatz (PDF) (1 ed.). Europäische Computerherstellervereinigung (ECMA). März 1985 [1984-12-14]. Archiviert (PDF) vom Original am 2016-12-02. Abgerufen 2016-12-01. […] Seit 1982 wurde die Dringlichkeit der Notwendigkeit eines 8-Bit-Single-Byte-Coded-Zeichensatzes in ECMA sowie in ANSI/X3L2 erkannt, und es wurden zahlreiche Arbeitspapiere zwischen den beiden Gruppen ausgetauscht. Im Februar 1984 wurde ECMA TC1 an ISO/TC97/SC2 ein Vorschlag für einen solchen codierten Zeichensatz eingereicht. Auf seiner Sitzung vom April 1984 beschloss SC, TC97 einen Vorschlag für ein neues Arbeitspunkt für dieses Thema zu unterwerfen. Technische Diskussionen während und nach diesem Treffen veranlassten TC1, das von X3L2 vorgeschlagene Codierungsschema zu übernehmen. Teil 1 des Entwurfs International Standard DTS 8859 basiert auf diesem gemeinsamen ANSI/ECMA -Vorschlag. […] Von der Generalversammlung vom 13. bis 14. Dezember 1984 als ECMA -Standard übernommen. […]
  15. ^ "Zweite Ausgabe von ECMA-94 (Juni 1986)" (PDF).
  16. ^ Jacques, André (1996). "ISO Latin-1, Norm de Codage des Caractères Européens? Trois Caractères Français en Sont abwesend!" (PDF). Cahiers Gutenberg (25): 65–77.
  17. ^ Malyshev, Michael (2003-01-10). "Registrierung von New Charset [Amiga-1251]". ATO -ru (Amiga -Übersetzungsorganisation - Russische Abteilung). Archiviert vom Original am 2016-12-05. Abgerufen 2016-12-05.
  18. ^ Die Standardisierung der Informationstechnologie (1998-09-16). ISO-IR 204: Ergänzende Set für Latin-1-Alternative mit Euro-Zeichen (PDF). Itcj/Ipsj.
  19. ^ Van Kesteren, Anne (27. Januar 2015). "5.2 Namen und Etiketten". Codierungsstandard. Waswg. Archiviert Aus dem Original am 4. Februar 2015. Abgerufen 4. Februar 2015.
  20. ^ a b HP 82240B Infrarotdrucker (1 ed.). Corvallis oder, USA: Hewlett Packard. August 1989. HP-Reordnummer 82240-90014. Abgerufen 2016-08-01.

Externe Links