Windows-1252
Mime / Iana | Windows-1252[1] |
---|---|
Alias (e) | CP1252 (Codepage 1252) |
Sprachen) | Grundsätzlich alle unterstützt von ISO/IEC 8859-1 z.B. Englisch, Irisch, italienisch, norwegisch, portugiesisch, spanisch, schwedisch, deutsch, finnisch, isländisch, französisch, faroesisch, luxemburgisch, albanisch, estnisch, swahili, tswana, katalanisch, baske, excitan, römer ersetzt durch Ij/ÿ) und Slowene (außer der č Charakter, ersetzt durch durch ç). |
Erstellt von | Microsoft |
Standard | Waswg Codierungsstandard |
Einstufung | erweiterte ASCII, Windows-125x |
Erweitert | ISO 8859-1 (ohne C1 -Kontrollen) |
Transformationen / codiert | ISO 8859-15 |
Windows-1252 oder CP-1252 (Codepage 1252) ist ein Einzelbyte Zeichenkodierung des Lateinisches Alphabet, standardmäßig in der verwendet Erbe Komponenten von Microsoft Windows Für Englisch und viele europäische Sprachen, einschließlich Spanisch, Französisch und Deutsch.
Es ist die am häufigsten verwendete Single-Byte-Charakter-Codierung der Welt (auf Websites wenigstens). Ab Juli 2022[aktualisieren]0,3% aller Websites erklärten die Verwendung von Windows-1252,[2][3] aber gleichzeitig 1,2%[2] Gebraucht ISO 8859-1 (Während nur 4 der Top 1000 Websites[4]), was durch HTML5 Standards sollten als die gleiche Codierung angesehen werden,[5] so dass 1,5% der Websites Windows-1252 effektiv verwenden. Seiten als USA deklariert.ASCII würde auch als dieser Charakter zählen. Eine unbekannte (aber wahrscheinlich große) Teilmenge anderer Seiten verwendet nur den ASCII -Teil von UTF-8, oder nur die Codes, die Windows-1252 aus ihrem deklarierten Charakter-Set übereinstimmen, und konnten ebenfalls gezählt werden.
Abhängig vom Land kann die Verwendung viel höher sein als der globale Durchschnitt, z. Für Deutschland lautet die Nutzung der Website (einschließlich ISO-8859-1) bei 4,6%.[6][7]
Einzelheiten
Diese Charaktercodierung ist a Superset von ISO 8859-1 In Bezug auf druckbare Zeichen, unterscheidet sich jedoch von der ISO-8859-1 der IANA durch die Verwendung von Anzeigemzeichen anstelle von Charakteren in der 80 bis 9F (verhexen) Angebot. Bemerkenswerte zusätzliche Zeichen umfassen lockige Anführungszeichen und alle druckbaren Zeichen, in denen sich befinden ISO 8859-15 (an verschiedenen Stellen als ISO 8859-15). Es ist Windows von der Windows bekannt Codepage Nummer 1252 und nach der Iana-Genehmigter Name "Windows-1252".
Es ist sehr häufig, Windows-1252-Text mit dem Charset-Label ISO-8859-1 zu misklabel. Ein häufiges Ergebnis war, dass alle Zitate und Apostrophes (produziert von "intelligenten Zitaten" in der Wortverarbeitungssoftware) durch Fragenmarkierungen oder Felder auf Nicht-Windows-Betriebssystemen ersetzt wurden, wodurch Text schwierig zu lesen ist. Die meisten modernen Webbrowser und E-Mail-Kunden behandeln die Medientyp Charset ISO-8859-1 als Windows-1252, um ein solches Missbläschen aufzunehmen. Dies ist nun ein Standardverhalten in der HTML5-Spezifikation, für die die als ISO-8859-1 beworbenen Dokumente tatsächlich mit der Windows-1252-Codierung analysiert werden.[5]
Historisch gesehen wurde in Windows die Phrase "ANSI-Code-Seite" verwendet, um auf Nicht-DOS-Codierungen zu verweisen. Die Absicht war, dass die meisten davon sein würden Ansi Standards wie ISO-8859-1. Obwohl Windows-1252 die erste und mit Abstand beliebteste Code-Seite war, die in Microsoft Windows Parlance benannt wurde, war die Codeseite noch nie ein ANSI-Standard. Microsoft erklärt: "Der Begriff ANSI, der zur Anerkennung von Windows -Code -Seiten verwendet wird, ist eine historische Referenz, ist aber heutzutage eine Fehlbezeichnung, die weiterhin in der Windows -Community besteht."[8]
Im Latex Pakete, CP-1252 wird als "Ansinew" bezeichnet.
IBM Verwendet Code Seite 1252 (Ccsid 1252 und Eurozeichen Erweitert CCSID 5348) für Windows-1252.[9][10][11]
Es heißt "we8mswin1252" von Orakel.[12]
Codepage -Layout
Die folgende Tabelle zeigt Windows-1252. Unterschiede aus ISO-8859-1 habe den Unicode Codepunktnummer unter dem Zeichen, basierend auf der UNICODE.ORG-Zuordnung von Windows-1252 mit "Best Fit". Ein Tooltip, der im Allgemeinen nur verfügbar ist, wenn man auf die unmittelbare links vom Zeichen zeigt, zeigt den Unicode -Code -Punktnamen und den Dezimal ALT -Code.
Windows-1252 (CP1252)[13][14][15][16][17] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
0_ | Nul | Soh | Stx | ETX | Eot | Enq | Ack | Bel | BS | Ht | Lf | Vt | Ff | Cr | ALSO | Si |
1_ | Dle | DC1 | DC2 | DC3 | DC4 | Nak | Syn | ETB | KANN | Em | Sub | ESC | Fs | Gs | Rs | UNS |
2_ | Sp | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3_ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4_ | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5_ | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6_ | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7_ | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | Del |
8_ | € 20AC | ‚ 201a | ƒ 0192 | „ 201e | … 2026 | † 2020 | ‡ 2021 | ˆ 02c6 | ‰ 2030 | Š 0160 | ‹ 2039 | Œ 0152 | Ž 017d | |||
9_ | ‘ 2018 | ’ 2019 | “ 201c | ” 201d | • 2022 | – 2013 | — 2014 | ˜ 02dc | ™ 2122 | š 0161 | › 203a | œ 0153 | ž 017e | Ÿ 0178 | ||
EIN_ | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SCHÜCHTERN | ® | ¯ |
B_ | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C_ | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
D_ | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
E_ | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
F_ | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Nach den Informationen zu Microsoft- und Unicode -Konsortium -Websites sind die Positionen 81, 8D, 8F, 90 und 9D nicht verwendet. Die Windows -API Multibytetowidechar
ordnet diese dem entsprechenden ab C1 -Kontrollcodes. Das Mapping "Best Fit" dokumentiert auch dieses Verhalten.[13]
Geschichte
- Die erste Version des in Microsoft Windows 1.0 verwendeten Codepage 1252 enthielt nicht die Positionen D7 und F7. Alle Charaktere in den Bereichen 80–9F waren ebenfalls undefiniert.
- Die zweite Version, die in Microsoft Windows 2.0, die Position D7, F7, 91 und 92 verwendet wurde, wurde definiert.
- Die dritte Version, die seit Microsoft Windows 3.1 verwendet wurde, hatte alle heutigen Positionen definiert, außer dass Eurozeichen und Z mit Caron Charakterpaar.
- Die oben aufgeführte endgültige Version debütierte in Microsoft Windows 98 und wurde mit dem Euro -Symbol -Update auf ältere Windows -Versionen portiert.
OS/2 -Erweiterungen
Das OS/2 Das Betriebssystem unterstützt eine Codierung mit dem Namen von Code Seite 1004 (Ccsid 1004) oder "Windows Extended".[18][19] Dies stimmt meistens mit Code mit Seite 1252 überein, mit Ausnahme bestimmter bestimmter C0 -Steuerzeichen ersetzt durch diakritisch Figuren.
Code Seite 1004 (nur unterschiedliche Zeilen)[20][21][22][23] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
0_ | Nul | Soh | Stx | ETX | ˉ 02c9 | ˘ 02d8 | ˙ 02d9 | Bel | ˚ 02da | Ht | ˝ 02dd | ˛ 02db | ˇ 02c7 | Cr | ALSO | Si |
MSDOS -Erweiterungen [selten]
Es gibt eine selten verwendete, aber nützliche Grafik -Extended -Code -Seite 1252, wobei Codes 0x00 bis 0x1f eine Box -Zeichnung ermöglichen, wie in Anwendungen wie MSDOS -Bearbeiten und CodeView verwendet. Eine der Anwendungen für diese Code -Seite war ein Intel Corporation Installation/Recovery Disk image -Dienstprogramm von Mitte/Ende 1995. Diese Programme wurden für seine P6 -Benutzer -Testprogramm -Maschinen geschrieben (US -Beispiel[24]). Es wurde ausschließlich in seiner damaligen EMEA -Region (Europa, Naher Osten und Afrika) verwendet. Mit der Zeit wurden die Programme geändert, um sie zu verwenden Code Seite 850.
Grafik erweiterte Code Seite 1252 | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
0_ | ○ | ■ | ↑ | ↓ | → | ← | ║ | ═ | ╔ | ╗ | ╚ | ╝ | ░ | ▒ | ► | ◄ |
1_ | │ | ─ | ┌ | ┐ | └ | ┘ | ├ | ┤ | ┴ | ┬ | ♦ | ┼ | █ | ▄ | ▀ | ▬ |
Palm OS -Variante
Diese Variante von Windows-1252 wird von verwendet Palm os 3.5. Python gibt es das palmos
Etikett.[25] Unterschiede zu Windows-1252 haben ihren Unicode-Codepunkt.
PALM OS CODE -Seite[26] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
8_ | € | ‚ | ƒ | „ | … | † | ‡ | ˆ | ‰ | Š | ‹ | Œ | ♦ 2666 | ♣ 2663 | ♥ 2665 | |
9_ | ♠ 2660 | ‘ | ’ | “ | ” | • | – | — | ˜ | ™ | š | › | œ | Ÿ |
Siehe auch
Verweise
- ^ Zeichensätze, Internet zugewiesene Zahlen Autorität (IANA), 2018-12-12
- ^ a b "Historische Trends in den Nutzungsstatistiken von Charaktercodierungen für Websites, April 2022". w3techs.com. Abgerufen 2022-07-01.
- ^ "Häufige Fragen gestellt". w3techs.com.
- ^ "Verwendungsumfrage über Charaktercodierungen durch Rangliste". w3techs.com. Abgerufen 2022-02-27.
- ^ a b "Codierung". Waswg. 27. Januar 2015. Sec. 5.2 Namen und Etiketten. Archiviert Aus dem Original am 4. Februar 2015. Abgerufen 4. Februar 2015.
- ^ "Verteilung von Charaktercodierungen auf Websites, die .DE verwenden". w3techs.com. Abgerufen 2022-07-01.
- ^ "Verteilung von Charaktercodierungen auf Websites, die Deutsch verwenden". w3techs.com. Abgerufen 2022-01-24.
- ^ Wissink, Cathy (5. April 2002). "Unicode und Windows XP" (PDF). Microsoft. p. 1. Archiviert (PDF) Aus dem Original am 4. Februar 2015. Abgerufen 4. Februar 2015.
- ^ "Code Seite 1252 Informationsdokument". Archiviert von das Original Am 2016-03-03.
- ^ "CCSID 1252 Informationsdokument". Archiviert von das Original am 2016-03-26.
- ^ "CCSID 5348 Informationsdokument". Archiviert von das Original Am 2014-11-29.
- ^ "Datenbank -Client -Installationshandbuch". Orakel. Abgerufen 2021-02-14.
- ^ a b "Unicode-Zuordnungen von Windows-1252 mit" Best Fit "". Unicode. Archiviert Aus dem Original am 4. Februar 2015. Abgerufen 4. Februar 2015.
- ^ Code Seite CPGID 01252 (PDF) (PDF), IBM
- ^ Code Seite CPGID 01252 (TXT), IBM
- ^ Internationale Komponenten für Unicode (ICU), IBM-1252_P100-2000.UCM, 2002-12-03
- ^ Internationale Komponenten für Unicode (ICU), IBM-5348_P100-1997.UCM, 2002-12-03
- ^ "Code Seite 1004 Informationsdokument". Archiviert von das Original Am 2015-06-25.
- ^ "CCSID 1004 Informationsdokument". Archiviert von das Original am 2016-03-26.
- ^ "Code Seite 01004" (PDF). IBM. Archiviert von das Original (PDF) Am 2015-07-08. (Version basierend auf der Windows 3.1-Version von Windows-1252)
- ^ Code Seite CPGID 01004 (PDF) (PDF), IBM
- ^ Code Seite CPGID 01004 (TXT), IBM
- ^ Borgendale, Ken (2001). "Codepage 1004 - Windows Extended". OS/2 Codepages nach Nummer. Archiviert vom Original am 2018-05-13. Abgerufen 2018-05-13. (Version basierend auf der aktuellen Version von Windows-1252)
- ^ Storaasli, Olaf (1996). "Leistung der NASA -Gleichungslöser für Rechenmechanikanwendungen" (PDF). Leistung von NASA -Gleichungslöser bei Rechenmechanikanwendungen. NASA. doi:10.2514/6.1996-1505. S2CID 15711051. Archiviert von das Original (PDF) Am 2019-05-03.
- ^ "Codecs - Codec -Registrierung und Basisklassen (§ Textcodierungen)". Die Python Standard Library - Python 3.9.4 Dokumentation. Python Software Foundation.
- ^ Mullender, SJOERD (9. Dezember 2021). "Python Character Mapping Codec für Palm OS 3.5". Cpython Quellbaum. Python Software Foundation.
Externe Links
- Microsoft's Codediagramme für Windows-1252 ("Code Seite 1252 Windows Latin 1 (ANSI)"))
- Unicode -Mapping -Tabelle und Code -Seiten -Definition mit den besten Fit -Zuordnungen Für Windows-1252