Mik (Zeichensatz)
Mik (Мик) ist ein 8-Bit kyrillisch Codepage benutzt mit DOS. Es basiert auf dem im Bulgarischen verwendeten Charaktersatz Pravetz 16[1] IBM PC Compatible System. Kermit Ruft diesen Zeichensatz auf "Bulgarien-PC" /"Bulgarien-PC".[2][3][4] In Bulgarien wurde es manchmal falsch bezeichnet als Code Seite 856 (die mit der Definition von IBM für eine hebräische Code -Seite zusammenstößt). Diese Code -Seite ist von bekannt durch Freedos wie Code Seite 3021.
Dies ist die am weitesten verbreitete DOS/OEM Code -Seite verwendet in Bulgarien, statt CP 808, CP 855, CP 866 oder CP 872.
Fast jedes DOS -Programm, das in Bulgarien erstellt wurde, das bulgarische Saiten enthält, verwendete Mike als Codierung, und viele dieser Programme sind noch verwendet.
Zeichensatz
Jedes Zeichen wird mit seinem Äquivalent gezeigt Unicode Codepunkt und sein Dezimalcodepunkt. Nur die zweite Hälfte der Tabelle (Codepunkte 128–255) wird angezeigt, die erste Hälfte (Codepunkte 0–127) ist dieselbe wie ASCII.
Mik[5][6][4] | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | EIN | B | C | D | E | F | |
8x | А | Б | В | Г | Д | Е | Ж | З | И | Й | К | Л | М | Н | О | П |
9x | Р | С | Т | У | Ф | Х | Ц | Ч | Ш | Щ | Ъ | Ы | Ь | Э | Ю | Я |
Axt | а | б | в | г | д | е | ж | з | и | й | к | л | м | н | о | п |
BX | р | с | т | у | ф | х | ц | ч | ш | щ | ъ | ы | ь | э | ю | я |
CX | └ | ┴ | ┬ | ├ | ─ | ┼ | ╣ | ║ | ╚ | ╔ | ╩ | ╦ | ╠ | ═ | ╬ | ┐ |
Dx | ░ | ▒ | ▓ | │ | ┤ | № | § | ╗ | ╝ | ┘ | ┌ | █ | ▄ | ▌ | ▐ | ▀ |
Ex | α | ß[NB 1] | Γ | π | Σ[NB 2] | σ | µ[NB 3] | τ | Φ | Θ | Ω[NB 4] | δ | ∞ | φ | ε[NB 5] | ∩ |
Fx | ≡ | ± | ≥ | ≤ | ⌠ | ⌡ | ÷ | ≈ | ° | ∙ | · | √ | ⁿ | ² | ■ | NBSP |
Hinweise für Implementierer von Mapping -Tabellen zu Unicode
Implementierer von Mapping -Tabellen zu Unicode sollten beachten, dass die MIK -Codeseite sich vereint Einige Charaktere:
- ^ 0xe1 ist beide der Deutsche scharfes S (U+00DF, ß) und der griechische Kleinbuchstaben Beta (U+03b2, β);
- ^ 0xe4 ist beide der N-Ary-Summierungszeichen (U+2211, ∑) und das griechische Großbuchstaben Sigma (U+03A3, σ);
- ^ 0xe6 ist beide der Mikrozeichen (U+00B5, µ) und der griechische Kleinbuchstaben mu (U+03BC, μ);
- ^ 0xea ist beide der Ohm Zeichen (U+2126, ω) und das griechische Großbuchstaben Omega (U+03A9, ω);
- ^ 0xee ist beide der Element von Zeichen (U+2208, ∈) und der griechische Kleinbuchstaben Epsilon (U+03b5, ε)!
Binäre Charaktermanipulationen
Das Mik Die Code -Seite wird in alphabetischer Reihenfolge alle kyrillischen Buchstaben verwaltet, die eine sehr einfache Manipulation in Binärform ermöglichen:
10xx xxxx - ist ein kyrillischer Buchstaben
100x xxxx - ist ein kyrillischer Buchstaben in oberer Kasse
101x xxxx - ist ein kyrillischer Buchstaben mit niedrigerem Fall
In Falltests und Charaktermanipulationen wie:
ISalpha (), isupper (), islower (), toupper () und tolower (),
Bit Operations und Sortierung sind durch einfachen Vergleich der Charakterwerte.
Siehe auch
Verweise
- ^ "Pravetz 16". Archiviert vom Original am 2016-12-06. Abgerufen 2016-12-06.
- ^ Da Cruz, Frank (2010-04-02). "Kermit und MIME-Charakter-Set-Namen". Das Kermit -Projekt. Universität von Columbia, New York, USA. Archiviert vom Original am 2016-12-03. Abgerufen 2016-12-02.
- ^ "Kermit 95 - Cyrillic Character Sets".
- ^ a b http://www.columbia.edu/kermit/ftp/charets/cp856.txt[Bare URL -Klartextdatei]
- ^ Czyborra, Roman (1998-11-30) [1998-05-25]. "Die kyrillische Charset -Suppe". Archiviert vom Original am 2016-12-03. Abgerufen 2016-12-03. [1] [2]
- ^ Hohlov, yu. E. "Cyrillic Information Repräsentation in elektronischer Form - Zeichensatz (Code -Seite) Tabellen". Archiviert vom Original am 2016-12-05. Abgerufen 2016-12-05.
Externe Links
- https://www.unicode.org/public/mappings/vendors/ibm/ibm_conversions.html Die Zuordnungen von Unicode Consortium zwischen den Codeseiten von IBM und Unicode
- http://www.cl.cam.ac.uk/~mgk25/unicode.html#conv UTF-8 und UNICODE FAQ für UNIX/Linux von Markus Kuhn