MARC-8
Das Marc-8 Charset ist a Marc Standard benutzt in Marc-21 Bibliotheksaufzeichnungen.[1] Die MARC-Formate sind Standards für die Darstellung und Kommunikation von bibliografischen und verwandten Informationen in maschinellem lesbarem Form und werden häufig in verwendet Bibliotheksdatenbanksysteme. Das Zeichenkodierung Jetzt als Marc-8 bekannt, wurde 1968 als Teil des MARC-Formats eingeführt. Ursprünglich basierend auf der Lateinisches Alphabetvon 1979 bis 1983 die Jackphy Die Initiative erweiterte das Repertoire um japanische, arabische, chinesische und hebräische Charaktere (unter anderem) mit der späteren Zugabe von kyrillischen und griechischen Skripten. Wenn ein Charakter in MARC-8 eines MARC-21-Datensatzes nicht dargestellt ist, dann dann UTF-8 muss stattdessen verwendet werden. UTF-8 unterstützt viel mehr Zeichen als Marc-8, was selten außerhalb der Bibliotheksdaten verwendet wird.
Technische Details
Marc-8 verwendet eine Variante der ISO-2022 Codierung. Es verwendet Fluchtzeichen, um Zeichen jenseits des 7-Bit darzustellen ASCII Zeichenbereich.
Es verwendet im Allgemeinen die gleiche logische Bidi Bestellung als Unicode.
Die kombinierten Zeichen und Basiszeichen sind in einer anderen Reihenfolge als in Unicode verwendet. Das Folgende sind einige Beispiele. Die kombinierenden Zeichen werden nicht immer in umgekehrter Reihenfolge als Unicode -Normalisierung. Der MARC-21-Standard beschreibt die MARC-8-Unicode-Konvertierungsprobleme ausführlicher.
Angezeigt Charakter | Unicode | Marc-8 |
---|---|---|
a | a | a |
a | a | a |
Codestruktur
Das ISO/IEC 2022 Die Codierung gibt eine zweischichtige Zuordnung zwischen Zeichencodes und angezeigten Zeichen an. In MARC-8 werden Zeichencodes aus dem 7-Bit-ASCII-Grafikbereich (0x20–0x7f) als "G0" -Codes bezeichnet, während Codes aus dem Bereich "High ASCII" (0xa0–0xff) als "G1" bezeichnet werden "Codes. Grafische Zeichensätze werden mithilfe einer mehrfach aus dem Escape -Zeichen bestehenden Mehrfach -Byte -Fluchtsequenz bezeichnet und aufgerufen I F.
Die folgende Tabelle zeigt das mittlere Byte nach dem ESC -Byte (Hexadezimal 1b) und den entsprechenden ASCII -Zeichen.
G0 -Set | G1 -Set | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCs | SBCS | MBCs | |||||
Normale ISO-2022 | 28 | ( | 24 | $ | 29 | )) | 24 29 | $) |
Alternative ISO-2022 (zusätzliche 63+16-Sätze) | 2c | Anwesend | 24 2c | $,, | 2d | - | 24 2d | $- |
Die folgende Tabelle zeigt die endgültigen Bytes in Hexadezimal und die entsprechenden ASCII -Zeichen nach den Zwischenbytes.
Bytes | Figuren | Name | Typ | Kommentar |
---|---|---|---|---|
31 | 1 | Chinesisch, Japanisch, Koreanisch (EACC)) | MBCs | |
32 | 2 | Basic Hebräisch | SBCS | |
33 | 3 | Grundlegendes Arabisch | SBCS | |
34 | 4 | Erweitertes Arabisch | SBCS | |
42 | B | Grundlatein (ASCII)) | SBCS | |
21 45 | ! E | Verlängerter lateinischer (Ansel)) | SBCS | Der 21 (Hex) ist technisch gesehen ein zweites Byte des Zwischensegments dieser Fluchtsequenz. |
4e | N | Grundkyrillisch | SBCS | |
51 | Q | Erweiterte kyrillisch | SBCS | |
53 | S | Grundgriechisch | SBCS |
Das EACC ist die einzige Multibyte-Codierung von Marc-8, es codiert jeweils CJK Charakter in drei ASCII -Bytes.
Zum Beispiel, um das U+4EBA CJK -Zeichen (人) zu codieren, benötigen Sie die folgenden Bytes
\ x1b \ x24 \ x31 \ x21 \ x30 \ x64
Das \ x1b \ x24 \ x31 wechselt zu EACC/CJK, und der \ x21 \ x30 \ x64 entspricht der U+4EBA.
Benutzerdefinierte Set -Erweiterung
Zusätzlich zu den ISO-2022-Zeichensätzen sind auch die folgenden benutzerdefinierten Sets verfügbar. Die Byte -Bezeichnung folgt dem Flucht -Byte (Hexadezimal 1B). Es gibt kein mittleres Byte.
Bytes | Figuren | Name | Typ | Kommentar |
---|---|---|---|---|
62 | b | Indexsatz | SBCS | |
67 | g | Griechisches Symbol gesetzt | SBCS | Die Alpha-, Beta- und Gamma -Zeichen sind normalerweise nicht die Karte der Reise zu Unicode. |
70 | p | Superscript -Set | SBCS | |
73 | s | Grundlatein (ASCII)) | SBCS |
Verweise
- ^ "Charaktersätze: Einführung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)". Kongressbibliothek.
- ^ "Charaktersätze: Marc-8-Codierungsumgebung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)" ". Kongressbibliothek.
- ^ "Charaktersätze: Marc-8-Codierungsumgebung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)" ". Kongressbibliothek.
- ^ "Charaktersätze: Marc-8-Codierungsumgebung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)" ". Kongressbibliothek.
Externe Links
- MARC 21 Spezifikationen für Rekordstruktur, Zeichensätze und Exchange Media - Der offizielle MARC-8-Standard, wie von der aufrechterhalten US -Kongressbibliothek