MARC-8

Das Marc-8 Charset ist a Marc Standard benutzt in Marc-21 Bibliotheksaufzeichnungen.[1] Die MARC-Formate sind Standards für die Darstellung und Kommunikation von bibliografischen und verwandten Informationen in maschinellem lesbarem Form und werden häufig in verwendet Bibliotheksdatenbanksysteme. Das Zeichenkodierung Jetzt als Marc-8 bekannt, wurde 1968 als Teil des MARC-Formats eingeführt. Ursprünglich basierend auf der Lateinisches Alphabetvon 1979 bis 1983 die Jackphy Die Initiative erweiterte das Repertoire um japanische, arabische, chinesische und hebräische Charaktere (unter anderem) mit der späteren Zugabe von kyrillischen und griechischen Skripten. Wenn ein Charakter in MARC-8 eines MARC-21-Datensatzes nicht dargestellt ist, dann dann UTF-8 muss stattdessen verwendet werden. UTF-8 unterstützt viel mehr Zeichen als Marc-8, was selten außerhalb der Bibliotheksdaten verwendet wird.

Technische Details

Marc-8 verwendet eine Variante der ISO-2022 Codierung. Es verwendet Fluchtzeichen, um Zeichen jenseits des 7-Bit darzustellen ASCII Zeichenbereich.

Es verwendet im Allgemeinen die gleiche logische Bidi Bestellung als Unicode.

Die kombinierten Zeichen und Basiszeichen sind in einer anderen Reihenfolge als in Unicode verwendet. Das Folgende sind einige Beispiele. Die kombinierenden Zeichen werden nicht immer in umgekehrter Reihenfolge als Unicode -Normalisierung. Der MARC-21-Standard beschreibt die MARC-8-Unicode-Konvertierungsprobleme ausführlicher.

Angezeigt

Charakter

Unicode

NFD

Marc-8
a a a
a a a

Codestruktur

Das ISO/IEC 2022 Die Codierung gibt eine zweischichtige Zuordnung zwischen Zeichencodes und angezeigten Zeichen an. In MARC-8 werden Zeichencodes aus dem 7-Bit-ASCII-Grafikbereich (0x20–0x7f) als "G0" -Codes bezeichnet, während Codes aus dem Bereich "High ASCII" (0xa0–0xff) als "G1" bezeichnet werden "Codes. Grafische Zeichensätze werden mithilfe einer mehrfach aus dem Escape -Zeichen bestehenden Mehrfach -Byte -Fluchtsequenz bezeichnet und aufgerufen I F.

Die folgende Tabelle zeigt das mittlere Byte nach dem ESC -Byte (Hexadezimal 1b) und den entsprechenden ASCII -Zeichen.

Zwischenbytes[2]
G0 -Set G1 -Set
SBCS MBCs SBCS MBCs
Normale ISO-2022 28 ( 24 $ 29 )) 24 29 $)
Alternative ISO-2022 (zusätzliche 63+16-Sätze) 2c Anwesend 24 2c $,, 2d - 24 2d $-

Die folgende Tabelle zeigt die endgültigen Bytes in Hexadezimal und die entsprechenden ASCII -Zeichen nach den Zwischenbytes.

Letzte Bytes[3]
Bytes Figuren Name Typ Kommentar
31 1 Chinesisch, Japanisch, Koreanisch (EACC)) MBCs
32 2 Basic Hebräisch SBCS
33 3 Grundlegendes Arabisch SBCS
34 4 Erweitertes Arabisch SBCS
42 B Grundlatein (ASCII)) SBCS
21 45 ! E Verlängerter lateinischer (Ansel)) SBCS Der 21 (Hex) ist technisch gesehen ein zweites Byte des Zwischensegments dieser Fluchtsequenz.
4e N Grundkyrillisch SBCS
51 Q Erweiterte kyrillisch SBCS
53 S Grundgriechisch SBCS

Das EACC ist die einzige Multibyte-Codierung von Marc-8, es codiert jeweils CJK Charakter in drei ASCII -Bytes.

Zum Beispiel, um das U+4EBA CJK -Zeichen (人) zu codieren, benötigen Sie die folgenden Bytes

 \ x1b \ x24 \ x31 \ x21 \ x30 \ x64

Das \ x1b \ x24 \ x31 wechselt zu EACC/CJK, und der \ x21 \ x30 \ x64 entspricht der U+4EBA.

Benutzerdefinierte Set -Erweiterung

Zusätzlich zu den ISO-2022-Zeichensätzen sind auch die folgenden benutzerdefinierten Sets verfügbar. Die Byte -Bezeichnung folgt dem Flucht -Byte (Hexadezimal 1B). Es gibt kein mittleres Byte.

Letzte Bytes[4]
Bytes Figuren Name Typ Kommentar
62 b Indexsatz SBCS
67 g Griechisches Symbol gesetzt SBCS Die Alpha-, Beta- und Gamma -Zeichen sind normalerweise nicht die Karte der Reise zu Unicode.
70 p Superscript -Set SBCS
73 s Grundlatein (ASCII)) SBCS

Verweise

  1. ^ "Charaktersätze: Einführung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)". Kongressbibliothek.
  2. ^ "Charaktersätze: Marc-8-Codierungsumgebung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)" ". Kongressbibliothek.
  3. ^ "Charaktersätze: Marc-8-Codierungsumgebung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)" ". Kongressbibliothek.
  4. ^ "Charaktersätze: Marc-8-Codierungsumgebung: MARC 21 Spezifikationen für Datensatzstruktur, Charaktersätze und Exchange Media (Library of Congress)" ". Kongressbibliothek.

Externe Links