OCR-A
Kategorie | Serifenlos |
---|---|
Designer (en) | Amerikanische Gründer |
In Autrag gegeben von | American National Standards Institute |
Datum veröffentlicht | 1968[1] |
Variationen | OCR-A erweitert |
Probe |
OCR-A ist ein Schriftart 1968 gegründet, in den frühen Tagen des Computers optische Zeichenerkennung, wenn es eine Schrift benötigte, die nicht nur von den Computern dieses Tages, sondern auch von Menschen erkannt werden konnte.[2] OCR-A verwendet einfache, dicke Striche, um erkennbare Zeichen zu bilden.[3] Die Schrift ist monospasiert (Festbreite) mit dem Drucker, der zum Platzieren von Glyphen erforderlich ist 0,254cm (0,10Abstand von Zoll) und der Leser, der einen Abstand zwischen dem Abstand annehmen musste 0,2286cm (0,09Zoll) und 0,4572cm (0,18Zoll).
Standardisierung
Die OCR-A-Schrift wurde durch die standardisiert American National Standards Institute (ANSI) als ANSI X3.17-1981. X3.4 ist seitdem der geworden Einschnitte und der OCR-A-Standard wird jetzt genannt ISO 1073-1: 1976. Es gibt auch einen deutschen Standard für OCR-A namens DIN 66008.[4]
Implementierungen
1968,, Amerikanische Gründer Produzierte OCR-A, eine der ersten Schriftkenntnisse der optischen Charaktere, die die Kriterien erfüllt, die vom US-amerikanischen Büro für Standards festgelegt wurden. Das Design ist einfach, damit es leicht von einer Maschine gelesen werden kann, aber es ist schwieriger für das menschliche Auge zu lesen.[5]
Als Metalltyp dem Computer-basierten Typensatz Platz machte, verwendete Tor Lillqvist Metafont Um die OCR-A-Schriftart zu beschreiben.[wenn?] Diese Definition wurde anschließend von Richard B. Wales verbessert. Ihre Arbeit ist bei verfügbar Ctan.[6]
Um die kostenlose Version der Schriftart für Benutzer von Microsoft Windows zugänglicher zu machen, konvertierte John Sauter die Metafont -Definitionen in die Definitionen TrueType Verwendung Potrace und Schriftart in 2004.[7] 2007 schuf Gürkan Sengün a Debian Paket aus dieser Implementierung.[8] Im Jahr 2008 korrigierte Luc Devroye die vertikale Positionierung in John Sauters Implementierung und fixierte den Namen des unteren Falles z.[9]
Unabhängig von Matthew Skala[10] gebrauchte mftrace[11] um die zu konvertieren Metafont Definitionen für das Truetype -Format im Jahr 2006. 2011 veröffentlichte er eine neue Version, die durch Umschreiben der Metafont -Definitionen erstellt wurde, um mit der Arbeit zu arbeiten Metatyp1Umrisse direkt ohne einen Zwischenverfolgungsschritt zu erzeugen. Am 27. September 2012 aktualisierte er seine Implementierung auf Version 0.2.[12]
Zusätzlich zu diesen kostenlosen Implementierungen von OCR-A werden auch Implementierungen von mehreren Anbietern verkauft. Als Witz, Tobias Frere-Jones 1995 schuf Estupido-Spezeial, eine Neugestaltung mit schwitzen und ein lange s. Es wurde in einem "Technologie" -Themenabschnitt von verwendet Rollender Stein.[13][14]
Verwenden
Obwohl die optische Charaktererkennungstechnologie bis zu dem Punkt vorgegangen ist, an dem solche einfachen Schriftarten nicht mehr erforderlich sind, ist es nicht mehr erforderlich,[15] Die OCR-A-Schrift ist geblieben. Seine Verwendung bleibt in der Kodierung von weit verbreitet Überprüfungen auf der ganzen Welt. Etwas Schließkasten Unternehmen bestehen weiterhin darauf, dass die Kontonummer und der Betrag, der in einem Rechnungsrückgabeformular geschuldet ist, in OCR-A gedruckt werden.[16] Aufgrund seines ungewöhnlichen Aussehens wird es manchmal in Werbe- und Anzeigegrafiken verwendet.
Bemerkenswerterweise wird es für die Untertitel in Filmen und Fernsehserien wie verwendet, z. Schwarze Liste und für die Haupttitel in Der Pretender. Zusätzlich wird OCR-A für die Filme verwendet Crimson Tide und 13 Stunden: Die geheimen Soldaten von Bengasi.
Codepunkte
Eine Schriftart ist eine Reihe von Charakterformen oder Glyphen. Damit ein Computer eine Schriftart verwendet, muss jeder Glyphe a zugewiesen werden a Codepunkt in einem Zeichensatz. Als OCR-A standardisiert wurde, war die übliche Charaktercodierung die Amerikanischer Standardcode für den Informationsaustausch oder ASCII. Nicht alle Glyphen von OCR-A passen in ASCII, und für fünf der Zeichen gab es alternative Glyphen, was möglicherweise darauf hindeutet, dass eine zweite Schriftart erforderlich ist. Aus Bequemlichkeit und Effizienz wurde jedoch von allen Glyphen erwartet, dass sie in einer einzelnen Schriftart unter Verwendung der ASCII -Codierung zugänglich sind, wobei die zusätzlichen Zeichen an Codierungspunkten platziert wurden, die sonst nicht verwendet worden wären.
Der moderne Nachkomme von ASCII ist Unicode, auch bekannt als ISO 10646. Unicode enthält ASCII und verfügt über spezielle Bestimmungen für OCR-Zeichen, sodass einige Implementierungen von OCR-A auf Unicode nach Anleitungen zu den Zulassungszuweisungen von Charaktercode gesucht haben.
Vor-Unicode-Standarddarstellung
Das ISO Standard ISO 2033: 1983 und die entsprechenden Japanischer Industriestandard JIS X 9010: 1984 (ursprünglich JIS C 6229-1984), Definieren von Charaktercodings für OCR-A, OCR-B und E-13b. Für OCR-A definieren sie einen modifizierten 7-Bit-ASCII-Set (auch bekannt durch seine ISO-IR Nummer ISO-IR-91) einschließlich nur Großbuchstaben, Ziffern, einer Untergruppe der Interpunktion und Symbole und einigen zusätzlichen Symbolen.[17] Codes, die relativ zu ASCII neu definiert werden, sind im Gegensatz zu einfach weggelassen: unten aufgeführt:
Charakter | Bild | Ort | In ASCII | Kommentare |
---|---|---|---|---|
£ | 0x23 | # | Matches BS 4730, die Variante Großbritanniens von ISO 646.[18] | |
{ | 0x28 | ( | Der Charaktername ist immer noch "linke Klammern", obwohl er eine Klammer zeigt. Der übliche ASCII -Code der linken Klammer 0x7b wird weggelassen.[17] | |
} | 0x29 | ) | Der Charaktername ist immer noch "richtige Klammern", obwohl er eine Klammer zeigt. Der übliche ASCII -Code der rechten Klammer 0x7d wird weggelassen.[17] | |
⑀ | 0x3c | < | ||
⑁ | 0x3e | > | ||
¥ | 0x5c | \ | Streichhölzer Jis x 0201. In JIS x 9010 enthalten, aber von ISO 2033 weggelassen.[17] | |
⑂ | 0x5d | ] |
Zusätzlich die lange vertikale Marke () wird bei 0x7c codiert, entsprechend dem vertikalen ASCII -Balken (|).[17]
Dedizierte OCR-A-Zeichen in Unicode
Die folgenden Zeichen wurden zu Kontrollzwecken definiert und befinden sich jetzt in der "Optische Charaktererkennung" Unicode -Bereich 2440–245f:
Name | Bild | Text | Unicode |
---|---|---|---|
OCR -Haken | ⑀ | U+2440 | |
OCR -Stuhl | ⑁ | U+2441 | |
OCR -Gabel | ⑂ | U+2442 | |
OCR Inverted Gabel | ⑃ | ⑃ | U+2443 |
OCR -Gürtelschnalle | ⑄ | ⑄ | U+2444 |
OCR Fliege | ⑅ | ⑅ | U+2445 |
Raum, Ziffern und nicht akzentuierte Buchstaben
Alle Implementierungen von OCR-A verwenden U+0020 für den Platz, U+0030 bis U+0039 für die Dezimalstellen, U+0041 bis U+005a für die nicht akzentuierten oberen Gehäuse und U+0061 bis U+007A für die nicht aktivierten Kleinbuchstaben.
Reguläre Charaktere
Zusätzlich zu den Ziffern und nicht akzentuierten Buchstaben haben viele der Zeichen von OCR-A offensichtliche Codepunkte in ASCII. Von denen, die nicht, einschließlich aller akzentuierten Briefe von OCR-A, haben in Unicode offensichtliche Codepunkte.
Name | Glyphe | Unicode |
---|---|---|
Ausrufezeichen | U+0021 | |
Anführungszeichen | U+0022 | |
Nummernschild | U+0023 | |
Dollarzeichen | U+0024 | |
Prozentzeichen | U+0025 | |
Et-Zeichen | U+0026 | |
Apostroph | U+0027 | |
Linke Klammern | U+0028 | |
Rechte Klammer | U+0029 | |
Sternchen | U+002a | |
Pluszeichen | U+002B | |
Komma | U+002C | |
Bindestrich-Minus | U+002d | |
Full Stop (Periode) | U+002E | |
Solidus (Schrägstrich) | U+002f | |
Doppelpunkt | U+003a | |
Semikolon | U+003B | |
Weniger als Zeichen | U+003c | |
Gleiches Zeichen | U+003d | |
Größer als Zeichen | U+003E | |
Fragezeichen | U+003f | |
Werbespot bei | U+0040 | |
Linksquadratische Klammer | U+005b | |
Reverse Solidus (Backslash) | U+005c | |
Rechte quadratische Klammer | U+005d | |
Circumflex -Akzent | U+005E | |
Links lockige Klammer | U+007B | |
Rechte lockige Klammer | U+007d | |
Pfundzeichen (Sterling) | U+00A3 | |
Yen Zeichen | U+00A5 | |
Lateinischer Großbuchstaben A mit Dieresis | U+00C4 | |
Lateinischer Großbuchstaben A mit Ring oben | U+00C5 | |
Lateinischer Großbuchstaben ae | U+00C6 | |
Lateinischer Großbuchstaben n mit Tilde | U+00D1 | |
Lateinischer Großbuchstaben O mit Dierese | U+00D6 | |
Lateinischer Großbuchstaben O mit Schlaganfall | U+00D8 | |
Lateinischer Großbuchstaben U mit Dieresis | U+00DC |
Verbleibende Zeichen
Linotyp[20] codierte die verbleibenden Zeichen von OCR-A wie folgt:
Name | Glyphe | Unicode | Unicode -Name |
---|---|---|---|
Lange vertikale Marke | U+007c | Vertikale Linie |
Zusätzliche Zeichen
Die Schriftarten, die von der Arbeit von Tor Lillqvist und Richard B. Wales absteigen, definieren vier Zeichen nicht in OCR-A, um das ASCII-Zeichen auszufüllen. Diese Formen verwenden den gleichen Stil wie die OCR-A-Charakterformen. Sie sind:
Name | Glyphe | Unicode |
---|---|---|
Niedrige Linie | U+005f | |
Gravis | U+0060 | |
Vertikale Linie | U+007c | |
Tilde | U+007E |
Linotyp definiert auch zusätzliche Zeichen.[21]
Ausnahmen
Einige Implementierungen verwenden nicht die oben genannten Codepunktzuweisungen für einige Zeichen.
Präzisionis
Die Präzisionsumsetzung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[22]
- OCR -Haken bei U+007E
- OCR -Stuhl bei U+00C1
- OCR -Gabel bei U+00C2
- Eurozeichen bei u+0080
Barcodesoft
Die Barcodesoft-Implementierung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[23][24]
- OCR -Haken bei U+0060
- OCR -Stuhl bei U+007E
- OCR -Gabel bei u+005f
- Lange vertikale Marke bei U+007C (stimmt mit Linotyp überein)
- Zeichenlöschung bei u+0008
Morovia
Die Morovia-Implementierung von OCR-A hat die folgenden nicht standardmäßigen Codepunkte:[25]
- OCR -Haken bei u+007e (stimmt mit präzisionsisch überein)
- OCR -Stuhl bei U+00F0
- OCR -Gabel bei U+005F (stimmt mit Barcodesoft überein)
- Lange vertikale Marke bei U+007C (stimmt mit Linotyp überein)
Idautomation
Die Implementierung von OCR-A IDAutomation hat die folgenden nicht standardmäßigen Codepunkte:[26]
- OCR -Haken bei u+007e (stimmt mit präzisionsisch überein)
- OCR -Stuhl bei U+00C1 (stimmt mit Präzision überein)
- OCR -Gabel bei u+00C2 (stimmt mit präzisionsisch überein)
- OCR -Gürtelschnalle bei U+00C3
Verkäufer von Schriftarten
- Hardcopy von ISO 1073-1: 1976, verteilt über ANSI, von Amazon.com
- ISO 1073-1 ist auch bei TechStreet erhältlich, der Standards für ANSI und ISO verteilt
Siehe auch
- Magnetische Tintenzeichenerkennung
- Optische Zeichenerkennung
- Westminster (Schrift), eine Schrift, die dem visuellen Erscheinungsbild von mic.
- OCR-B
Anmerkungen
- ^ Hintergrund auf der OCR-A-Schrift von Adobe
- ^ Motivation für OCR-A von Mikroskan
- ^ "Hintergrund zu OCR aus eingebetteter Software -Engineering". Archiviert von das Original Am 2016-09-17. Abgerufen 2012-09-01.
- ^ DIN 66008-1 Schrift A für optische Charaktererkennung; Charaktere und nominelle Dimensionen
- ^ Hintergrund auf OCR-A von Adobe
- ^ Die Metafont-Quellen für OCR-A von CTAN
- ^ John Sauts 2004 OCR-A-Schriftart aus diesen Metafont-Quellen
- ^ Das FONT-OCR-A DEBIAN
- ^ Luc Devroyes Bericht über seine Änderungen an John Sauters Umsetzung von OCR-A
- ^ Matthew Skalas Homepage
- ^ Das MFTrace Debian -Paket
- ^ Matthew Skalas 2012 OCR-A-Schriftart aus den Metafont-Quellen
- ^ Hoefler, Jonathan. "Zwei Narren". Hoefler & co. Abgerufen 18. September 2021.
- ^ "Technologie, Herbst '97". Rollender Stein. Nr. 774. 1997-11-27. p. 59.
- ^ "Die Geschichte der OCR". Datenverarbeitungsmagazin. 12: 46. 1970.
- ^ Beschreibung eines Lockbox -Dienstes, Hinweis: "Die Rechnung enthält eine Rechnung und eine Erklärung mit Patienteninformationen in einer scannbaren optischen Charaktererkennung (OCR). Die OCR -Linie ist ähnlich wie in einer Kreditkartenanweisung oder einer Telefonrechnung. "
- ^ a b c d e ISO/TC97/SC2 (1985-08-01). Japanisches OCR-A-Grafikzeichensatz (PDF). Itcj/Ipsj. ISO-IR-91.
- ^ BSI (1975-12-01). Der Satz grafischer Zeichen des 7-Bit-Datencode des Vereinigten Königreichs (PDF). Itcj/Ipsj. ISO-IR-4.
- ^ https://www.unicode.org/charts/pdf/u2440.pdf[Bare URL PDF]
- ^ OCR-A-Schriftart von Linotype: Wählen Sie die Zeichenkarte, um die Zeichen und deren Codierung anzuzeigen
- ^ OCR-A Extended-Schriftart von Linotype: Wählen Sie die Zeichenkarte und zeigen Sie dann alle an
- ^ Genauige Benutzerhandbuch für die präzisionische Implementierung der OCR-A-Schriftart
- ^ Informationsseite für die Barcode-Implementierung der OCR-A-Schriftart
- ^ Eine weitere Informationsquelle über die Barcode -Schriftarten
- ^ Informationsseite für die Morovia-Implementierung der OCR-A-Schriftart
- ^ Informationen