Optische Zeichenerkennung
Optische Zeichenerkennung oder Optischer Charakterleser (OCR) ist der elektronisch oder mechanisch Umwandlung von Bilder von typisierten, handgeschriebenen oder gedruckten Text in maschinencodierten Text, sei es aus einem gescannten Dokument, einem Foto eines Dokument Bild (zum Beispiel: aus einer Fernsehsendung).[1]
Weit verbreitet als Form von Dateneingabe aus gedruckten Papierdatensätzen - ob Passdokumente, Rechnungen, Kontoauszüge, computergestützte Quittungen, Visitenkarten, Mails, Ausdrucke von statischer Daten oder eine geeignete Dokumentation-es ist eine gemeinsame Methode zur Digitalisierung von gedruckten Texten, damit sie elektronisch bearbeitet, gesucht, kompakter, online angezeigt und verwendet werden und verwendet werden können und verwendet werden können und verwendet werden. in maschinellen Prozessen wie z. Kognitiver Computing, Maschinenübersetzung, (extrahiert) Text zu Sprache, Schlüsseldaten und Textabbau. OCR ist ein Forschungsbereich in Mustererkennung, künstliche Intelligenz und Computer Vision.
Frühe Versionen mussten mit Bildern jedes Charakters trainiert und jeweils an einer Schriftart bearbeitet werden. Fortgeschrittene Systeme, die für die meisten Schriftarten ein hohes Maß an Erkennungsgenauigkeit erzeugen können, sind jetzt häufig und mit Unterstützung einer Vielzahl von Eingaben für digitale Bilddatei -Format.[2] Einige Systeme sind in der Lage, formatierte Ausgaben zu reproduzieren, die sich der Originalseite genau annähert, einschließlich Bildern, Spalten und anderen nicht-textuellen Komponenten.
Geschichte
Eine frühe optische Charaktererkennung kann auf Technologien zurückgeführt werden, die Telegraphie betreffen und Lesegeräte für Blinde erstellen.[3] Im Jahr 1914, Emanuel Goldberg entwickelte eine Maschine, die Zeichen las und sie in Standard -Telegraphencode umgewandelt hat.[4] Gleichzeitig entwickelte Edmund Fournier d'Albe die Optophon, ein Handheld -Scanner, der, wenn sie über eine gedruckte Seite bewegt wurden, Töne erzeugte, die bestimmten Buchstaben oder Zeichen entsprachen.[5]
In den späten 1920er Jahren und bis in die 1930er Jahre Emanuel Goldberg entwickelte, was er als "statistische Maschine" zur Suche nannte Mikrofilm Archive mit einem optischen Codeerkennungssystem. 1931 wurde ihm die US -Patentnummer 1.838.389 für die Erfindung gewährt. Das Patent wurde von erworben von IBM.
Blinde und visuell beeinträchtigte Benutzer
1974,, Ray Kurzweil begann das Unternehmen Kurzweil Computer Products, Inc. und Fortsetzung der Entwicklung von Omni-Schriftart OCR, der in praktisch jede Schriftart gedrucktem Text erkennen könnte (Kurzweil wird oft mit der Erfindung von Omni-Font OCR zugeschrieben, aber es wurde von Unternehmen, einschließlich Compuscan, Ende der 1960er und 1970er Jahre verwendet[3][6]). Kurzweil entschied, dass die beste Anwendung dieser Technologie darin besteht, eine Lesemaschine für Blinde zu erstellen, die es den Blinden ermöglichen würde, einen Computer -Text laut zu lesen. Dieses Gerät erforderte die Erfindung von zwei Aktivierungstechnologien - die CCD Flachbettscanner und der Text-zu-Sprach-Synthesizer. Am 13. Januar 1976 wurde das erfolgreiche fertige Produkt während einer weit verbreiteten Pressekonferenz unter der Leitung von Kurzweil und den Führungskräften des Nationale Föderation der Blinden. 1978 begannen Kurzweil -Computerprodukte mit dem Verkauf einer kommerziellen Version des Computerprogramms für optische Charaktere. Lexisnexis war einer der ersten Kunden und kaufte das Programm, um Rechtspapier und Nachrichtendokumente in seine aufstrebenden Online -Datenbanken hochzuladen. Zwei Jahre später verkaufte Kurzweil seine Firma an Xerox, was ein Interesse an der weiteren Vermarktung von Papier-zu-Computer-Textumwandlungen hatte. Xerox drehte es schließlich ab als Scansoft, was zusammengefügt mit Nuance -Kommunikation.
In den 2000er Jahren wurde OCR online als Service (Webocr) in a zur Verfügung gestellt Cloud Computing Umgebung und in mobilen Anwendungen wie Echtzeitübersetzung von Schildern ausländischer Sprache auf a Smartphone. Mit dem Aufkommen von Smart-Phones und Smartglass, OCR kann in Anwendungen mit im Internet verbundenen mobilen Geräten verwendet werden, die mithilfe der Kamera des Geräts Text extrahieren. Diese Geräte, bei denen keine OCR -Funktionalität in das Betriebssystem integriert ist API Um den Text aus der vom Gerät erfassten und bereitgestellten Bilddatei zu extrahieren.[7][8] Die OCR-API gibt den extrahierten Text zusammen mit Informationen zum Standort des erkannten Textes im Originalbild zurück zur Geräte-App zurück zur weiteren Verarbeitung (z. B. Text-zu-Sprache) oder Anzeige.
Verschiedene kommerzielle und Open -Source -OCR -Systeme sind für am häufigsten verfügbar Schreibsysteme, einschließlich lateinischer, kyrillischer, arabischer, hebräischer, indic, bengali (bangla), devanagari, tamilisch, chinesischer, japanischer und koreanischer Charaktere.
Anwendungen
OCR-Motoren wurden zu vielen Arten von domänenspezifischen OCR-Anträgen wie Quittung OCR, Rechnungs-OCR, Überprüfung der OCR und legalen Abrechnungsdokument OCR entwickelt.
Sie können verwendet werden für:
- Dateneingabe Für Geschäftsdokumente, z. Überprüfen, Pass, Rechnung, Bankaussage und Quittung
- Automatische Zahlenplattenerkennung
- Auf Flughäfen, für die Reiseanerkennung und Informationsextraktion
- Automatische Versicherungsdokumente Schlüsselinformationsextraktion
- Verkehrszeichenerkennung[9]
- Extrahieren von Visitenkarteninformationen in eine Kontaktliste[10]
- Erstellen Sie schneller Textversionen von gedruckten Dokumenten, z. Buchscannen zum Projekt Gutenberg
- Machen Sie elektronische Bilder von gedruckten Dokumenten durchsuchbar, z. Google Bücher
- Konvertieren der Handschrift in Echtzeit, um einen Computer zu steuern (Pen Computing)
- Besiegen Captcha Anti-Bot-Systeme, obwohl diese speziell zur Verhinderung von OCR ausgelegt sind.[11][12][13] Der Zweck kann auch sein, die Robustheit von Captcha-Anti-Bot-Systemen zu testen.
- Hilfstechnologie für blinde und sehbehinderte Benutzer
- Schreiben Sie die Anweisungen für Fahrzeuge durch Identifizierung von CAD -Bildern in einer Datenbank, die dem Fahrzeugdesign angemessen sind, wenn sie sich in Echtzeit ändert.
- Durchsuchbare gescannte Dokumente durch Konvertieren in durchsuchbare PDFs
Typen
- OPTICAL CHARABE Kennung (OCR) - Ziele Schreibweise Text, einer, einer Glyphe oder Charakter zu einer Zeit.
- OPTICAL WORD ERKUNNION - ZIGETSCHAFTEN TIPPEWRUSTEN TEXT, ein Wort nach dem anderen (für Sprachen, die a verwenden Platz Als ein Wortteiler). (Normalerweise nur "OCR" genannt.)
- Intelligente Charaktererkennung (ICR) - Außerdem zielt auf handgeschriebene Ziele ab printcript oder kursiv Text eine Glyphe oder einen Charakter gleichzeitig, normalerweise mit maschinelles Lernen.
- Intelligent word recognition (IWR) - Auch zielt auf handgeschriebene Ziele ab printcript oder kursiv Text, ein Wort nach dem anderen. Dies ist besonders nützlich für Sprachen, in denen Glyphen in Kursivskripten nicht getrennt sind.
OCR ist im Allgemeinen ein "Offline" -Prozess, der ein statisches Dokument analysiert. Es gibt Cloud -basierte Dienste, die einen Online -OCR -API -Service bieten. Handschriftbewegungsanalyse kann als Eingabe an verwendet werden Handschrifterkennung.[14] Anstatt nur die Formen von Glyphen und Wörtern zu verwenden, kann diese Technik Bewegungen erfassen, z. B. die Reihenfolge, in der Segmente sind gezeichnet, die Richtung und das Muster, den Stift niederzulegen und zu heben. Diese zusätzlichen Informationen können den End-to-End-Prozess genauer machen. Diese Technologie wird auch als "Online-Charaktererkennung", "dynamische Charaktererkennung", "Echtzeit-Charaktererkennung" und "intelligente Charaktererkennung" bezeichnet.
Techniken
Vorverarbeitung
OCR-Software "Vorprozesse" Bilder, um die Chancen einer erfolgreichen Erkennung zu verbessern. Techniken umfassen:[15]
- De-verzerrt- Wenn das Dokument beim Scannen nicht ordnungsgemäß ausgerichtet war, muss es möglicherweise einige Grad im Uhrzeigersinn oder gegen den Uhrzeigersinn gekippt werden, um Textlinien perfekt horizontal oder vertikal zu erstellen.
- Despeckle- Entfernen Sie positive und negative Flecken, glätten Kanten
- Binarisation - Ein Bild aus der Farbe umwandeln oder Graustufen zu Schwarz-Weiß (genannt ""Binärbild"Weil es zwei Farben gibt). Die Aufgabe der Binarisation wird als einfache Möglichkeit, den Text (oder eine andere gewünschte Bildkomponente) vom Hintergrund zu trennen.[16] Die Aufgabe der Binarisation selbst ist notwendig, da die meisten kommerziellen Erkennungsalgorithmen nur auf binären Bildern funktionieren, da sich dies als einfacher erweist.[17] Darüber hinaus beeinflusst die Wirksamkeit des Binarisationsschritts in erheblichem Maße die Qualität der Charaktererkennungsstufe und die sorgfältigen Entscheidungen werden bei der Auswahl der für einen bestimmten Eingangsbildtyp verwendeten Binarisation getroffen. Da die Qualität der Binarisationsmethode verwendet wird, um das binäre Ergebnis zu erhalten Szene Text Bild, historisches degradiertes Dokument usw.).[18][19]
- Linienentfernung-Reinigt Nicht-Glyphenkästen und Linien
- Layoutanalyse oder "Zoning" - identifiziert Spalten, Absätze, Bildunterschriften usw. als unterschiedliche Blöcke. Besonders wichtig in Multi-Säulen-Layouts und Tische.
- Zeilen- und Worterkennung - Festlegen der Grundlinie für Wort- und Zeichenformen, trennt bei Bedarf Wörter.
- Skripterkennung - In mehrsprachigen Dokumenten kann sich das Skript auf der Ebene der Wörter ändern, und daher ist die Identifizierung des Skripts erforderlich, bevor die richtige OCR aufgerufen werden kann, um das spezifische Skript zu verarbeiten.[20]
- Charakterisolierung oder "Segmentierung"-Für OCR pro Charakter müssen mehrere Zeichen, die aufgrund von Bildartefakten verbunden sind, getrennt werden. Einzelfiguren, die aufgrund von Artefakten in mehrere Stücke unterteilt sind, müssen verbunden werden.
- Normalisieren Seitenverhältnis und Skala[21]
Segmentierung von Schriftarten mit festem Pitch wird relativ einfach erreicht, indem das Bild auf ein einheitliches Gitter ausgerichtet ist, basierend auf dem Ort, an dem vertikale Netzlinien am wenigsten schwarze Bereiche kreuzen. Zum Proportionale SchriftartenEs werden ausgefeiltere Techniken benötigt, da die Whitespace zwischen Buchstaben manchmal größer sein kann als die zwischen Wörtern, und vertikale Linien können mehr als einen Charakter überschneiden.[22]
Texterkennung
Es gibt zwei grundlegende Arten von Kern -OCR -Algorithmus, die eine Rangliste von Kandidatenzeichen erstellen können.[23]
- Matrix -Matching Beinhaltet das Vergleich eines Bildes mit einer gespeicherten Glyphe auf Pixel-by-Pixel-Basis; Es ist auch als "Muster -Matching" bekannt, "Mustererkennung", oder "Bildkorrelation". Dies stützt sich darauf, dass der Eingangsglyphen korrekt vom Rest des Bildes isoliert wird, und auf dem gespeicherten Glyphen in einer ähnlichen Schriftart und im gleichen Maß Begegnet. Dies ist die Technik, die die frühe physikalische Photozellen-basierte OCR eher direkt implementiert hat.
- Feature -Extraktion Zersetzt Glyphen in "Merkmale" wie Linien, geschlossene Schleifen, Linienrichtung und Linienkreuzungen. Die Extraktionsmerkmale reduzieren die Dimensionalität der Darstellung und machen den Erkennungsprozess rechnerisch effizient. Diese Merkmale werden mit einer abstrakten vektorähnlichen Darstellung eines Charakters verglichen, die sich auf einen oder mehrere Glyphenprototypen reduzieren kann. Allgemeine Techniken von Feature -Erkennung in Computer Vision sind für diese Art von OCR anwendbar, die häufig in "intelligent" zu sehen ist Handschrifterkennung und in der Tat die modernste OCR -Software.[24] Nachbarklassifizierer so wie die K-Nearest Nachbar Algorithmus werden verwendet, um Bildfunktionen mit gespeicherten Glyphenfunktionen zu vergleichen und die nächste Übereinstimmung auszuwählen.[25]
Software wie Keilschrift und Tesseract Verwenden Sie einen Zwei-Pass-Ansatz zur Charaktererkennung. Der zweite Pass wird als "adaptive Erkennung" bezeichnet und verwendet die Buchstabenformen, die mit hohem Vertrauen in den ersten Pass erkannt werden, um die verbleibenden Buchstaben auf dem zweiten Pass besser zu erkennen. Dies ist vorteilhaft für ungewöhnliche Schriftarten oder minderwertige Scans, bei denen die Schrift verzerrt ist (z. B. verschwommen oder verblasst).[22]
Eine moderne OCR -Software umfasst Google Dokumente OCR, Abbyy Finereader und Transym.[26] Andere mögen Ocropus und Tesseract verwendet Neuronale Netze die darauf trainiert sind, ganze Textlinien zu erkennen, anstatt sich auf einzelne Zeichen zu konzentrieren.
Eine neue Technik, die als iteratives OCR bezeichnet wird, sammelt automatisch ein Dokument in Abschnitte, die auf dem Seitenlayout basieren. OCR wird in den Abschnitten einzeln unter Verwendung der Schwellenwerte für das Konfidenzniveau der variablen Zeichen durchgeführt, um die OCR-Genauigkeit auf Seitenebene zu maximieren. Für diese Methode wurde ein Patent des US -Patentbüros ausgestellt [27]
Das OCR -Ergebnis kann in der standardisierten Speicherung gespeichert werden ALT Format, ein dediziertes XML -Schema, das von den Vereinigten Staaten aufrechterhalten wird Kongressbibliothek. Andere gemeinsame Formate sind HOCR und Seite XML.
Für eine Liste der optischen Charaktererkennungssoftware siehe Vergleich der optischen Charaktererkennungssoftware.
Nachbearbeitung
Die OCR -Genauigkeit kann erhöht werden, wenn der Ausgang durch a eingeschränkt wird Lexikon- Eine Liste von Wörtern, die in einem Dokument auftreten dürfen.[15] Dies kann beispielsweise alle Wörter in der englischen Sprache oder ein technischeres Lexikon für ein bestimmtes Gebiet sein. Diese Technik kann problematisch sein, wenn das Dokument Wörter nicht im Lexikon enthält, wie richtige Substantive. Tesseract nutzt sein Wörterbuch, um den Charakter -Segmentierungsschritt für eine verbesserte Genauigkeit zu beeinflussen.[22]
Der Ausgangsstrom kann a sein einfacher Text Stream oder Datei von Zeichen, aber ausgefeiltere OCR PDF Dies enthält sowohl das Originalbild der Seite als auch eine durchsuchbare Textdarstellung.
"Nahverzinsliche Analyse" kann nutzen Auftreten Frequenzen, um Fehler zu korrigieren, indem festgestellt wird, dass bestimmte Wörter häufig zusammen gesehen werden.[28] Zum Beispiel "Washington, D.C." ist im Allgemeinen weitaus häufiger in Englisch als "Washington Doc".
Die Kenntnis der Grammatik der gescannten Sprache kann auch dazu beitragen, festzustellen, ob ein Wort wahrscheinlich ein Verb oder ein Substantiv ist, was eine größere Genauigkeit ermöglicht.
Das Levenshtein -Entfernung Der Algorithmus wurde auch bei der OCR-Nachbearbeitung verwendet, um die Ergebnisse einer OCR-API weiter zu optimieren.[29]
Anwendungsspezifische Optimierungen
In den vergangenen Jahren,[wenn?] Die wichtigsten OCR -Technologieanbieter begannen, OCR -Systeme zu optimieren, um mit spezifischen Input -Arten effizienter umzugehen. Über ein anwendungsspezifisches Lexikon hinaus kann eine bessere Leistung unter Berücksichtigung von Geschäftsregeln, Standardausdruck, erzielt werden[Klarstellung erforderlich] oder reiche Informationen, die in Farbbildern enthalten sind. Diese Strategie wird als "anwendungsorientiertes OCR" oder "Customized OCR" bezeichnet und wurde auf OCR von angewendet Nummernschilder, Rechnungen, Screenshots, Identitätskarte, Fahrerlizenzen, und Automobilherstellung.
Die New York Times hat die OCR -Technologie in ein proprietäres Instrument angepasst, das sie berechtigen, Helfer dokumentDies ermöglicht es ihrem interaktiven Nachrichtenteam, die Verarbeitung von Dokumenten zu beschleunigen, die überprüft werden müssen. Sie stellen fest, dass es ihnen ermöglicht, zu verarbeiten, was bis zu 5.400 Seiten pro Stunde entspricht, um die Reporter vorzubereiten, um den Inhalt zu überprüfen.[30]
Problemumgehungen
Es gibt verschiedene Techniken zur Lösung des Problems der Charaktererkennung durch andere Mittel als verbesserte OCR -Algorithmen.
Bessere Eingabe erzwingen
Spezielle Schriftarten wie OCR-A, OCR-B, oder Mikr Schriftarten mit genau spezifizierten Größen, Abstand und charakteristischen Charakterformen ermöglichen eine höhere Genauigkeitsrate während der Transkription in der Bankprüfverarbeitung. Ironischerweise wurden jedoch mehrere prominente OCR -Motoren entwickelt, um Text in populären Schriftarten wie Arial oder Times New Roman zu erfassen, und sind nicht in der Lage, in diesen Schriftarten, die spezialisiert sind und sich von den im Volksgebrauch verwendeten Schriftarten unterscheiden, nicht in der Lage zu erfassen. Da Google Tesseract geschult werden kann, um neue Schriftarten zu erkennen, kann es OCR-A, OCR-B und Microfonts erkennen.[31]
"Comb Fields" sind vorgedruckte Kisten, die Menschen dazu ermutigen, leserischer zu schreiben-eine Glyphe pro Box.[28] Diese werden oft in einem gedruckt "Dropout -Farbe" Dies kann leicht vom OCR -System entfernt werden.[28]
Palm os verwendete einen speziellen Satz von Glyphen, die als "bekannt"Graffiti"Die gedruckten englischen Zeichen ähneln, aber vereinfacht oder modifiziert für einfachere Erkennung auf der rechnerischen Hardware der Plattform. Benutzer müssten lernen, wie man diese speziellen Glyphen schreibt.
Zonenbasierte OCR beschränkt das Bild auf einen bestimmten Teil eines Dokuments. Dies wird oft als "Vorlage OCR" bezeichnet.
Crowdsourcing
Crowdsourcing Menschen, um die Charaktererkennung durchzuführen, können Bilder wie computergesteuerter OCR schnell verarbeiten, jedoch mit einer höheren Genauigkeit für das Erkennen von Bildern als die über Computer erhalten. Praktische Systeme umfassen die Amazon Mechanical Turk und reCaptcha. Das Nationalbibliothek von Finnland hat eine Online -Oberfläche entwickelt, mit der Benutzer OCRED -Texte im standardisierten Alt -Format korrigieren können.[32] Crowd Sourcing wurde auch verwendet, um die Charaktererkennung nicht direkt durchzuführen, sondern Softwareentwickler einladen, Bildverarbeitungsalgorithmen zu entwickeln, beispielsweise durch die Verwendung von Rangbestellungsturniere.[33]
Genauigkeit
In Auftrag gegeben von der US -Energieministerium (DOE), das Information Science Research Institute (ISRI) hatte die Aufgabe, die Verbesserung automatisierter Technologien zum Verständnis von Maschinendruckdokumenten zu fördern, und es führte die maßgeblichste von der durch Jährlicher Test der OCR -Genauigkeit Von 1992 bis 1996.[34]
Anerkennung von Lateinamerikanische Schreibweise, maschinengeschriebene Text ist noch nicht 100% genau, auch wenn eine klare Bildgebung verfügbar ist. Eine Studie, die auf der Erkennung von Zeitungsseiten des 19. und frühen 20. Jahrhunderts basiert, kam zu dem Schluss, dass die OCR-Genauigkeit der Charakter-zu-Charakter-OCR für kommerzielle OCR-Software von 81% bis 99% variierte;[35] Die Gesamtgenauigkeit kann durch Human Review oder Data Dictionary Authentifizierung erreicht werden. Andere Bereiche - einschließlich Anerkennung von Handdruck, kursiv Handschrift und gedruckter Text in anderen Skripten (insbesondere in den ostasiatischen Sprachfiguren, die viele Schlaganfälle für ein einzelnes Charakter haben) - sind immer noch Gegenstand aktiver Forschung. Das MNIST -Datenbank wird üblicherweise zur Fähigkeit der Testsysteme verwendet, handgeschriebene Ziffern zu erkennen.
Die Genauigkeitsraten können auf verschiedene Arten gemessen werden, und wie sie gemessen werden, kann die gemeldete Genauigkeitsrate stark beeinflussen. Wenn beispielsweise der Wortkontext (im Grunde genommen ein Lexikon von Wörtern) verwendet wird, um die Software zu korrigieren, die nicht existierende Wörter finden ) oder schlimmer, wenn die Messung darauf basiert, ob jedes ganze Wort ohne falsche Buchstaben erkannt wurde.[36] Die Verwendung eines ausreichend ausreichend ausreichend ausreichenden Datensatzes ist in einem neuronalen netzwerkbasierten Handschrifterkennungslösungen so wichtig. Andererseits ist die Herstellung natürlicher Datensätze sehr kompliziert und zeitaufwändig.[37]
Ein Beispiel für die Schwierigkeiten, die bei der Digitalisierung des alten Textes innewohnt, ist die Unfähigkeit von OCR, zwischen dem zu unterscheiden "lange s"und" f "Charaktere.[38]
Webbasierte OCR-Systeme zur Erkennung von handgedruckten Text im laufenden Fliegen sind in den letzten Jahren als kommerzielle Produkte bekannt geworden[wenn?] (sehen Tablet -PC -Geschichte). Genauigkeitsraten von 80% bis 90% für ordentliche, saubere handgedruckte Charaktere können durch erreicht werden Pen Computing Software, diese Genauigkeitsrate bedeutet jedoch immer noch Dutzende von Fehlern pro Seite, was die Technologie nur in sehr begrenzten Anwendungen nützlich macht.
Anerkennung von Kursivtext ist ein aktives Forschungsbereich, mit Anerkennungsraten sogar noch niedriger als das von handgedruckter Text. Eine höhere Erkennungsraten des allgemeinen Kursivskripts wird ohne die Verwendung kontextbezogener oder grammatikalischer Informationen wahrscheinlich nicht möglich sein. Zum Beispiel ist das Erkennen ganzer Wörter aus einem Wörterbuch einfacher als zu versuchen, einzelne Zeichen aus dem Skript zu analysieren. Lesen des Menge Linie von a überprüfen (Dies ist immer eine schriftliche Zahl) ist ein Beispiel, bei dem die Verwendung eines kleineren Wörterbuchs die Erkennungsraten erheblich erhöhen kann. Die Formen einzelner Kursivfiguren selbst enthalten einfach nicht genügend Informationen, um alle handgeschriebenen Kursivskripte genau zu erkennen (größer als 98%).
Mit den meisten Programmen können Benutzer "Vertrauensraten" festlegen. Dies bedeutet, dass ein Benutzer zur manuellen Überprüfung benachrichtigt werden kann, wenn die Software nicht ihre gewünschte Genauigkeit erreicht.
Ein durch OCR -Scanning eingeführter Fehler wird manchmal als "Scanno" bezeichnet (analog mit dem Begriff "Tippfehler").[39][40]
Unicode
Charaktere zur Unterstützung von OCR wurden zu der hinzugefügt Unicode Standard im Juni 1993 mit der Veröffentlichung von Version 1.1.
Einige dieser Zeichen werden aus Schriftarten, die spezifisch zu kartieren, abgebildet Mikr, OCR-A oder OCR-B.
Optische Zeichenerkennung[1][2] Offizielles Unicode -Konsortium -Code -Diagramm (PDF) | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+244x | ⑀ | ⑁ | ⑂ | ⑃ | ⑄ | ⑅ | ⑆ | ⑇ | ⑈ | ⑉ | ⑊ | |||||
U+245x | ||||||||||||||||
Anmerkungen |
Siehe auch
- AI -Effekt
- Anwendungen künstlicher Intelligenz
- Vergleich der optischen Charaktererkennungssoftware
- Computerlinguistik
- Digitale Bibliothek
- Digitalem Mailroom
- Digitaler Stift
- Institutionales Repository
- Lesbarkeit
- Liste der aufkommenden Technologien
- Live -Tintencharaktererkennungslösung
- Magnetische Tintenzeichenerkennung
- Musik OCR
- OCR in indischen Sprachen
- OPTISCHE MARKERKENNUNG
- Umriss der künstlichen Intelligenz
- Skizzenerkennung
- Spracherkennung
- Tesseract OCR -Motor
- Stimmaufnahme
Verweise
- ^ ONDEMAND, HPE HAVEN. "OCR -Dokument". Archiviert von das Original am 15. April 2016.
- ^ ONDEMAND, HPE HAVEN. "nicht definiert". Archiviert von das Original am 19. April 2016.
- ^ a b Schantz, Herbert F. (1982). Die Geschichte der OCR, optische Charaktererkennung. [Manchester Center, Vt.]: Erkennungstechnologien Benutzervereinigung. ISBN 9780943072012.
- ^ Dhavale, Sunita Vikrant (10. März 2017). Erweiterte bildbasierte SPAM-Erkennung und Filtertechniken. Hershey, PA: Igi Global. p. 91. ISBN 9781683180142. Abgerufen 27. September, 2019.
- ^ D'ALBE, E. E. F. (1. Juli 1914). "Auf einem Typ-Lesen-Optophon". Verfahren der Royal Society A: Mathematische, physische und technische Wissenschaften. 90 (619): 373–375. Bibcode:1914RSPSA..90..373d. doi:10.1098/rspa.1914.0061.
- ^ "Die Geschichte der OCR". Datenverarbeitungsmagazin. 12: 46. 1970.
- ^ "Text aus Bildern mit OCR auf Android extrahieren". 27. Juni 2015. Archiviert von das Original am 15. März 2016.
- ^ "[Tutorial] OCR auf Google Glass". 23. Oktober 2014. Archiviert von das Original am 5. März 2016.
- ^ Qing-an Zeng (28. Oktober 2015). Wireless Communications, Networking und Anwendungen: Proceedings of WCNA 2014. Springer. ISBN 978-81-322-2580-5.
- ^ "[JavaScript] Verwenden der OCR- und Entitätsextraktion für LinkedIn Company Lookup". 22. Juli 2014. Archiviert von das Original am 17. April 2016.
- ^ "Wie man Captchas knackt". Andrewt.net. 28. Juni 2006. Abgerufen 16. Juni, 2013.
- ^ "Eine visuelle Captcha brechen". Cs.sfu.ca. 10. Dezember 2002. Abgerufen 16. Juni, 2013.
- ^ John Ressig (23. Januar 2009). "John Resig - OCR und neuronale Netze in JavaScript". Ejohn.org. Abgerufen 16. Juni, 2013.
- ^ Tappert, C. C.; Suen, C. Y.; Wakahara, T. (1990). "Der Stand der Technik in der Online -Handschrift Anerkennung". IEEE -Transaktionen zur Musteranalyse und Maschinenintelligenz. 12 (8): 787. doi:10.1109/34.57669. S2CID 42920826.
- ^ a b "Optische Charaktererkennung (OCR) - wie es funktioniert". Nicomomsoft.com. Abgerufen 16. Juni, 2013.
- ^ Sezgin, Mehmet; Sankur, Bulent (2004). "Umfrage über Bildschwellenwerttechniken und quantitative Leistungsbewertung" (PDF). Zeitschrift für elektronische Bildgebung. 13 (1): 146. Bibcode:2004jei .... 13..146s. doi:10.1117/1.1631315. Archiviert von das Original (PDF) am 16. Oktober 2015. Abgerufen 2. Mai, 2015.
- ^ Gupta, Maya R.; Jacobson, Nathaniel P.; Garcia, Eric K. (2007). "OCR-Binarisation und Bildvorverarbeitung zur Suche nach historischen Dokumenten" (PDF). Mustererkennung. 40 (2): 389. Bibcode:2007Patre..40..389g. doi:10.1016/j.patcog.2006.04.043. Archiviert von das Original (PDF) am 16. Oktober 2015. Abgerufen 2. Mai, 2015.
- ^ Trier, Oeivind fällig; Jain, Anil K. (1995). "Zielbewertung der Binarisationsmethoden" (PDF). IEEE -Transaktionen zur Musteranalyse und Maschinenintelligenz. 17 (12): 1191–1201. doi:10.1109/34.476511. Abgerufen 2. Mai, 2015.
- ^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). "Bildbinarisation für End-to-End-Textverständnis in natürlichen Bildern" (PDF). Dokumentanalyse und Erkennung (ICDAR) 2013. 12. Internationale Konferenz über: 128–132. doi:10.1109/icdar.2013.33. ISBN 978-0-7695-4999-6. S2CID 8947361. Abgerufen 2. Mai, 2015.
- ^ Pati, P.B.; Ramakrishnan, A. G. (29. Mai 1987). "Multi-Script-Identifizierung der Wortebene". Mustererkennungsbuchstaben. 29 (9): 1218–1229. doi:10.1016/j.patrec.2008.01.027.
- ^ "Basic OCR in opencv | Damiles". Blog.damiles.com. 20. November 2008. Abgerufen 16. Juni, 2013.
- ^ a b c Ray Smith (2007). "Ein Überblick über den Tesseract OCR -Motor" (PDF). Archiviert von das Original (PDF) am 28. September 2010. Abgerufen 23. Mai, 2013.
- ^ "OCR Einführung". DataID.com. Abgerufen 16. Juni, 2013.
- ^ "Wie OCR -Software funktioniert". Ocrwizard. Archiviert von das Original am 16. August 2009. Abgerufen 16. Juni, 2013.
- ^ "Die grundlegende Mustererkennung und Klassifizierung mit OpenCV | Damiles". Blog.damiles.com. 14. November 2008. Abgerufen 16. Juni, 2013.
- ^ Assefi, Mehdi (Dezember 2016). "OCR als Service: Eine experimentelle Bewertung von Google Docs OCR, Tesseract, Abbyy Finereader und Transym". ResearchGate.
- ^ "Wie die beste OCR -Technologie 99,91% der Daten erfasst". www.bisok.com. Abgerufen 27. Mai, 2021.
- ^ a b c "Wie funktioniert das Scannen von OCR -Dokumenten?". Erkläre das Zeug. 30. Januar 2012. Abgerufen 16. Juni, 2013.
- ^ "Wie optimieren Sie Ergebnisse aus der OCR -API beim Extrahieren von Text aus einem Bild? - Haven OnDemand Developer Community". Archiviert von das Original am 22. März 2016.
- ^ Fehr, Tiff, Wie wir 900 Seiten Cohen -Dokumente in weniger als 10 Minuten durchlaufen haben, Times Insider, Die New York Times, 26. März 2019
- ^ "Trainieren Sie Ihren Tesseract". Trainieren Sie Ihren Tesseract. 20. September 2018. Abgerufen 20. September, 2018.
- ^ "Was ist der Sinn eines interaktiven Online -OCR -Texteditors? - Fenno -Hugrica". 21. Februar 2014.
- ^ Riedl, C.; Zanibbi, R.; Hearst, M. A.; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, ich.; Lakhani, K. (20. Februar 2016). "Erkennung von Zahlen und Teilbezeichnungen in Patenten: Wettbewerbsbasierte Entwicklung von Bildverarbeitungsalgorithmen". Internationales Journal über Dokumentanalyse und Anerkennung. 19 (2): 155. Arxiv:1410.6751. doi:10.1007/s10032-016-0260-8. S2CID 11873638.
- ^ "Code und Daten zur Bewertung der OCR -Genauigkeit, ursprünglich aus UNLV/ISRI". Google Code -Archiv.
- ^ Holley, Rose (April 2009). "Wie gut kann es bekommen? Analysieren und Verbesserung der OCR -Genauigkeit in großen historischen Zeitungen Digitalisierungsprogrammen". D-Lib Magazine. Abgerufen 5. Januar, 2014.
- ^ Suen, C. Y.; Plamondon, R.; Tappert, A.; Thomassen, A.; Ward, J. R.; Yamamoto, K. (29. Mai 1987). Zukünftige Herausforderungen bei Handschrift und Computeranwendungen. 3. Internationales Symposium über Handschrift und Computeranwendungen, Montreal, 29. Mai 1987. Abgerufen 3. Oktober, 2008.
- ^ Ayda Mohseni, Reza Azmi, Arvin Maleki, Kamran Layeghi (2019). Vergleich von synthetisierten und natürlichen Datensätzen in neuronalen Netzwerkbasis -Handschriftlösungen. ITCT.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ Sarantos Kapidakis, Cezary Mazurek, Marcin Werla (2015). Forschung und fortschrittliche Technologie für digitale Bibliotheken. Springer. p. 257. ISBN 9783319245928. Abgerufen 3. April, 2018.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ Atkinson, Kristine H. (2015). "Nicht -Patent -Literatur für pharmazeutische Patentierung neu erfinden". Pharmazeutischer Patentanalyst. 4 (5): 371–375. doi:10.4155/ppa.15.21. PMID 26389649.
- ^ http://www.hoopoes.com/jargon/entry/scanno.shtml Dead Link
Externe Links
- UNICODE OCR-Sechskantbereich: 2440-245f Optische Charaktererkennung in Unicode
- Annotierte Bibliographie der Referenzen auf Handschriftencharaktererkennung und Stift Computing