Buchscannen

Internetarchiv Scribe Book Scanner im Jahr 2011
Internet -Archivbuchscanner

Buchscannen oder Buchendigitalisierung (Auch: Magazin Scannen oder Zeitschrift Digitalisierung) ist der Prozess der Umwandlung der physischen Konvertierung Bücher und Zeitschriften hinein digitale Medien wie zum Beispiel Bilder, elektronischer Text, oder elektronische Bücher (E-Books) mit einem Bildscanner. In großem Maßstab wurden viele Bücher online zur Verfügung gestellt.

Digitale Bücher können leicht verteilt, reproduziert und Lesen Sie auf dem Bildschirm. Gemeinsame Dateiformate sind DJVU, Tragbares Dokumentformat (PDF) und Tagged Bilddateiformat (TIFF). Um die Rohbilder zu konvertieren optische Zeichenerkennung (OCR) wird verwendet, um Buchseiten in ein digitales Textformat wie zu verwandeln ASCII oder ein anderes ähnliches Format, das die Dateigröße reduziert und von anderen Anwendungen neu formatiert, gesucht oder verarbeitet werden kann.

Bildscanner können manuell oder automatisiert sein. In einem gewöhnlichen kommerziellen Bildscanner befindet sich das Buch auf eine flache Glasplatte (oder einen Platten), und eine leichte und optische Array bewegt sich über das Buch unter dem Glas. In manuellen Buchscannern erstreckt sich die Glasplatte bis zur Kante des Scanners, sodass die Wirbelsäule des Buches leichter aufgerichtet werden kann.

Ein Problem mit dem Scannen von gebundenen Büchern ist, dass ein Teil der Seite in der Nähe der Wirbelsäule (die Rinne) erheblich gekrümmt ist, wenn ein nicht sehr dünnes Buch ist, und den Text in diesem Teil des Scans verzerrt. Eine Lösung besteht darin, das Buch durch Schneiden oder Entbinden in getrennte Seiten zu trennen. Eine nicht zerstörerische Methode besteht darin, das Buch in einem V-förmigen Halter zu halten und es zu fotografieren, anstatt es flach zu legen und zu scannen. Die Krümmung in der Dachrinne ist auf diese Weise viel weniger ausgeprägt.[1] Seiten können von Hand oder durch automatisierte Papiertransportgeräte gedreht werden. Transparente Kunststoff- oder Glasblätter werden normalerweise gegen die Seite gedrückt, um sie abzuflachen.

Nach dem Scannen passt die Software die Dokumentbilder an, indem sie sie auskleiden, geschnitten, bildbewegt und in Text und endgültiges E-Book-Formular konvertiert. Menschliche Korrekturader überprüfen normalerweise die Ausgabe auf Fehler.

Scannen bei 118 Punkte/Zentimeter (300 DPI) ist für die Konvertierung in die digitale Textausgabe angemessen, aber für die Archivreproduktion seltener, ausführlicher oder illustrierter Bücher wird eine viel höhere Auflösung verwendet. High-End-Scanner, die Tausende von Seiten pro Stunde in der Lage sind, können Tausende von Dollar kosten, aber mach es selbst (DIY), manuelle Buchscanner mit 1200 Seiten pro Stunde wurden für 300 US -Dollar gebaut.[2]

Handelsbuchscanner

Skizze eines V-förmigen Buchscanners von ATIZ
Skizze eines typischen manuellen Buchscanners

Handelsbuchscanner sind nicht normal Scanner; Diese Buchscanner sind normalerweise eine hohe Qualität Digitalkamera Mit leichten Quellen auf beiden Seiten der Kamera, die auf einer Art Rahmen montiert sind, um eine Person oder Maschine einen einfachen Zugang zu ermöglichen, um die Seiten des Buches durchzublättern. Einige Modelle umfassen V-förmige Buch Cradles, die Unterstützung für Buchstacheln und auch die Mittelbuchposition automatisch unterstützen.

Der Vorteil dieser Art von Scanner besteht darin, dass er im Vergleich zur Produktivität von Gemeinkoscannern sehr schnell ist.

Große Projekte

Projekte wie Projekt Gutenberg (Est. 1971), Million Buchprojekt (Est. Circa 2001), Google Bücher (Est. 2004) und die Öffnen Sie die Content -Allianz (Est. 2005) Scannen Sie Bücher in großem Maßstab.

Eine der Hauptherausforderungen dafür ist das bloße Band an Büchern, die gescannt werden müssen. Im Jahr 2010 wurde die Gesamtzahl der Werke, die als Bücher in der Geschichte der Menschheit erschienen, auf rund 130 Millionen geschätzt.[3] All dies muss gescannt und dann online für die Öffentlichkeit durchsuchbar gemacht werden Universelle Bibliothek. Derzeit gibt es drei Hauptmethoden, auf die sich große Organisationen verlassen: Outsourcing, Scannen im eigenen Haus mit kommerziellen Buchscannern und das Scannen von Roboter-Scanlösungen.

Was das Outsourcing betrifft, werden Bücher häufig von kostengünstigen Quellen zu gesendet werden Indien oder China. Alternativ suchen viele Unternehmen aufgrund von Bequemlichkeits-, Sicherheits- und Technologieverbesserungen im Haus, indem sie entweder Overhead-Scanner verwenden, die zeitaufwändig sind, oder digitalkamera-basierte Scanmaschinen, die wesentlich schneller sind und eine Methode mit dem Internet-Archiv verwendet sind sowie Google. Zu den herkömmlichen Methoden gehörten das Abschneiden der Wirbelsäule des Buches und das Scannen der Seiten in a Scanner mit automatischer Seitenfutterfähigkeit mit anschließendem Wiederaufbau der losen Seiten.

Sobald die Seite gescannt ist, die Daten wird entweder manuell oder über OCR eingegeben, ein weiterer wichtiger Kosten für das Buchscanning -Projekt.[Nach wem?]

Wegen Urheberrechte © Probleme, die meisten gescannten Bücher sind diejenigen, die aus dem Urheberrecht nicht mehr sind. Es ist jedoch bekannt Verleger verbietet dies speziell.

Kollaborative Projekte

In den USA gibt es viele kollaborative Digitalisierungsprojekte. Zwei der frühesten Projekte waren das kollaborative Digitalisierungsprojekt in Colorado und NC Echo - North Carolina, das das kulturelle Erbe online erkundet,[4] basierend auf der Staatsbibliothek von North Carolina.

Diese Projekte schaffen und veröffentlichen Best Practices für Digitalisierung und arbeiten mit regionalen Partnern zusammen, um kulturelle Erbematerialien zu digitalisieren. In jüngster Zeit wurden in Großbritannien, Australien und der Europäischen Union weitere Kriterien für Best Practices eingerichtet.[5] Wisconsin Heritage online[6] ist ein kollaboratives Digitalisierungsprojekt, das dem Projekt Colorado Collaborative Digitalisierung modelliert wurde. Wisconsin verwendet a Wiki[7] Aufbau und Verteilung der kollaborativen Dokumentation. Georgiens kollaborativer Digitalisierungsprogramm, die digitale Bibliothek von Georgia,[8] präsentiert eine nahtlose virtuelle Bibliothek über die Geschichte und das Leben des Staates, einschließlich mehr als hundert digitale Sammlungen von 60 Institutionen und 100 Regierungsagenturen. Das Digitale Bibliothek von Georgia ist ein Galileo[9] Initiative an den Bibliotheken der Universität von Georgia.

Im zwanzigsten Jahrhundert die Hill Museum und Manuskriptbibliothek fotografierte Bücher in Äthiopien, die später 1975 in der politischen Gewalt zerstört wurden. Die Bibliothek hat seitdem daran gearbeitet, Manuskripte in Ländern des Nahen Ostens zu fotografieren.[10]

In Südasien digitalisiert der Nanakshahi-Trust Manuskripte von Gurmukhī -Drehbuch.

In Australien gab es viele kollaborative Projekte zwischen den Nationalbibliothek von Australien und Universitäten zur Verbesserung der Repository -Infrastruktur, in der digitalisierte Informationen gespeichert werden.[11] Einige dieser Projekte umfassen das Projekt Arrow (Australian Research Repositories Online to the World) und das APSR -Projekt (Australian Partnership for Sustainable Repository).

Zerstörerische Scan -Methoden

Für das Scannen von Buch mit einem niedrigen Budget besteht die kostengünstigste Möglichkeit, ein Buch oder eine Zeitschrift zu scannen, die Bindung abzuschneiden. Dadurch konvertiert das Buch oder die Zeitschrift in eine Sheaf separater Blätter, die in einen Standard geladen werden können Automatischer Dokumentenzuführer (ADF) und mit kostengünstigen und gemeinsamen Scantechnologie gescannt. Die Methode, die nicht für seltene oder wertvolle Bücher geeignet ist. Es gibt zwei technische Schwierigkeiten bei diesem Prozess, zuerst mit dem Schneiden und zweitens beim Scannen.

Ungehindert

Genauere und weniger zerstörerische als das Schneiden von Seiten besteht darin, mit geeigneten Werkzeugen von Hand zu entbinden. Diese Technik wurde erfolgreich für Zehntausende von Seiten Archiv -Originalpapiers eingesetzt, die für das Digitalarchiv -Projekt der Riazanov Library aus Zeitungen und Magazinen und Broschüren gescannt wurden und von 50 bis 100 Jahren und mehr variieren und häufig aus fragilen, sprachgebäudenen Papier bestanden. Obwohl der monetäre Wert für einige Sammler (und für die meisten Verkäufer dieser Art von Material) durch Entbindung zerstört wird, hilft dies in vielen Fällen tatsächlich erheblich die Erhaltung der Seiten, sodass sie Forschern zugänglicher zugänglicher sind und bei der anschließend untersucht werden können, dass sie nachfolgend beschädigt werden. . Ein Nachteil ist, dass ungebundene Seitenstapel "aufgebrannt" und daher mehr Sauerstoff in der Luft ausgesetzt sind, was in einigen Fällen eine Geschwindigkeitsverschlechterung kann. Dies kann durch das Einlegen von Gewichten auf die Seiten nach ihrer Entlassung und der Lagerung in geeigneten Behältern angegangen werden.

Die Handbindung erhalten einen Text, der in die Dachrinnen von Bindungen läuft, und es ermöglicht es, mit zweiseitigem Material wie in Mittelpunkt Cartoons, Grafik und Fotos in Zeitschriften in Zeitschriften ein einfacheres und komplettes hochwertigeres Scans zu bestehen. Das digitale Archiv von Der Befreier 1918-1924 on Marxisten Internetarchiv Demonstriert die Qualität von zweiseitigen Grafikkunst-Scans, die durch sorgfältiges Handbindung und Scannen ermöglicht werden.

Die Entzündungstechniken variieren mit der Bindungstechnologie, von einfachem Entfernen einiger Heftklammern über das Unabhängige und Entfernen von Nägeln bis hin zum akribischem Schleifen von Klebstoffschichten auf der Wirbelsäule eines Buches, um genau den richtigen Punkt zu das Buch zusammen.

Mit einigen Zeitungen (wie z. Arbeitsaktion 1950-1952) Es gibt Säulen in der Mitte der Gesichtsseiten, die über die Seiten laufen. Wenn Sie einen Teil der Wirbelsäule eines gebundenen Volumens solcher Papiere abschneiden, wird dies einen Teil dieses Textes verlieren. Sogar der Greenwood -Nachdruck dieser Veröffentlichung konnte den Textinhalt dieser Zentrumspalten nicht bewahren und dort erhebliche Mengen an Text abschneiden. Erst als gebundene Volumina der ursprünglichen Zeitung akribisch ungebunden waren und die geöffneten Paare von Mittelseiten als einzelne Seite auf einem flachen Bettscanner gescannt wurden, war der zentrale Spaltengehalt digital verfügbar. Alternativ kann man die beiden Zentrumseiten als drei Scans vorstellen: eine von jeder einzelnen Seite und einen von einer Seitengröße, die sich über der Mitte der beiden Seiten befindet.

Schneiden

Eine Möglichkeit, einen Stapel von 500 bis 1.000 Seiten in einem Pass zu schneiden, besteht darin, a zu verwenden Guillotine Papierschneider, ein großer Stahltisch mit einem Papier Schraubstock Das schraubt auf den Stapel und sichert ihn vor dem Schneiden fest. Eine große, geschärfte Stahlklinge, die sich gerade nach unten bewegt, schneidet die gesamte Länge jedes Blattes in einem Betrieb. Ein Hebel auf der Klinge ermöglicht es, für einen schnellen Einpassschnitt mehrere hundert Pfund Gewalt auf die Klinge anzuwenden.

Ein sauberer Schnitt durch einen dicken Stapel Papier kann nicht mit einem traditionellen, kostengünstigen, schalenförmigen Scharnier hergestellt werden Papierschneider. Diese Cutters sind nur für ein paar Blätter vorgesehen, wobei bis zu zehn Blätter die praktische Schneidgrenze sind. Ein großer Papierstapel trägt Torsionskräfte auf das Scharnier und zieht die Klinge von der Schneide auf dem Tisch weg. Der Schnitt wird ungenau, wenn sich der Schnitt vom Scharnier weg bewegt, und die Kraft, die erforderlich ist, um die Klinge gegen die Schneide zu halten, nimmt zu, wenn sich der Schnitt vom Scharnier weg bewegt.

Der Guillotine -Schnittprozess stumpft die Klinge im Laufe der Zeit und erfordert, dass sie umgeformt werden. Beschichtetes Papier wie das Slick -Magazinpapier stumpfe die Klinge schneller als einfaches Buchpapier, aufgrund der Kaolinit Ton Glasur. Das Entfernen der Bindung eines gesamten Hardcover -Buches führt zu übermäßigem Verschleiß, da das steife Hintergrundmaterial der Abdeckung durchschneidet wird. Stattdessen kann die äußere Abdeckung entfernt werden und nur Innenseiten müssen geschnitten werden.

Eine alternative Methode zur Entbindung von Büchern besteht darin, eine Tischsäge zu verwenden. Diese Methode ist zwar potenziell gefährlich und hinterlässt nicht so reibungslos wie die Guillotinpapierschneidermethode, ist jedoch einer durchschnittlichen Person leichter zur Verfügung. Die ideale Methode besteht darin, das Buch zwischen zwei dicken Brettern mit schweren Maschinenschrauben zu klemmen, um die Klemmkraft bereitzustellen. Das gesamte Holz- und Buchpaket wird durch die Tischsäge mit dem Rip -Zaun als Leitfaden gefüttert. Eine scharfe feine Carbid -Zahnblatt ist ideal, um einen akzeptablen Schnitt zu erzeugen. Die Qualität des Schnitts hängt von der Klinge, der Futterrate, der Art des Papiers, der Papierbeschichtung und dem Bindungsmaterial ab.

Scannen

Drehen Sie die Seiten zwischen Scans um

Sobald das Papier von der Wirbelsäule befreit ist, kann es jeweils ein Blatt mit a gescannt werden Flachbettscanner oder Automatischer Dokumentenzuführer (ADF).

Seiten mit einer dekorativen Riffled-Kante oder -krümmung in einem Bogen aufgrund einer Nicht-Flat-Bindung können mit einem ADF schwierig zu scannen sein, da sie so konzipiert sind, dass Seiten mit gleichmäßiger Form und Größe scannen, und variabel dimensionieren oder geformte Seiten zu unsachgemäßen führen können Scannen. Die Riffled -Kanten oder die gekrümmte Kante können Guillotted ausgehen, um die Außenkanten flach und glatt zu rendern, bevor die Bindung geschnitten wird.

Das beschichtete Papier von Zeitschriften und gebundenen Lehrbüchern kann sie für die Rollen in einem ADF erschweren, um den Papierweg entlang des Papierpfades zu erfassen und zu führen. Eine ADF, die eine Reihe von Walzen und Kanälen verwendet, um Blätter umzudrehen, kann beim gefütterten Papier gefüttert oder fehlgefahren werden. Im Allgemeinen gibt es weniger Probleme, wenn Sie einen Papierweg wie möglich verwenden, mit wenigen Biegungen und Kurven. Der Ton kann das Papier auch im Laufe der Zeit abreiben und klebrige Tonabfassungswalzen beschichten, was dazu führt, dass sie das Papier locker greifen. Die ADF -Rollen müssen möglicherweise eine regelmäßige Reinigung benötigen, um dieses Rutschen zu verhindern.

Zeitschriften können aufgrund kleiner ungleichmäßiger Papierblätter im Stapel eine Bulk-Scaning-Herausforderung darstellen, wie z. B. Zeitschriftenabonnementkarten und Seiten. Diese müssen entfernt werden, bevor der Massenscan beginnt, und werden entweder separat gescannt, wenn sie wertvolle Inhalte enthalten oder einfach aus dem Scan -Prozess ausgeschlossen werden.

Nicht-zerstörerisches Scannen

Ein Beispiel für einen DIY-nicht-zerstörerischen Buchscanner/Digitalisierer mit dem Buch nach unten und ermöglicht die Schwerkraft, Seiten abzuflachen

Software angetriebene Maschinen und Roboter wurden entwickelt, um Bücher zu scannen, ohne sie zu entbinden, um sowohl den Inhalt des Dokuments zu erhalten als auch ein digitales Bildarchiv seines aktuellen Zustands zu erstellen. Dieser jüngste Trend war teilweise darauf zurückzuführen, dass die Bildgebungstechnologien jemals verbessert werden, die es ermöglichen, dass ein hochwertiges digitales Archivbild in einem ziemlich kurzen Zeitraum mit wenig oder gar nicht oder keiner seltener oder fragiles Buch erfasst wird.

Der erste vollständig automatisierte Buchscanner war der DL -Scanner (Digitalisierungslinie), der von 4digitalbooks in der Schweiz hergestellt wurde. Die erste bekannte Installation fand 2001 an der Stanford University statt.[12][13] Der Scanner erhielt 2001 einen Zweitplatzierten in der Kategorie Business Applications.[14]

Nicht-zerstörerischer Buchscanner mit Kurvenabflachungstechnologie
Video des Roboterbuchs Scanner DL Mini

Im Jahr 2007 das Unternehmen Treventus präsentierte einen automatisierten Buchscanner mit einem Buchöffnungswinkel zum Scannen von 60 °. Dies ist eine Verbesserung im Bereich der Erhaltung der Bücher während des Scannens. Das Unternehmen wurde mit der Europäischen Union "ICT Grand Prize 2007" ausgezeichnet.[15][16] für seine Entwicklung des Scanrobots. Diese Technologie wurde auch in einem Massendigitalisierungsprojekt aus der bayerischen Staatsbibliothek eingesetzt[17] wo in 18 Monaten 8.900 Bücher aus dem 16. Jahrhundert mit drei dieser V-Form-Scanner digitalisiert wurden.

Scanrobot Automater Scanner mit 60 ° Öffnungswinkel

Indus International, Inc. mit Sitz in West Salem, Wisconsin, produziert Scanner, die von einigen US -Unternehmen für Dienstleistungen wie z. Fernleihe.[18]

Die meisten High-End-kommerziellen Roboterscanner verwenden Luft und Absaugen Technologie, während einige neuere Ansätze wie bionische Finger zum Drehen von Seiten verwenden. Einige Scanner nutzen die Vorteile Ultraschall- oder photoelektrische Sensoren Doppelseiten erkennen und das Überspringen von Seiten verhindern. Mit Berichten darüber, dass Maschinen bis zu 2.900 Seiten pro Stunde scannen können,[19] Roboterbuchscanner sind speziell für großflächige Digitalisierungsprojekte entwickelt.

Googles Patent 7508978 zeigt eine Infrarot Kamera-Technologie, die die Erkennung und automatische Anpassung der dreidimensionalen Form der Seite ermöglicht.[20][21] Forscher der University of Tokyo haben einen experimentellen, nicht zerstörerten Buchscanner[22] Dazu gehört ein 3D -Oberflächenscanner, mit dem Bilder einer gekrümmten Seite in Software gerichtet werden können. Somit kann das Buch oder die Zeitschrift so schnell gescannt werden, wie der Bediener durch die Seiten umdrehen kann, etwa 200 Seiten pro Minute.

Es gibt Techniken, um die Verzerrung in der Seitenrinne zu minimieren und zu korrigieren.[23]

Siehe auch

Verweise

  1. ^ Jthomas (April 2012). "Ein Scanner für Bücher mit Text sehr nahe der Gosse". DIY Book Scanner.
  2. ^ "DIY-Hochgeschwindigkeitsbuchscanner aus Mülleimer und billigen Kameras". Instructables.com. Abgerufen 19. Januar 2014.
  3. ^ Taycher, Leonid (2010-08-05). "Zum 5. August 2010 schätzt Google, dass es 129.864.880 verschiedene Bücher auf der Welt gibt.". GoogleBlog.blogspot.co.at. Abgerufen 2014-08-08.
  4. ^ "North Carolina Echo: Erforschung des kulturellen Erbes online". ncecho.org.
  5. ^ Digitale Bibliotheken: Prinzipien und Praxis in einem globalen Umwelt, Ariadne April 2005.
  6. ^ "Erinnerung Wisconsin". 29. November 2006.
  7. ^ "Wisconsin Heritage Online [nur für nicht kommerzielle Verwendung lizenziert] / FrontPage". pbworks.com.
  8. ^ "Willkommen in der digitalen Bibliothek von Georgia". USG.EDU.
  9. ^ "Galileo". USG.EDU.
  10. ^ "Codices decodiert". Der Ökonom. 18. Dezember 2010. p. 151.
  11. ^ Bibliotheken im 21. Jahrhundert: Neue Richtungen in Informationsdiensten. Herausgegeben von Stuart Ferguson, 2007, S. 84
  12. ^ Davies, John. "4DigitalBooks startet digitaler Buchscanner". Druckwoche.
  13. ^ "Stanford University Libraries (Sul) Roboterbuchscanner". Stanford University Libraries (Sul).
  14. ^ "Technology Innovation Awards: Gewinner 2001". Dow Jones. Archiviert von das Original Am 2015-09-23. Abgerufen 2017-08-07.
  15. ^ "Europäische Kommission - Pressemitteilungen - Pressemitteilung - Britisch, schwedische und österreichische Unternehmer gewinnen den" Nobelpreis "für IKT" der EU ". Europa.eu. Abgerufen 2019-06-04.
  16. ^ "Treventus ICT Grand Price 2007". Treventus.
  17. ^ "Bayerische Staatsbibliothek VD16 -Projekt" (PDF). Treventus. Archiviert von das Original (PDF) am 2016-07-08. Abgerufen 2019-06-04.
  18. ^ Hope College (2012-09-06). "Treffen Sie den neuen Scanner der Bibliothek". Abgerufen 2020-05-21.
  19. ^ Rapp, David. "Produktuhr: Bibliothekscanner". Bibliotheksjournal. Abgerufen 11. Mai 2014.
  20. ^ US 7508978, Lefevere, Francois-Marie & Saric, Marin, "Erkennung von Grooves in gescannten Bildern", ausgestellt am 24. März 2009, der Google zugewiesen ist 
  21. ^ Das Geheimnis der Buchcanningmaschine von Google enthüllt, von Maureen Clements, 30. April 2009.
  22. ^ Guizzo, Erico (2010-03-17). ""Mit Superfast Scanner können Sie Buch durch Flipping Pages digitalisieren", IEEE Spectrum, 17. März 2010 ". Spectrum.ieee.org. Abgerufen 2014-08-08.
  23. ^ Lancaster, Don (Dezember 2009). Einige mögliche Buchscannen "Gutter Math" (PDF) (Bericht). Synergetik.

Externe Links