Achtung

Die Seite wird gerade noch überarbeitet. Bei auftretenden Problemen kontaktieren Sie uns bitte.

2. Vorbereitung von Scans und Bilddateien (ScanTailor)

Häufig liegen Werke, für die eine OCR durchgeführt werden soll, lediglich als Faksimilia vor. Deren Einzelbilder weisen zwar meistens eine gute bis sehr gute Qualität auf, sind jedoch in ihrer Gesamtanlage für den direkten Import in OCR4all eher ungeeignet. Dies ist bspw. der Fall, wenn Bilddateien über den eigentlichen Seiteninhalt hinaus Teile von Buchdeckel oder - rückseite sowie Teile einer Auflagefläche zeigen. Werden solche Bilder während des Workflows binarisiert, entstehen durch unterschiedliche Kontraste in den Originalen schwarze Trennlinien, die neben der eigentlichen OCR v. a. für die Segmentierung problematisch sind. Auch die Rotation von Scans oder die Darstellung von zwei Seiten pro Scan stellen häufige Probleme dar. Diese können jedoch durch eine entsprechende Vorverarbeitung von Bilddateien einfach vermieden werden: Ziel muss es deshalb sein, Scans für die Arbeit mit OCR4all zu verwenden, die möglichst nur den zur Erkennung gedachten Inhalt einer einzelnen Seite zeigen. Gleichzeitig sollten über den eigentlich relevanten sog. Content hinaus auch diese vorverarbeiteten Bilder jedoch ausreichend unbedruckte bzw. unbeschriebene Seitenfläche aufweisen, um bspw. bestimmte Segmentierungsvorgänge nicht zu verkomplizieren. Sinnvoll ist es also, genau jene Teile des Bildes zu entfernen, die nicht zur eigentlichen Druckseite gehören und deshalb nicht erfasst werden müssen, daneben jedoch so viel der Originaldruckseite wie möglich zu erhalten (d. h. eben z. B. Seitenränder nicht vollständig zu entfernen). Dazu bieten sich theoretisch sämtliche Bildbearbeitungsprogramme an (GIMP, Photoshop, etc.). Liegt das zu bearbeitende Werk als PDF vor, ist es auch möglich, innerhalb von Adobe Acrobat DC alle Seiten mittels Stapelverarbeitung zu beschneiden oder zu drehen. Empfohlen wird jedoch an dieser Stelle die Arbeit mit ScanTailor, da große Bildmengen einfach und standardisiert in relativ geringer Zeit verarbeitet werden können. Ausführliches Anleitungs- und Videomaterial findet sich hier. Dieser Arbeitsschritt ist optional und kein Teil des OCR4all-Workflows, weshalb hier kein Support geleistet werden kann. Jeder Nutzer muss selbst entscheiden, ob eine zusätzliche Vorverarbeitung dieser Art für sein Werk gewinnbringend wäre oder sogar notwendig ist.