Optimierter Einsatz von OCR-Verfahren

Tesseract als Komponente im OCR-D-Workflow

Kontakt: Stefan Weil
Förderung: Deutsche Forschungs­gemeinschaft (DFG)
Laufzeit: 2018–2019

Als eines von acht Modul­projekten im OCR-D Koordinierungs­projekt zur Weiter­entwicklung von Verfahren der Optical Character Recognition (OCR) arbeitet die Universitäts­bibliothek an einer zentralen Komponente – der eigentlichen Texterkennung – und betreut dabei die Software Tesseract.

Tesseract ist eine freie Software für die Texterkennung (optische Zeichenerkennung, OCR). Diese Software zeichnet sich durch eine mehr als 30-jährige stetige Weiter­entwicklung aus. In der Gruppe Open Source Software gehört Tesseract zu den Programmen mit den besten Erkennungs­raten. Seit Ende 2016 unter­stützt Tesseract auch die Texterkennung mittels künstlicher neuronaler Netze (LSTM) und ist damit technologisch aktuell. Das Projekt erweitert bzw. ergänzt Tesseract um Schnittstellen für die Einbindung in einen OCR Gesamt-Workflow gemäß der OCR-D Modulbeschreibung (Kommandozeile, API, REST-basierter Webservice). Darüber hinaus ist das Ziel, die Stabilität, Performance und praktische Einsetzbarkeit weiter zu verbessern.

Die Universitäts­bibliothek Mannheim hat mit Tesseract die erste weitgehend komplette Texterkennung für die historische Zeitung Deutscher Reichsanzeiger und Preußischer Staats­anzeiger und deren Vorgängerzeitungen (1819–1945) durchgeführt und verwendet Tesseract auch im DFG-Projekt Aktienführer-Datenarchiv II.