Optimierter Einsatz von OCR-Verfahren
Tesseract als Komponente im OCR-D-Workflow
Kontakt: Stefan Weil
Förderung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: 2018–2019
Als eines von acht Modulprojekten im OCR-D Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) arbeitet die Universitätsbibliothek an einer zentralen Komponente – der eigentlichen Texterkennung – und betreut dabei die Software Tesseract.
Tesseract ist eine freie Software für die Texterkennung (optische Zeichenerkennung, OCR). Diese Software zeichnet sich durch eine mehr als 30-jährige stetige Weiterentwicklung aus. In der Gruppe Open Source Software gehört Tesseract zu den Programmen mit den besten Erkennungsraten. Seit Ende 2016 unterstützt Tesseract auch die Texterkennung mittels künstlicher neuronaler Netze (LSTM) und ist damit technologisch aktuell. Das Projekt erweitert bzw. ergänzt Tesseract um Schnittstellen für die Einbindung in einen OCR Gesamt-Workflow gemäß der OCR-D Modulbeschreibung (Kommandozeile, API, REST-basierter Webservice). Darüber hinaus ist das Ziel, die Stabilität, Performance und praktische Einsetzbarkeit weiter zu verbessern.
Die Universitätsbibliothek Mannheim hat mit Tesseract die erste weitgehend komplette Texterkennung für die historische Zeitung Deutscher Reichsanzeiger und Preußischer Staatsanzeiger und deren Vorgängerzeitungen (1819–1945) durchgeführt und verwendet Tesseract auch im DFG-Projekt Aktienführer-Datenarchiv II.