OCR-D: Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung
Kontakt: Stefan Weil
Förderung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: 2021–2023
Im Rahmen des Koordinierungsprojekts OCR-D fördert die DFG seit 2015 verschiedene Projekte zur Entwicklung eines Verfahrens zur Massenvolltextdigitalisierung der im deutschen Sprachraum erschienenen Drucke des 16. bis 19. Jahrhunderts. In der aktuellen dritten Förderphase arbeitet die Universitätsbibliothek Mannheim an einem Workflow für das werkspezifische Nachtraining mit Hilfe von generischen Modellen.
Bei der modernen Volltexterkennung bilden häufig mühsam händisch bzw. halb-automatisiert erfasste Trainingsdaten die Grundlage (Ground Truth) für die Texterkennung mittels künstlicher neuronaler Netze. Dies führt dazu, dass auch die durch die Transkription entstandenen Fehler von den neuronalen Netzen mittrainiert werden. Außerdem basieren die vorhandenen Modelle oftmals auf einzelnen Sprachen oder Schriftarten, die die tatsächlichen Werke nicht komplett abdecken können. Als Resultat entstehen fehlerhafte Modelle mit mangelhafter Genauigkeitsquote.
Mit Hilfe generischer Modelle, die bereits mit unterschiedlichen Sprachen und Schriften trainiert sind, lässt sich diese Problematik umgehen. Durch das Nachtraining (Finetuning) eines generischen Modells kann die Genauigkeit für ein spezifisches Werk auf über 98 Prozent gesteigert werden. Auch spezielle Zeichen und Symbole lassen sich durch ein werkspezifisches Nachtraining besser erfassen.
Ziel des Projektes ist es, dass Einrichtungen unterschiedlicher Größe möglichst einfach die Module des OCR-D-Workflows nachtrainieren können, sodass bessere Erkennungsraten für spezifische Werke erreicht werden. Die Anwender sollen dabei durch softwaretechnische Werkzeuge Anleitungen erhalten und durch Best-Practice-Empfehlungen unterstützt werden. Außerdem wird ein zentrales und öffentliches Modellrepositorium erstellt, um die Auffindbarkeit der Modelle zu gewährleisten.