Automatisierte Texterkennung – Datenerhebung via OCR/ HTR
Mithilfe von maschineller Texterkennung (OCR) werden Texte aus digitalen Bildern automatisiert erfasst und auf diese Weise durchsuchbare und analysierbare Daten erzeugt. Die Universitätsbibliothek Mannheim blickt auf langjährige Erfahrung in der Digitalisierung und mit der Anwendung verschiedenerTexterkennungssoftware zurück.
Gerne unterstützt das Forschungsdatenzentrum Forschende der Universität Mannheim entlang des gesamten Workflows von der Digitalisierung über die Layout- und Texterkennung sowie dem Nachtraining spezialisierter Modelle bis hin zur Strukturierung der Daten.
Services
- Beratung zur maschinellen Texterhebung für Forschungsprojekte
- OCR Recommender
- Offene OCR-Sprechstunde: jeden 2. Donnerstag im Monat, von 15 bis 16 Uhr, ohne Anmeldung (Link zum Zoom-Meeting: https://ocr-bw.bib.uni-mannheim.de/sprechstunde, Meeting ID: 682 8185 1819, Kenncode: 443071)
Auswahl an Texterkennungs- und Transkriptionsplattformen
Tool
Kostenmodell
Eigenschaften
Besonders geeignet für
kostenpflichtig/
kommerziell Text- und Layouterkennung; gute Layoutanalyse
Moderne Drucke, komplexes Layout
Open Source
Graphische Benutzeroberfläche für Kraken; intuitive Nutzung
Historische Drucke und Handschriften, auch nicht-lateinische Schrift
kostenpflichtig/
kommerziell Texterkennung; Bild- und Videoanalyse; für Handschriften und Drucke
Drucke und Handschriften
Open Source
kommandozeilenbasierte Texterkennungssoftware; optimiert für historisches und nicht-lateinisches Schriftmaterial
Historische Drucke und Handschriften, auch nicht-lateinische Schrift
Open Source
graphische Benutzeroberfläche für verschiedene Open Source Texterkennungsprogramme
Historische Drucke und Handschriften
Open Source
Kommandozeilenprogramm zur Texterkennung von PDF-Dateien; nutzt Tesseract als OCR-Engine
Historische/
moderne Drucke Open Source
modular aufgebaute, kommandozeilenbasierte Texterkennungssoftware
Historische Drucke
Open Source
webbasierte Texterkennungsplattform; gute Universalmodelle; momentan kein Nachtraining möglich
Historische/
moderne Drucke und Handschriften Open Source
kommandozeilenbasierte Texterkennungssoftware; geeignet für umfangreiche Datensätze
Historische/
moderne Drucke kostenpflichtig/
kommerziell umfangreiche Texterkennungs- und Transkriptionsplattform; mit intuitiver Benutzeroberfläche
Historische Handschriften und Tabellen
Anleitungen und Materialien zu verschiedener OCR-Software
Hier finden Sie Anleitungen und Materialien zu verschiedenen Open-Source-Texterkennungsprogrammen und Transkriptionsplattformen. Es handelt sich um eine Sammlung nützlicher Referenzen, nicht alle Ressourcen wurden von der UB Mannheim selbst erstellt.
eScriptorium
Tesseract
- Alle Github-Dokumentationen der UB Mannheim zu Tesseract
- Installations- und Nutzungsanleitung (Linux und Windows)
- Anleitung zum Training mit Tesseract und Tesstrain
Hinweise zur Erstellung von Ground-Truth (Trainingsdaten)
Im Rahmen des Projekts OCR-D wurden drei verschiedene Transkriptionsstufen für die Transkription historischer Dokumente in Transkriptionsrichtlinien festgelegt. Die Stufen unterscheiden sich im Grad der originalgetreuen Wiedergabe. Die Richtlinien sind auf der OCR-D Projekthomepage zu finden. Zudem finden Sie auf Github auch eine Leitlinie zur Veröffentlichung Ihrer eigenen Trainingsdaten.
Hier finden Sie Ground-Truth zum Training bzw. Nachtraining eigener Modelle:
- OCR & Ground-Truth-Resources
- HTR United
- Ground-Truth für Charlottenburger Amtsschrifttum
- Ground-Truth für Digitalisate der UB Mannheim
- Ground-Truth für Digitalisate der UB Tübingen
- IAM Database für Handschriften
Hilfreich bei der Erstellung von Ground-Truth kann auch ein virtuelles Keyboard mit den benötigten Sonderzeichen sein. Virtuelle Keyboards für unterschiedliche Transkriptionsplattformen finden Sie ebenfalls auf Github.
Projekte und Kooperationen
- Kooperationsprojekt zur Texterkennung und Datenstrukturierung mit Lehrstuhl für Wirtschaftsgeschichte (Prof. Streb)
- Kooperationsprojekt zur Handschriftenerkennung mit Lehrstuhl für Spätmittelalter und Frühe Neuzeit (Prof. Kümper)
Wenn wir Sie unterstützen können oder Sie Fragen haben, zögern Sie nicht uns zu kontaktieren.