Mithilfe von maschineller Texterkennung (OCR) werden Texte aus digitalen Bildern automatisiert erfasst und auf diese Weise durchsuchbare und analysierbare Daten erzeugt. Die Universitätsbibliothek Mannheim blickt auf langjährige Erfahrung in der Digitalisierung und mit der Anwendung verschiedenerTexterkennungssoftware zurück.
Gerne unterstützt das Forschungsdatenzentrum Forschende der Universität Mannheim entlang des gesamten Workflows von der Digitalisierung über die Layout- und Texterkennung sowie dem Nachtraining spezialisierter Modelle bis hin zur Strukturierung der Daten.
Tool | Kostenmodell | Eigenschaften | Besonders geeignet für |
kostenpflichtig/ | Text- und Layouterkennung; gute Layoutanalyse | Moderne Drucke, komplexes Layout | |
Open Source | Graphische Benutzeroberfläche für Kraken; intuitive Nutzung | Historische Drucke und Handschriften, auch nicht-lateinische Schrift | |
kostenpflichtig/ | Texterkennung; Bild- und Videoanalyse; für Handschriften und Drucke | Drucke und Handschriften | |
Open Source | kommandozeilenbasierte Texterkennungssoftware; optimiert für historisches und nicht-lateinisches Schriftmaterial | Historische Drucke und Handschriften, auch nicht-lateinische Schrift | |
Open Source | graphische Benutzeroberfläche für verschiedene Open Source Texterkennungsprogramme | Historische Drucke und Handschriften | |
Open Source | Kommandozeilenprogramm zur Texterkennung von PDF-Dateien; nutzt Tesseract als OCR-Engine | Historische/ | |
Open Source | modular aufgebaute, kommandozeilenbasierte Texterkennungssoftware | Historische Drucke | |
Open Source | webbasierte Texterkennungsplattform; gute Universalmodelle; momentan kein Nachtraining möglich | Historische/ | |
Open Source | kommandozeilenbasierte Texterkennungssoftware; geeignet für umfangreiche Datensätze | Historische/ | |
kostenpflichtig/ | umfangreiche Texterkennungs- und Transkriptionsplattform; mit intuitiver Benutzeroberfläche | Historische Handschriften und Tabellen |
Hier finden Sie Anleitungen und Materialien zu verschiedenen Open-Source-Texterkennungsprogrammen und Transkriptionsplattformen. Es handelt sich um eine Sammlung nützlicher Referenzen, nicht alle Ressourcen wurden von der UB Mannheim selbst erstellt.
Im Rahmen des Projekts OCR-D wurden drei verschiedene Transkriptionsstufen für die Transkription historischer Dokumente in Transkriptionsrichtlinien festgelegt. Die Stufen unterscheiden sich im Grad der originalgetreuen Wiedergabe. Die Richtlinien sind auf der OCR-D Projekthomepage zu finden. Zudem finden Sie auf Github auch eine Leitlinie zur Veröffentlichung Ihrer eigenen Trainingsdaten.
Hier finden Sie Ground-Truth zum Training bzw. Nachtraining eigener Modelle:
Hilfreich bei der Erstellung von Ground-Truth kann auch ein virtuelles Keyboard mit den benötigten Sonderzeichen sein. Virtuelle Keyboards für unterschiedliche Transkriptionsplattformen finden Sie ebenfalls auf Github.
Wenn wir Sie unterstützen können oder Sie Fragen haben, zögern Sie nicht uns zu kontaktieren.