Kontakt: Dr. Irene Schumm und Dr. Philipp Zumstein
Förderung: Deutsche Forschungsgemeinschaft (DFG)
Laufzeit: 2017–2019
Zum Projekt: Aktienführer-Datenarchiv
Der Aktienführer aus dem Hoppenstedt-Verlag sowie seine Vorgängerpublikation, Saling‘s Börsenpapiere, bieten in standardisierter Form Informationen zu den an deutschen Börsen notierten Unternehmen. So sind beispielsweise Daten zu Vorständen, Aufsichtsräten, Besitzstruktur und Bilanzen enthalten. Aufgrund der verhältnismäßig langen und regelmäßigen Publikationshistorie seit 1870 sowie der konstant hohen Datenqualität ist der Aktienführer eine viel genutzte und außergewöhnliche Datenquelle für die auf Deutschland bezogene wirtschaftswissenschaftliche Forschung.
Die Aktienführer-Bände und -CDs sowie die Bände der Vorgängerreihen Saling's Börsenpapiere liegen momentan in mehreren Bibliotheken deutschlandweit verteilt vor. Jegliche Auswertung von historischen Daten ist daher momentan sehr mühsam und meist nur vor Ort in den verschiedenen Bibliotheken mittels manueller Extraktion und Zusammenführung der Daten möglich. Als übergeordnetes Ziel sollen alle Bände daher vollständig digital zusammengeführt werden. Nach erfolgreicher Beendigung des Fortsetzungsprojekts könnten Wissenschaftler erstmals in den gesamten Unternehmensprofilen der letzten 140 Jahren (1870–2016) komfortabel online navigieren und im Volltext recherchieren, sie beliebig auswerten und neue Erkenntnisse gewinnen. Zusätzlich wird die feinstrukturierte Datenbank auf die letzten 60 Jahre (1956–2016) erweitert, die es Wissenschaftlern ermöglicht, exakte Recherchen und umfangreiche Paneldaten-Exporte durchzuführen.
In der ersten Projektphase wurden die gedruckten Aktienführer-Bände der Jahre 1976–1999 gescannt, die Inhaltsverzeichnisse erschlossen, die Daten strukturiert vollständig erfasst und eine Datenbank mit Filter- und Exportmöglichkeiten aufgebaut.
Im Fortsetzungsprojekt sollen nun zum einen alle noch nicht gescannten Print-Bände der Aktienführer bzw. Saling’s Börsenpapiere (1870-1942) digitalisiert, die Inhaltsverzeichnisse erschlossen und mittels automatischer Texterkennung (OCR) im Volltext erfasst werden. Zwischen 1945 und 1955 ist nur ein Band im Jahr 1953 erschienen und dieser enthält nur sehr kurze auf Schreibmaschine getippte Unternehmensprofile. Für eine automatisierte Datenextraktion in der feingliedrigen Struktur und einen Import in die bestehende Datenbank sind Bände von vor 1956 aufgrund ihres andersartigen, weniger strukturierten Layouts sowie inhaltlicher Differenzen nicht geeignet. Daher soll lediglich eine OCR des Fließtextes erfolgen, da diese bereits den großen Mehrwert einer Volltextsuche bietet sowie die Möglichkeit, Textpassagen kopieren zu können.
Aus den bereits gescannten Print-Bänden 1956–1975 werden, analog zum Projekt „Aktienführer-Datenarchiv I”, zusätzlich die Daten strukturiert vollständig erfasst. Als Weiterentwicklung wird jedoch eine weitestgehende Automatisierung der einzelnen Schritte bzw. Vorgehensweisen angestrebt. Als Grundlage dient dabei die Ausgabe einer OCR-Software. Ziel ist es, deren Erkennungsgenauigkeit im Projektverlauf zu verbessern, insbesondere im Hinblick auf Zahlen. Des Weiteren sollen im Rahmen des Projekts Tools für eine automatische Strukturierung und Feineinteilung der wichtigen Informationen entwickelt werden. Die Resultate sowie auch die zu entwickelnden Software-Tools werden dokumentiert und nachhaltig als Open Source angeboten.
Schließlich soll die Datenbank um die feingegliederten Daten der Jahrgänge 2000–2016 erweitert werden, die auf CD-ROM vorliegen.