25.05.2018
Opas alte Briefe oder Uromas Tagebücher – Dokumente aus früheren Zeiten geben einen Einblick in ein anderes Leben. Wenn man sie denn lesen kann. Altdeutsche Handschriften kann heutzutage allerdings kaum noch jemand entziffern. Die EU-geförderte Software Transkribus schafft Abhilfe.
Transkribus ist ein Projekt der Uni Innsbruck, das in Europa noch 13 weitere Partner hat und der breiten Öffentlichkeit zur Verfügung steht.
Noch viele Datenmengen nötig
Das Programm ist sowohl für Forscher und Geisteswissenschaftlern als auch Laien zugänglich, um alte Dokumente zu digitalisieren und auszuwerten. Es erkennt die Schrift und wandelt sie in lesbaren Text am Computer um, wobei es Algorithmen nutzt. 70 bis 80 Prozent aller Texte lassen sich bisher entziffern.
Dabei sieht sich die Software verschiedenen Herausforderungen gegenüber. Um einen Text zuverlässig umwandeln zu können, muss sie sich fast wie ein Mensch erst einmal an die jeweilige Handschrift „gewöhnen“. Derzeit sind zirka 100 Seiten nötig, damit die Maschine über die Handschrift lernen und erkennen kann, wie sie funktioniert. Im Handumdrehen einseitige Texte transkribieren zu lassen, ist daher derzeit noch nicht möglich. Dass noch so viele Datenmengen nötig sind, um einen Text zu entschlüsseln, ist eines der Probleme der Software. Darüber hinaus sind die Handschriften sehr unterschiedlich geformt und in verschiedenen Sprachen abgefasst, die sich im Laufe der Zeit auch verändert haben – eine zusätzliche Hürde für Transkribus.
Programm lernt im Laufe der Zeit
Je mehr das Programm jedoch mit unterschiedlichen Texten gefüttert wird, desto besser lernt es auch insgesamt, sodass in Zukunft weniger Seiten erforderlich sein könnten. Unter anderem aus diesem Grund wurde Transkribus für die Öffentlichkeit weltweit zur Verfügung gestellt.
In Zukunft soll es auch möglich sein, innerhalb der Handschriften zu suchen oder alle Dokumente desselben Verfassers nur anhand der Schrift zusammenzuführen. Das Projekt wird von der EU noch bis Mitte 2019 gefördert. (tl)