Von der Handschrift zur digitalen Edition in einer Woche? Ein Bericht zur Frühlingsschule Manuskriptkulturen in Münster

Vom 27. bis 31. März 2023 veranstaltete das Centrum für Geschichte und Kultur des östlichen Mittelmeerraumes (GKM) die Frühlingsschule „Manuskriptkulturen“ und lud dazu internationale Expertinnen und Experten ein, aus ihrer Forschung an Handschriften verschiedener Epochen und kultureller wie sprachlicher Räume zu berichten. Dabei näherte sich die Frühlingsschule dem Thema der interdisziplinären Erforschung historischer Manuskripte sowohl auf inhaltlichem als auch methodischem Wege. Im Rahmen der Veranstaltung fand immer nachmittags die SCDH-Schulung „Digitale Manuskriptkulturen“ statt, an der geisteswissenschaftlich Forschende der Universität Münster sowie Studierende des Zertifikats Digital Humanities teilnahmen. Am Mittwoch stand ergänzend eine Exkursion zum „Centre for the Study of Manuscript Cultures“ an der Universität Hamburg auf dem Plan, die unter anderem interessante Einblicke in die naturwissenschaftliche Erforschung handschriftlicher Quellen bot.

In den vier Nachmittagsterminen des Workshops wurde den Teilnehmer*innen der Weg eines Manuskripts vom Archiv, über das Einscannen, bis hin zu einem digital transkribierten, durchsuchbaren und semantisch angereicherten Text vorgestellt. Begleitet von praktischen Übungen, widmeten sich die Forschenden und Studierenden einer bislang unpublizierten deutschsprachigen Chronik des Klosters Vinneberg aus dem 18. Jahrhundert und erlernten dabei wesentliche Methoden des digital-geisteswissenschaftlichen Arbeitens.

Das Scannen der Handschrift

Am Montag erhielten die Teilnehmenden nach einigen Online- und Präsenzvorträgen sowie einer Führung durch die Diözesanbibliothek eine grundlegende Einführung in die digitale Manuskriptforschung und die Bedeutung professioneller Scans. Zunächst hat sich das Service Center for Digital Humanities (SCDH) der Universität Münster vorgestellt. Es unterstützt Geisteswissenschaftler*innen dabei, eine digitale Perspektive auf ihre Forschung einzunehmen und neuere Technologien und Methoden für die Wissenschaft fruchtbar zu machen. Anschließend haben wir die zwei Hauptmethoden der Texterkennung kennengelernt. Die Optical Character Recognition (OCR) findet bei Druckbeständen Anwendung und überprüft jeden Pixel auf dem Bild danach, ob er Text enthält. Durch einen Binarisierungsvorgang erhalten alle Textpixel eine 1, während der Hintergrund als 0 erkannt wird. Die Handwritten Text Recognition (HTR) jedoch, mit der wir uns näher beschäftigen sollten, widmet sich Handschriften und ist dementsprechend aufwändiger in der Arbeit. Sie erkennt Zeilen von Text und erlaubt es, individuelle Handschriften zu trainieren, indem man eine Menge an Korrekturen speichert und die automatisierte Texterkennung somit erleichtert. Um einen Qualitätsstandard für deutsche Digitalisate sicherzustellen, wurden seitens der DFG auch sogenannte Praxisregeln etabliert, die TIFF- oder JPEG2000 Dateien empfehlen und eine Auflösung von 300dpi sowie eine Farbtiefe von 8-Bit fordern. Auch gibt es Vorgaben die dafür sorgen, dass die Digitalisate langzeitig erhalten bleiben und optimal zugänglich sind.

Im Anschluss an den Vortrag durften wir das vor einigen Jahren entwickelte ScanTent ausprobieren. Es ist ein leichtgewichtiges, mobiles Stoffzelt, das mit geringem Aufkommen möglichst hochwertige Handy-Scans ermöglicht. Das ist optimal für Forscher*innen bei ihren Ausflügen, aber auch in Fällen, in denen Bibliotheken Raum und Geld für hochkomplexe Scann Geräte sparen möchten. Denn nicht immer ist die höchste Auflösung eines Scan-Geräts erforderlich, sodass Handyaufnahmen oft genügen. Handykameras sind zudem mittlerweile stark entwickelt, sodass manche sogar eine Auflösung von 360dpi anbieten können, was bereits die DFG-Praxisregeln erfüllt. Das Zelt sorgt mittels einer Lampe im Inneren sowohl für Beleuchtung als auch für eine Absonderung gegen Schatten und Reflektion. Für die Fotoaufnahmen haben wir uns der App DocScan bedient, die mittels einer Verknüpfung mit dem Programm Transkribus die gescannten Dokumente auf die eigene Cloud hochlädt und automatisch eine rudimentäre Texterkennung durchführt. Leider ist die App nur auf Android verfügbar – und dort nur begrenzt auf bestimmte Versionen. Jedenfalls haben wir in diesem Setting eine Reihe von Scans aufgenommen, die uns nun auf Transkribus für die weitere Bearbeitung zu Verfügung standen.

Automatische Handschrifterkennung mit Transkribus

Mit der Plattform „Transkribus“ beschäftigten sich die Teilnehmer*innen des Workshops am Dienstag näher. Die dort angebotenen Tools reichen von automatischer Texterkennung bis hin zur Layout-Analyse und zur näheren Identifizierung textinterner Strukturen. Um die eingescannten handschriftlichen oder gedruckten Texte zu erfassen und in digitalen Text umzuwandeln, verwendet Transkribus verschiedene Modelle künstlicher Intelligenz. Nachdem die Begriffe und Vorgänge der Optical Character Recognition (OCR) und Handwritten Text Recognition (HTR) noch einmal näher besprochen wurden, bestand die erste Aufgabe darin, die zur Verfügung gestellten Scans der Klosterchronik im Programm hochzuladen und eine erste automatische Transkription auszuprobieren. Dabei stellen die durch „Deep-Learning“ trainierten Texterkennungsmodelle den Kern von Transkribus dar. Die Nutzer*innen können dabei entweder vorgegebene, fertige Modelle verwenden oder auf Basis der eingespeisten Texte eigene Modelle trainieren.

Nach einer kurzen Eingewöhnungsphase, in der mit dem Programm ein wenig experimentiert werden konnte, erhielten die Teilnehmenden die eingescannten Blätter der Klosterchronik, transkribiert von einem im Vorhinein trainierten Modell (siehe Abbildung 1).

Abbildung 1: Handschrift und automatisch erkannter Text in Transkribus

Aufgabe war nun, das Ergebnis der automatischen Texterkennung zu überprüfen, mögliche Fehlerquellen auszumachen und methodische Wege zu finden, inwiefern das Modell verbessert werden könnte. In Zweiergruppen widmeten sich sodann die Teilnehmer*innen einigen Beispielblättern und korrigierten aufgetretene Transkriptionsfehler. Besonders die Groß- und Kleinschreibung sowie die uneinheitliche Orthografie stellten sich dabei als wesentliche Problemfaktoren heraus. Nach einem zunächst nur mäßig schnellen Vorankommen der Teilnehmenden, erhöhte sich die Arbeitsgeschwindigkeit sukzessive und der hohe Aufwand wich einem optimistischen Blick auf die digitale Textumwandlung. Dass das Modell jedoch noch weiteres Training benötigte, erreichte schnell Konsens unter den Teilnehmer*innen.

Schließlich wurden noch weitere Text-spezifische Probleme besprochen. Im Zentrum stand zudem die Frage nach der Rolle, die geisteswissenschaftlich Forschende zukünftig in der Sammlung und Übertragung solcher Textkorpora spielen werden. So wurde die Bedeutung qualifizierter Kräfte beim Training der Transkriptionsmodelle hervorgehoben, zugleich aber auch eingeräumt, dass die mühsame Übertragung größerer Textbestände in Zukunft den digitalen Maschinen überlassen werden kann. Ferner besprachen die Teilnehmer*innen die Tatsache, dass die Verschiebung der Aufgabenbereiche innerhalb der „quantitativen“ und „qualitativen“ Analyse neue Fragestellungen eröffnet. Demzufolge erlauben die digitalen Methoden neue Forschungsansätze und Blickpunkte. Wie genau mit den übertragenen digitalen Texten weiter verfahren werden kann, wurde dann in der zweiten Hälfte der Workshop-Woche thematisiert.

Die automatische Identifizierung von Eigennamen und Orten mit Named Entity Recognition

Die weitere Arbeit mit der transkribierten Chronik fand in sogenannten Jupyter Notebooks statt, interaktiven Online-Notizbüchern, in denen sich Programmcode verschiedener Programmiersprachen ausführen lässt. Die Universität Münster stellt mit dem Jupyterhub eine Plattform zur Datenanalyse mit vielfältigen Methoden zur Verfügung, die sich mit einer Universitäts-Kennung nutzen lässt.

Als Erstes sollten sich die Teilnehmenden mit den Grundfunktionen eines Jupyter Notebooks vertraut machen. Die im weiteren Verlauf zum Einsatz gekommenen Codebausteine sind in der Programmiersprache Python geschrieben, sodass eine erste Aufgabe darin bestand, vorgefertigte Python-Bausteine in der Jupyter-Umgebung auszuführen.

Im nächsten Arbeitsschritt wurde nun aus den vielen einzelnen Textdokumenten, die Transkribus geliefert hatte – nämlich eines für jede Seite der Chronik – ein reiner Fließtext erstellt. Darauf aufbauend konnten nun Methoden des Natural Language Processing (NLP) angewendet werden. Hinter diesem Namen verbirgt sich die maschinelle Verarbeitung natürlicher Sprache, also zum Beispiel sowohl Alltagsprache als auch längerer (Erzähl-)Texte, durch Computerprogramme. Zum NLP-Bereich zählen zum Beispiel Tokenisierung und Named Entity Recognition. Tokenisierung bezieht sich auf das Aufteilen eines Textes in seine grundlegenden Bestandteile, die als Tokens bezeichnet werden. Ein Token kann ein Wort, eine Zahl oder eine Satzzeichenfolge sein. Named Entity Recognition meint die Identifizierung von benannten Entitäten wie Personen, Orten und Organisationen im Text.

Dafür stehen verschiedene Bibliotheken, also Sammlungen von Funktionen, zur Verfügung. Schnell wurde klar, dass obwohl die verwendeten Sprachmodelle schon sehr umfangreich sind, die Sprachstufe der Chronik die Modelle an ihre Grenzen kommen lässt.

Zum Abschluss des Tages initiierten die Mitarbeiter*innen des SCDH eine Diskussion um die Möglichkeiten und Grenzen von generativen Sprachprogrammen, wie etwa ChatGPT3 von OpenAI. Der Aufhänger der Diskussion bestand in der Nutzung eines ähnlichen Tools für die Auswertung der Chronik. Die Teilnehmenden sahen einige kritische Punkte, wie die zukünftige Kommerzialisierung von KI-Technologie, erkannten aber auch das große Potential für geisteswissenschaftliche Forschung an.

Anreicherung der Edition mit Normdaten und Visualisierung

Am vierten und letzten Nachmittag des Workshops lernten die Teilnehmerinnen und Teilnehmer wie man eine Edition semantisch anreichern kann. Ausgangspunkt war die Chronik im JSON-Format mit dem Chroniktext und den Entitäten, die wir am Vortag per Named Entity Recognition identifiziert hatten. Diese waren zu diesem Zeitpunkt jedoch nur mit einem Kürzel wie PER für Person oder LOC für Location gekennzeichnet. Wir wollten diese Personen und Orte jedoch mit Normdaten (wie z. B. der GND) oder Wissensdatenbanken wie Wikidata verknüpfen.

Dazu führte der Workshopleiter, Dr. Immanuel Normann, uns in das Tool OpenRefine ein. Damit lassen sich umfangreiche Datensammlungen bereinigen und mit ebensolchen zusätzlichen Daten anreichern. OpenRefine arbeitet jedoch nicht mit JSON-Dateien, sondern mit tabellarischen Daten. Deshalb mussten die Entitäten aus der Chronik in Tabellenform gebracht werden, bevor sie dort weiterverarbeitet werden konnten. Herr Normann hatte in den Jupyter-Notebooks bereits einen Code vorbereitet, den wir nur ausführen brauchten, um diesen Schritt durchzuführen.

Anhand der importierten Datei konnten wir schließlich die umfangreichen und sehr zeitsparenden Funktionen testen, die OpenRefine bietet – wie das Filtern und Facettieren. Dies bedeutete beispielsweise, dass wir alle Varianten des Ortes Warendorf, die in Transkribus teilweise fehlerhaft erkannt worden waren, mit wenigen Klicks vereinheitlichen konnten. Schließlich lernten wir, wie einfach die identifizierten Entitäten mit Hilfe der Funktion Reconcile mit der GND-Normdatei verknüpft werden können. Dabei fiel uns allerdings auch schnell auf, dass hier Vorsicht geboten ist, da beispielsweise der prominenteste Vorschlag für die Entität Münster gar nicht die Stadt Münster in Nordrhein-Westfalen war.

Außerdem zeigte uns Immanuel Normann, wie wir die normalisierte (d.h. bereinigte) und angereicherte Tabelle exportieren und mit dem Gesamttext der Chronik im JSON-Format verbinden können. Auch dazu hatte er einen Code-Schnipsel vorbereitet, den wir in unseren Jupyter-Notebooks einfach ausführen konnten. Das Ergebnis war eine JSON-Datei, die den per Transkribus erkannten handschriftlichen Text enthält, darunter – in Listenform – die per Named Entity Recognition erkannten Entitäten und die in OpenRefine normalisierte und mit GND-Daten angereicherte Variante dieser Entitäten (siehe Abbildung 2).

Abbildung 2: Ausschnitt aus der Chronik im angereicherten JSON-Format

Zum Abschluss des Tages lernten wir noch die Open-Source-Software Gephi kennen, die zur Darstellung von Netzwerken verwendet werden kann. Dazu hatte Herr Normann Daten über Spenden aus der Chronik des Klosters Vinneberg extrahiert, die wir visualisieren konnten. Solche netzwerkanalytischen Betrachtungen können dabei helfen, größere Datensätze aus einer makroskopischen Sicht zu analysieren und daraus potentiell neue Erkenntnisse zu ziehen.

Fazit zum Workshop

Der viertägige Nachmittags-Workshop lieferte eine umfangreiche und ambitionierte Einführung in die einzelnen Arbeitsschritte, die bei der Erstellung einer digitalen Edition anfallen können. Besonders nützlich war es, dass die Teilnehmerinnen und Teilnehmer ohne lange Einführung alle Arbeitsschritte selbst durchführen konnten, was ein besseres Verständnis des gesamten Arbeitsprozesses ermöglichte.  Durch das ausführliche Trainingsmaterial, das auch im Nachhinein noch zur Verfügung gestellt wurde, ist es möglich, diese Arbeitsschritte zu rekonstruieren und auf eigene Projekte anzuwenden.

Kategorien: , ,

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Captcha wird geladen…

Weitere Beiträge