Am Freitag, den 14. Januar 2022 wurde vom Service Center for Digital Humanities der WWU ein virtueller Workshop zum Thema Visualisierung und Annotation von Texten unter der Leitung von Dr. Jan Horstmann veranstaltet. Es nahmen geisteswissenschaftlich Forschende der WWU sowie Studierende des Zertifikats Digital Humanities teil.
Nach einer kurzen Vorstellungsrunde ging es zunächst um die Theorie zur Annotation sowie Visualisierung: Digitale Texte können mithilfe entsprechender Programme mit Annotationen versehen werden. Das kann man sich so vorstellen, wie wenn man mit farbigen Stiften einen Text auf einem Blatt Papier mit Markierungen, Anmerkungen und Notizen versieht, nur eben in digitaler Form. Diese Annotationen können visuell in den unterschiedlichsten Formen, beispielsweise sogenannten Wordclouds oder Liniendiagrammen dargestellt werden, je nach dem, welche Darstellung die größte Aussagekraft bietet. Außerdem kann der Text zum Beispiel hinsichtlich der Häufigkeit bestimmter Wörter, des Auftretens von Wörtern mit einer vorgegebenen Ähnlichkeit zueinander oder des Vorkommens von ganzen Phrasen analysiert werden, wobei die verschiedenen Analysemethoden auch kombiniert werden können.
Im Workshop konnten die Teilnehmenden dies mit dem Programm CATMA selbst ausprobieren. Anschließend gab es einen Gastvortrag von Prof. Dr. Silke Schwand (Universität Bielefeld), die sich mit Vergleichen und analytischem Vokabular beim Annotieren befasst: „Vergleichspraktiken annotieren: Analytisches Vokabular gemeinsam entwickeln“.
Der erste Teil des Programms befasste sich mit dem Annotieren. Dazu wurde E.A. Poes Kurzgeschichte The Tell-Tale Heart als Beispieltext genutzt. Als erste Übung mit CATMA wurden Annotationen an diesem Text vorgenommen, die den zu Übungszwecken angelegten Tags – etwa literarische Stilfiguren wie Ausrufe oder Parallelismen – entsprechen. So markierten die Teilnehmenden entsprechende Textpassagen und besprachen ihre Ergebnisse in Kleingruppen.
CATMA kann zusätzlich Texte halbautomatisch annotieren. So können beispielsweise bestimmte Worte im Text automatisch bestimmten Tags zugeordnet werden.
Der zweite Programmteil des Workshops führte in das Analyze-Modul ein, mithilfe dessen diverse Anfragen gestellt werden können, die Daten zum Text ausgeben. In einem zweiten Schritt können diese visualisiert werden. Hier kann der Text auch ohne jegliche Annotationen verwendet werden. Auch dieses Modul wurde nach einer kurzen Einführung eigenständig erprobt und anhand von Beispielaufgaben für Analysen genutzt.
Eine beispielhafte Anfrage ist die Ausgabe einer Wortliste. Diese wird in CATMA als Liste aller Wörter, die eine Häufigkeit größer als Null haben, formalisiert. Zu beachten ist hier, dass der gesamte hinterlegte Text durchsucht wird, falls demnach Verlagsangaben o.ä. vorhanden sind, müssen diese zunächst aus der Menge des zu analysierenden Textes eliminiert werden. In Abbildung 6 ist zu erkennen, dass das Wort „the“ mit 140 Fundstellen am häufigsten vorkommt. Diese Phrase wurde ausgewählt, um sie in einem „KWIC“ (d. i. Keyword in Context) zu visualisieren.
Eine weitere Möglichkeit der Visualisierung von Häufigkeitslisten ist der Distributionsgraph. Hier wird das Vorkommen einzelner Phrasen im Verlauf des Textes dargestellt, indem ihre Häufigkeit in jeweils einem Zehntel des Gesamttextes ermittelt und zu einem kontinuierlichen Graphen verbunden wird. An dieser Stelle zeigt sich beispielhaft eine der Schwierigkeiten von Visualisierungen: Einerseits korrespondieren die mathematisch ermittelten 10 %-Schritte nicht zwangsläufig mit der inhaltlichen Ebene der Kurzgeschichte, anderseits kann anhand der Voreinstellungen nicht abgebildet werden, ob sich die Phrase gleichmäßig in den Zehnteln verteilt oder beispielsweise im vierten Zehntel zehnmal hintereinander das Wort „I“ steht. Dies muss im Hinblick auf eine konkrete Forschungsfrage unbedingt berücksichtigt werden.
Wenn statt ausschließlich Wörtern auch die Annotationen visualisiert werden sollen, sollten mögliche Unklarheiten oder Ambiguitäten möglichst auch in der Visualisierung kenntlich sein, da der Anspruch an Visualisierungen häufig ist, die „Wahrheit“ über die ermittelten Informationen abzubilden. Folglich gewinnt die sogenannte visual literacy an dieser Stelle an Relevanz: Um korrekte und sinnvolle Schlussfolgerungen anhand der Informationsvisualisierungen ziehen zu können, ist die Kompetenz zum Lesen, aber auch zum Erstellen solcher Visualisierungen notwendig.
Neben der grafischen Darstellung als Doubletree bietet CATMA außerdem die Möglichkeit zur Darstellung der Analyseergebnisse als Wortwolke. Die wohl populärste Visualisierungsform für Wortmengen lässt sich hier auf vielfältige Weise optisch anpassen, etwa die Anzahl der aufgenommenen Worte, deren Anordnung oder die Schriftgrößen. Hierbei sind die sieben visuellen Variablen zu beachten (Form, Größe, Helligkeitswert, Muster, Farbe, Richtung, Position). Ein Grundsatz für wissenschaftliche Visualisierungen lautet, dass pro semantischer Kategorie möglichst wenige der Variablen angewandt werden sollte, konsequent bedeutet dies: so viele Variablen wie nötig, jedoch so wenige wie möglich!
Weiterführende Informationen sowie Tutorials und Manuals zum Ausprobieren finden sich unter https://catma.de/. Dort können niedrigschwellig ein eigener Account und kostenfrei eigene Projekte angelegt werden. CATMA kann neben lateinischen Schriftzeichen auch zahlreiche weitere Schriftzeichen verarbeiten, etwa kyrillische, griechische oder arabische. Der Workshop des SCDH konnte neben theoretischer Reflexion zur Funktion und zu Grenzen von Annotation sowie zur Visualisierung von Daten gleichzeitig einen praktischen Einstieg in das Programm CATMA bieten. Schließlich gilt Annotation als relevanter hermeneutischer Beitrag und wird als kulturelle Praxis seit Jahrhunderten angewandt. Das Hands-On-Format führte zu einer gewinnbringenden Symbiose von Theorie und praktischer Anwendung in der eigenen Forschung.
Schreibe einen Kommentar