Encoding Cultures united: Erfahrungsbericht zur Joint MEC and TEI Conference 2023

Der Austausch von Erkenntnissen und Forschungsmethoden ist einer der wichtigsten Bausteine wissenschaftlichen Arbeitens. Die Kommunikation zwischen den verschiedenen geisteswissenschaftlichen Disziplinen fördert das VerstĂ€ndnis und die Bewahrung kultureller Äußerungen und Prozesse. Auch die Literatur- und Musikwissenschaft stehen nunmehr vor den technischen Herausforderungen des 21. Jahrhunderts, wobei besonders die Text Encoding Initiative (TEI) und die Music Encoding Initiative (MEI) wesentliche Schritte der digitalen Transformation gehen. Sie sind bemĂŒht, die vielzĂ€hligen Texte aus Menschenhand in einer maschinenlesbaren Struktur zu kodieren und zur VerfĂŒgung zu stellen.

Vom 04. bis 08. September 2023 trafen sich beide Coding-Communities in Paderborn und gingen bei der Joint MEC and TEI Conference in regen Austausch. Obwohl die MEI und die TEI bis in die technischen Strukturen hinein eng miteinander verwandt sind, kamen bislang nur vereinzelt Kontakte zustande. In Paderborn waren die „Encoding Cultures“ allerdings vereint. In diesem Beitrag teile ich meine Erfahrungen, die ich als Teilnehmer bei der TEIMEC gesammelt habe. Die ersten beiden Konferenztage boten die Möglichkeit, in verschiedenen Workshops zusammenzukommen und die Verbindung von TEI und MEI praktisch zu erfahren. Von Mittwoch bis Freitag wurden zahlreiche VortrĂ€ge gehalten und Diskussionen zu Projekten und wissenschaftlichen Problemstellungen gefĂŒhrt.

Erster Workshoptag: Integrating TEI and MEI

Der Montag bot gleich den optimalen Einstieg in die Thematik der aufeinandertreffenden Encoding Cultures. Im Workshop „Integrating TEI und MEI“ beschĂ€ftigten sich die Teilnehmer mit der zentralen Frage: Wie verbinde ich die beiden XML-basierten Kodierungsformate, beispielsweise wenn ich Musiknoten in einem transkribierten Brief habe? Wie lĂ€sst sich also Musik im Fließtext darstellen? Workshopleiter waren vier Mitarbeiter aus dem Forschungsprojekt „Beethovens Werkstatt“, die sich 2020–2022 im dritten Modul des Projekts mit genau diesen Fragestellungen beschĂ€ftigt hatten.

Der zunĂ€chst naheliegendste Weg war schnell eruiert: das Notenbeispiel einfach als Bild zu integrieren. Doch damit wĂ€re der abgebildete Notentext nicht maschinenlesbar und die Kodierung somit unvollstĂ€ndig. Stattdessen sollte besser das Notenbeispiel im MEI-Format kodiert und ins Dokument eingefĂŒgt werden. Ein wesentlicher Problempunkt ist dabei aber das TEI-Schema, auf dem das Dokument beruht – es besitzt zunĂ€chst keinerlei Wissen ĂŒber MEI.

Abhilfe verspricht das <notatedMusic>-Element, welches als Container fĂŒr die MEI-Kodierung fungiert. Mit Pointern lassen sich so die externen Kodierungen der Notenbeispiele in das TEI-Dokument einbetten. Sodann kam aber der berechtigte Einwand einer Teilnehmerin: FĂŒhrt dieses Vorgehen mit verschiedenen Dokumenten nicht schnell zu Zugriffsproblemen, vor allem bei der Nutzung von APIs? In der Tat: Es gibt noch eine dritte, bessere Lösung. Die MEI-Kodierung direkt im Container, also im selben Dokument vorzunehmen. Dieses Vorgehen forderte zusĂ€tzlich die Anpassung des TEI-Schemas und die Implementierung des MEI-Namespace. Vonstatten ging dies per Schema-Metasprache ODD (One Document Does it All), einem TEI-Dokument, mit dessen Hilfe die benötigten Module implementiert werden, um einen validen Code fĂŒr die MEI-Integrierung zu gewĂ€hrleisten.

MEI-Kodierung, integriert in TEI per <notatedMusic>-Element

Nach erfolgreicher Kodierung und Validierung des Workshop-Beispiels stand abschließend noch die Visualisierung an. Die Teilnehmer erfuhren im letzten Part, wie sie das TEI-Dokument per XSLT (Extensible Stylesheet Language Transformation) ins HTML-Format konvertieren können, um den transkribierten Musikerbrief im Internet darstellen zu können. Die MEI-Inhalte werden dabei durch die Notensatzbibliothek Verovio in Grafiken umgewandelt, um dann als Noten im Fließtext zu erscheinen. Das VerstĂ€ndnis von der MEI-Integrierung in TEI-Dokumenten erwies sich konferenzĂŒbergreifend als essentiell. So tauchte das <notatedMusic>-Element immer wieder in VortrĂ€gen und Workshops auf.

Zweiter Workshoptag: Publishing TEI and MEI Data

Vor allem fĂŒr kleinere Projekte stellt die Veröffentlichung von Forschungsergebnissen eine Herausforderung dar, da die Entwicklung eigener Infrastrukturen zur Verbreitung von Editionen oftmals mit einem sehr großen Aufwand verbunden ist. Abhilfe verspricht dabei der „TEI Publisher“. Die Entwickler*innen Wolfgang Meier, Magdalena Turska und Lars Windauer stellten am zweiten Konferenztag ihre „Instant publishing Toolbox“ im Workshop „Publishing TEI and MEI with TEI Publisher“ vor.

TEI Publisher (https://teipublisher.com/index.html)

Das auf eXist-db basierende OpenSource-Programm ermöglicht eine einfache Visualisierung von XML-Dokumenten und deren Ausgabe in verschiedenen Formaten. Es eignet sich demnach als optimale Grundlage fĂŒr die Veröffentlichung von Texteditionen. Beispiele sind die Alfred-Escher-Briefausgabe oder die Edition der ReisetagebĂŒcher Johann Conrad Fischers. Der Import der TEI-Dokumente ist simpel. Auch andere Dateiformate wie etwa Word-Dokumente können problemlos hochgeladen werden, da die docx-Dateien direkt ins TEI-Format umgewandelt werden. Die Teilnehmer des Workshops konnten dies durch den exemplarischen Import kurzer Kochrezepte selbst ausprobieren.

Ein zentrales Element des TEI-Publishers ist die einfache ODD-Customization. Die Möglichkeit, die TEI-Module in einer grafischen OberflĂ€che zu verwalten, erweist sich als besonders vorteilhaft. Die benötigten Module können somit schnell und ĂŒbersichtlich eingebunden werden, und das Ergebnis ist direkt nachvollziehbar. Auch die Einbindung von Musiknotation in Form von MEI-Kodierung kann schnell ĂŒber den Modulimport geregelt werden. HierfĂŒr erwies sich der Integrating-Workshop vom Vortag als hilfreich.

TEI Publisher – ODD-Customization (https://teipublisher.com/img/editor.png)

Der TEI-Publisher bietet fĂŒr die Annotation von Textinhalten vielzĂ€hlige Funktionen. Vor allem das name-tagging geht mit dem eingĂ€ngigen „Annotation Template“ einfach vonstatten. Als Visualisierungsmöglichkeiten steht die diplomatische oder die edierte Ansicht zur VerfĂŒgung, die durch das Element um weitere Funktionen wie Highlight-Stufen erweiterbar ist. FĂŒr konkrete Editionsprojekte erlaubt der TEI-Publisher schließlich die Erstellung von Applikationen, um in die jeweiligen Projektwebsites eingebettet zu werden. Mit wichtigen Funktionen wie die Indexierung der annotierten Textinhalte wurde den Workshop-Teilnehmern ein Ă€ußerst nĂŒtzliches Werkzeug vermittelt.

Beginn der Vortragsreihen

Auch die Pausen zwischen den Workshops und VortrĂ€gen wurde von den Konferenzteilnehmern ausgiebig genutzt, um mit Kolleg*innen ins GesprĂ€ch zu kommen. Die Aula des Heinz- Nixdorf-Instituts (Mo–Di) sowie der Vorraum im UniversitĂ€tsgebĂ€ude (Mi–Fr) waren in den Kaffeepausen entsprechend voll von lebhaften Unterhaltungen. Man erfuhr von verschiedensten Projekten und lernte die Leute dahinter kennen. Besonders hervorzuheben ist dabei die Offenheit und Hilfsbereitschaft der TEI- und MEI-Community. Die Begegnung auf Augenhöhe sorgte jederzeit fĂŒr eine freundliche AtmosphĂ€re.

Kaffeepause im Heinz-Nixdorf-Institut (Foto: Dennis Ried)

In den folgenden drei Tagen hielten eine Vielzahl an Referenten VortrĂ€ge ĂŒber ihre laufenden Forschungsprojekte. Neben der Vorstellung ihrer Methoden und Ergebnisse standen besonders die technischen Herausforderungen im Vordergrund. Entsprechend konnte man auch in zahlreichen Interessengruppen (IGs) spezifische Fragestellungen diskutieren. Ich entschied mich bei der Auswahl der Vortrags-Sessions fĂŒr ein ausgeglichenes Programm. Obwohl mein fachlicher Hintergrund vorrangig im Bereich der Musikwissenschaften liegt, erfuhr ich von spannenden literaturwissenschaftlichen Projekten und ihrer Herangehensweise an die TEI-Kodierung in der digitalen Editionspraxis. Drei VortrĂ€ge ragten dabei fĂŒr mich besonders heraus:

1. Music Encoding mit MEI-Friend

FĂŒr die MEI-Community ist es lĂ€ngst Konsens, dass die Kodierung von Musik ein zeitintensives Unterfangen darstellt. Aus diesem Grund stellt der MEI-Friend sowohl fĂŒr AnfĂ€nger*innen als auch fĂŒr fortgeschrittene Nutzer*innen des MEI-Formats ein Ă€ußerst nĂŒtzliches Werkzeug dar, um zeitgleich zur Kodierung das entsprechende Notenbild in graphischer Darstellung zu sehen. Die Nutzerfreundlichkeit steht dabei fĂŒr die Entwickler David Weigl und Werner Goebel im Vordergrund. Der MEI-Friend ist kostenlos, ermöglicht kollaboratives Arbeiten, ist ohne Installation im Browser nutzbar und hat ein multilinguales User-Interface. Weitere Vorteile sind die GitHub-Integration sowie die Solid-Integration (Social Linked Data). Die sofortige SVG-Darstellung des kodierten Materials ermöglicht letztlich eine direkte Fehlerkontrolle und stellt somit eine willkommene Zeitersparnis fĂŒr viele digitale musikwissenschaftliche Projekte dar.

MEI-Friend (https://mei-friend.mdw.ac.at/)

2. Das Tasso in Music Project

Wie TEI und MEI wunderbar vereint werden können, zeigten die Verantwortlichen des „Tasso in Music Projects“. Am Dienstag stellten Emiliano Ricciardi und Craig Stuart Sapp ihre digitale Edition der Poesie Torquato Tassos und ihre vielzĂ€hligen Analysefunktionen vor. Nicht nur enthĂ€lt die Arbeit sowohl Textedition per TEI als auch Musikedition per MEI, sondern sie liefert zusĂ€tzliche Such- und Filterfunktionen, die es ermöglichen, das Werk Torquato Tassos nach Belieben zu erkunden.

In musikalischer Hinsicht kann nach Tonhöhen, Intervallen oder Rhythmen gesucht werden oder ein quantitativer Abgleich vorgenommen werden. Derweil ermöglicht die Quersuche per Konkordanzen, Varianten von Textzeilen in anderen Werken zu finden. Die Analysefunktionen ĂŒberzeugten durch ihre graphisch und farblich optimierte Darstellung. Die quantitativen Auswertungen tragen mit dazu bei, ein fĂŒr die Forschung neuartiges Bild von Kompositionsentwicklungen zu zeichnen.

Tasso in Music Project, Pitch density Analysis (https://www.tassomusic.org/analysis/pitch-density/)

3. Deep Learning OMR

WĂ€hrend die Literaturwissenschaften schon lĂ€nger mit Programmen wie Transkribus oder OCR4all in der Lage sind, sowohl Druck- als auch Handschriften mit dem Computer zu erkennen und zu transkribieren, steht die Musikwissenschaft mit der Optischen Notenerkennung (OMR) noch am Anfang. Aufgrund der KomplexitĂ€t finden die computergestĂŒtzten Verfahren vor allem im Bereich der Mensuralnotation Verwendung. Diese Notenschrift ist vergleichsweise simpel aufgebaut und enthĂ€lt weniger Zeichen, was die Operationalisierung vereinfacht. Einen großen Schritt machte die OMR schließlich mit dem Aufkommen von Deep Learning Systems. Dazu prĂ€sentierte Jorge Calvo-Zaragoza eine Fallstudie zur nutzerzentrierten Gestaltung von Machine-Learning-ArbeitsablĂ€ufen.

Das zusammen mit seinem Team entwickelte Erkennungssystem erreichte bei Mensuralnotentexten eine Erkennungsfehlerquote von 2-3%, was bereits ein beachtlicher Wert ist (je niedriger desto besser). Davon fielen rund ein Prozent allein auf sogenannte Ligaturen, also spezielle Notenzeichen, die mehrere Noten miteinander verbinden. Diese Zeichen konnte das System besonders schlecht erkennen, da es insgesamt zu wenig Ligaturen im Gesamtkorpus gab. Zur Behebung dieses Klassifikationsfehlers wurde ein synthetisches Korpus erstellt, um mit verschiedenen Kodierungen zu experimentieren. Ziel war es, den besten Kompromiss zwischen KorpusgrĂ¶ĂŸe und Leistung auszuwĂ€hlen. Schließlich konnte der Aufwand fĂŒr die Erkennung und Nachbearbeitung um den Faktor 10 reduziert werden, sodass eine vollstĂ€ndige und korrekte Kodierung einer Standard-Notenbuchseite in weniger als einer Minute möglich ist.

Der Vortrag regte durchweg großes Interesse fĂŒr das Thema an. Nicht zuletzt, da auch die Ausweitung des Deep Learning Systems auf die heutzutage verwendete Notenschrift, die Common Music Notation (CMN), angesprochen wurde. Mit dem Ligaturen-Beispiel wurden zudem zwei der wichtigsten Aspekte des digitalen Arbeitens thematisiert: die Menge der Daten und die Möglichkeit einer standardisierten Verarbeitung.

Ein gelungener Abschluss

Einen gebĂŒhrenden Abschluss der Konferenz bot die Closing Keynote von Till Grallert. Mit Humor und viel sachlichem VerstĂ€ndnis mahnte er in seinem Vortrag zum Thema „Mind the <gaps>! Digital editing in a world in crisis“ zur Selbstreflexion digitaler Forschungskulturen. Am Beispiel der Erforschung arabischer Zeitschriften machte Till Grallert deutlich, wie unterschiedlich die Zugangsbedingungen verschiedener globaler Communities zu Strom, Internet, Archiven und Kodierungsformaten sind. Es höre nicht auf bei bekannten Problemen wie dem „brain-drain“. Die englische Sprache mĂŒsse sich ebenso ihrer digitalen Hegemonie gegenĂŒber benachteiligten Sprachen bewusst werden. So steht besonders Arabisch vor zahlreichen digitalen Problemen: Die Sprache besitzt weitaus mehr Zeichen und Fonts, es gibt große regionale Unterschiede in der Wortbedeutung und es gibt eine andere Leserichtung. Dies verursacht schon bei der XML-Kodierung Konflikte: Elementinhalte mit arabischer Sprache werden von rechts nach links gelesen, aber der restliche Code von links nach rechts.

Hinzu kommen „Geo Fencing“, „Paywalls“ und „Copyright Regimes“, die die Zugangsbedingungen zu Forschungsquellen – besonders in nicht-europĂ€isch-westlichen LĂ€ndern – erschweren. Dies fĂŒhrte laut Grallert zu einer Angst vor schwierigen Forschungsthemen, was wiederum den Trend der euro-zentrierten Forschung begĂŒnstige. Er bot aber auch Lösungswege an und formulierte einen Appell an die globale Forschungsgemeinschaft. Grallerts Motto war eingĂ€ngig: „Build what we need with what we have“. Er forderte freien Zugang zu kulturellen GĂŒtern, rief dazu auf, die Bandbreite der verwendeten Quellen ĂŒber den europĂ€ischen Raum hinaus zu erweitern und vertrat einen interessanten, minimalistischen Ansatz: Menschen sollten die Ressourcen und Infrastrukturen nutzen, auf die sie bereits zugreifen können, anstatt gezwungen zu werden, eigene Infrastrukturen aufzubauen, die sie nicht aufrechterhalten können.

Grallerts Appell, zu nutzen, was bereits frei zur VerfĂŒgung steht, passte meines Erachtens sehr gut zur Konferenz. Open-Source und Open-Access Bestrebungen sowie die Betonung der hilfsbereiten Community gehörten zu den Kernpunkten der TEIMEC: Auch die Reaktionen der Teilnehmer*innen zeigten, dass die Konferenz ein voller Erfolg war. Wann das nĂ€chste vergleichbare Event stattfinden wird, ist noch unklar. Allerdings sei es allen Interessierten, von Bachelorstuden*tinnen bis Doktorant*innen, empfohlen.

Kategorien: , ,

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Captcha wird geladen…

Weitere BeitrÀge