Bei der DHd-Konferenz 2024 in Passau waren Large Language Models das Thema schlechthin. Und auch in Münster setzen sich viele mit den neuen Möglichkeiten und Herausforderungen von Chatbots und Co auseinander, nicht zuletzt das Team des SCDH. Im Folgenden ein Auszug aus einer Diskussion, die sich bei uns im Rückblick auf die DHd 2024 ergab, und die wir beim nächsten Münsteraner DH-Tag am 5. Juli 2024 gern vertiefen wollen.
Redaktion: Es klang ja gerade schon an: Large Language Models waren also das große Hype-Thema bei der DHd 2024?
Jan Horstmann: Absolut, ich hatte das Gefühl, die halbe Konferenz hat sich mit Large Language Models auseinandergesetzt. In vielen Bereichen wurde GPT als Synonym verwendet für LLMs. Ich würde dafür plädieren, wirklich eher von Large Language Models zu sprechen, ich habe auch das Gefühl oder die Hoffnung, dass proprietäre Angebote wie ChatGPT abgelöst werden von offen zugänglichen, kollaborativ zusammengestellten Large Language Models …
Redaktion: … was es ja jetzt auch gibt …
Jan Horstmann: Ja, z.B. von der GWDG, das ist uns schon unter die Fittiche gekommen. Das ist ganz toll, die haben das jetzt öffentlich zur Verfügung gestellt. Da kann man unterschiedliche Modelle auswählen, unter anderem auch GPT 3 und GPT 4. Die haben bei der Entwicklung GWDG-getreu ganz viel darauf geachtet, dass der Datenschutz gewahrt bleibt. Man kann das, glaube ich, mit ruhigerem Gewissen verwenden als das originale ChatGPT zum Beispiel, oder andere Produkte nicht-europäischer Anbieter. Für uns interessant: Immanuel und ich waren am Dienstag in einem ganztägigen Workshop, in dem es um Large Language Models bei digitalen Editionen ging.
Immanuel Normann: Also ich habe da tatsächlich die Erfahrung gemacht, dass es auch wieder mal eine gar nicht so kleine Verunsicherung bei mir hervorruft, wenn ich damit in Berührung komme, weil es doch grundsätzlich immer wieder bisherige traditionelle Methoden in Frage stellt. Bei diesem Workshop ging es primär darum, wie man diese Sprachmodelle nutzen kann als Werkzeug, um unstrukturierte Daten in strukturierte Daten zu überführen. Sagen wir mal, man hat einen Text gescannt, und Texterkennung drüber laufen lassen und dann bemüht man ein Sprachmodell, um daraus Vorschläge zu generieren, wie man das in TEI codieren könnte. Das ist ja wirklich spannend und avanciert, das wurde uns da auch vorgeführt, was man alles machen kann und es war sehr verblüffend. Aber das Endprodukt sind gewissermaßen strukturierte Daten und das ist dann ja auch irgendwie ein Missmatch: Man will trotzdem wieder zu den strukturierten Daten hin, fragt sich aber, ja, brauchen wir die überhaupt noch, wenn wir diese Sprachmodelle haben, die ja sehr gut mit unstrukturierten Daten umgehen können? Also das, was man dann am Ende mit den strukturierten Daten machen will, könnte man das nicht direkt gleich auf unstrukturierten Daten mit Sprachmodellen machen? Das ist so eine Frage, die im Workshop aufkam.
Redaktion: Wobei sich da ja dann wieder die Frage stellt, ist denn nachvollziehbar, wie diese KI das verarbeitet? Und kann man damit umgehen oder …
Immanuel Normann: Das war natürlich das zweite ganz große Thema nach meiner Wahrnehmung: Also wie kann man überhaupt Qualität sicherstellen? Es ist ja doch im Großen und Ganzen eine große Black Box. Man kann natürlich Tests durchführen gegen Goldstandards, und dann hat man statistische Wahrscheinlichkeiten, die man sich ausgeben lassen kann, wie zuverlässig so ein Werkzeug ist, aber man weiß natürlich, auch wenn es sagen wir mal 95 % das „richtige“ Ergebnis liefert – was auch immer das heißen mag – weiß man natürlich trotzdem nicht, welche 5 Prozent sich wo verstecken. Und wie kriegt man das raus?
Jan Horstmann: Aber man kann ja die Ergebnisse evaluieren, oder? Im Moment wird zum Beispiel getestet, wie GPT einen bei der Erstellung von TEI oder auch bei der Character Recognition unterstützen kann, bei der semantischen Anreicherung von Texten, bei der Visualisierung von digitalen Editionen. Ich kann mir die Ergebnisse angucken und dann mit meiner wie auch immer gearteten Brille da draufschauen und sagen, das ist ein gutes Ergebnis, das ist ein annehmbares Ergebnis, das ist ein schlechtes Ergebnis. Wie kam es dazu? Und dann gucke ich mir meine Prompts an und es gibt ja mittlerweile auch Experimente und Erhebungen darüber, wie Prompt Engineering die Qualität der Ergebnisse beeinflussen kann. Da entsteht gerade, glaube ich, ein eigener neuer Wissenschaftsbereich. Also mit Prompt Engineering, mit gut gesetzten Prompts kann man die Qualität des Ergebnisses massiv beeinflussen. Und ich weiß nicht, ob es zielführend ist zu sagen, das ist ja immer diese Black Box, und ich weiß gar nicht genau, wie die zu ihren Ergebnissen kommt. Als Geisteswissenschaftler forsche ich aber trotzdem mit diesen Ergebnissen, also ich recherchiere irgendwo, ich nutze Tools und bin interessiert an den Ergebnissen, die da am Ende rauskommen, um sie in meinen geisteswissenschaftlichen Interpretations- oder Forschungsworkflow einzubetten. Und auch die Gegenstände, die wir untersuchen, sind ja menschlich gemachte Artefakte. Da weiß ich auch nicht so genau, wie die zustande gekommen sind. Literarische Texte in meinem Fall, weiß ich nicht, wie die genau geschrieben wurden oder welcher Gedanke zu welcher Formulierung geführt hat.
Redaktion: Ich könnte mir auch vorstellen, dass es einfach einen Methoden-Teil gibt, wo man deutlich macht, wir haben diese und jene Prompts gesetzt, weil wir diese und jene Annahmen haben. Und wenn ich die Methodik plausibel darstelle, kann man immer noch darüber diskutieren, ob sie denn angemessen ist für das, was ich da rausfinden will, aber dann ist es transparent.
Jan Horstmann: Ich denke auch. Also im Endeffekt ist die Hoffnung, dass viele grundsätzliche Aufgaben, die sehr viel Zeit fressen und sehr viel Kleinstarbeit bedeuten, effektiver erledigt werden. Wie zum Beispiel die schrittweise Erstellung von TEI-Dokumenten bei einer großen Sammlung von Texten: Das sind Standardaufgaben, dafür muss man Regeln definieren, die kann man aber natürlich auch dem Tool zur Verfügung stellen. Das Kontext-Window ermöglicht, dass man ganz konkret auch Regeln festlegt und sagt, erstell mir bitte das TEI nach folgenden Regeln, in dem und dem Schema, bezieh dich dabei bitte auf das und das Regelwerk des TEI-Konsortiums … Das wird sich etablieren, denke ich. Die Frage ist nicht, ob sondern wie. Und die Idee ist, dass die Editoren, die ja wirklich fachlich sehr geschulte, sehr großartig ausgebildete Menschen sind, dass die mehr Zeit bekommen, um die Dinge zu erledigen, die für sie auch interessanter sind. Nicht die manuelle Kleinstarbeit, sondern dass sie zum Beispiel mehr Zeit auf das Schreiben von textkritischen Apparaten verwenden können. In kritischen Editionen ist das ja in der Regel noch wichtiger als das eigentliche Setzen der Buchstaben.
Schreibe einen Kommentar