|

Semantic Web und Wikidata. Konzepte formaler Beschreibungs- und Abfragesprachen

Bericht zur Sitzung des Arbeitskreises Digital Humanities, WWU MĂŒnster, 1. MĂ€rz 2019

Vor 30 Jahren, im MĂ€rz 1989, legte der Physiker und Informatiker Tim Berners-Lee am Kernforschungsinstitut CERN den Grundstein fĂŒr das uns heute so selbstverstĂ€ndlich gewordene World Wide Web. Der Idee nach sollte eine Infrastruktur geschaffen werden, die den Informationsaustausch unabhĂ€ngig vom jeweiligen Computersystem mittels eines einheitlichen Übertragungsstandards ermöglicht. Anders als beim bis dahin etablierten Internet, das ein Netzwerk von Computern war, wurden hier nicht mehr die Rechner, sondern per Hyperlink Dokumente miteinander verbunden. Doch Tim Berners-Lees Vision ging noch weiter. Er ertrĂ€umte ein Internet, in dem Computer auch dazu in der Lage wĂ€ren, die in den Dokumenten enthaltenen Informationen zu verstehen und zu verarbeiten – geboren war die Idee vom Semantic Web.

Der Gedanke hinter dem Semantic Web ist es, das bestehende World Wide Web um die Dimension der Bedeutung zu erweitern. Denn anders als Menschen kommunizieren Computer mittels formaler Sprachen. Die Grundlage des Semantic Web ist daher ein formalisierter Beschreibungsstandard, der sich an natĂŒrlichen Sprachen orientiert – mit dazugehöriger Abfragesprache. Passend zum Geburtsmonat des Web bot Dr. Immanuel Normann vom Service Center Digital Humanities MĂŒnster den Mitgliedern des Arbeitskreises Digital Humanities am 1. MĂ€rz eine EinfĂŒhrung in dessen Konzepte und FunktionalitĂ€ten. Am Beispiel von Wikidata, einer freien und offenen Wissensdatenbank, fĂŒhrte er anschaulich vor, wie die semantische Suche funktioniert und wo ihre Grenzen liegen. Hier geht es zu seiner PrĂ€sentation.

Warum ist das Semantic Web reizvoll?

Abbildung 1: Linked Data Cloud (Quelle: EUCLID)

Der Informationsaustausch zwischen Mensch und Computer beziehungsweise Computer und Computer basiert heutzutage noch ĂŒberwiegend auf syntaktischen Standards. Nutzen wir eine Suchmaschine oder beispielsweise einen digitalen Bibliothekskatalog, um bestimmte Informationen zu recherchieren, dann geschieht das ĂŒberwiegend durch den Abgleich von Schlagworten. Viele Suchverfahren können hierbei nicht die kontextgebundene Bedeutung der Suchparameter und Ergebnisse erfassen. Daher mĂŒssen Trefferlisten oftmals noch vom informationellen Rauschen befreit oder die Recherche nĂ€her eingegrenzt werden.

Das semantische Suchverfahren bietet demgegenĂŒber den Vorteil, dass durch eindeutig formulierte Fragestellungen das erwartete Ergebnis spezifiziert werden kann. Zudem wird ĂŒber die nĂ€here Beschreibung der Daten Kontextwissen abrufbar. So können komplexe Suchanfragen gestellt werden, fĂŒr deren Beantwortung bisher Expert*innen mit Spezialwissen erforderlich gewesen wĂ€ren. Beispielsweise könnte man die Frage formulieren, in welchen literarischen Werken Figuren auftauchen, die so auch in der „Göttlichen Komödie“ von Dante Alighieri zu finden sind – eine Frage, die eine Google-Suche nicht ohne Weiteres zu beantworten vermag.

Wissensmodellierung – Maschinen lernen Verstehen

Abbildung 2: Mit RDF-Graphen Beziehungen zwischen EntitÀten reprÀsentieren (Quelle: eigene Grafik von Dr. Immanuel Normann)

Damit solche Fragestellungen möglich sind, muss Wissen, wie zum Beispiel ĂŒber die „Göttliche Komödie“, maschinenverstĂ€ndlich beschrieben werden. Die einfachste Form hierfĂŒr ist der Aussagesatz, der aus einem Subjekt, einem PrĂ€dikat und einem Objekt besteht. Das sieht stark vereinfacht etwa so aus: „Dante Alighieri – ist Autor von – Göttliche Komödie.“ Diese Struktur wird im Datenmodell des Resource Description Frameworks (RDF) durch sogenannte Tripel reprĂ€sentiert. Sie bestehen aus zwei Knoten (Subjekt und Objekt) und einer Kante (PrĂ€dikat), die die Art der Beziehung zwischen den Knoten spezifiziert. Damit ist aber zunĂ€chst nur eine Syntax vorgegeben.

Die Interpretierbarkeit von RDF-Aussagen wird mit Ontologien beziehungsweise Schemasprachen gewĂ€hrleistet.[1] Sie geben Definitionen und Regeln fĂŒr die möglichen BeschreibungsgegenstĂ€nde, ihre Eigenschaften und Relationen vor. So können die einzelnen Ressourcen Klassen zugeordnet, hierarchisiert und damit in einen grĂ¶ĂŸeren Bedeutungszusammenhang eingeordnet werden. Auf diese Weise kann maschinell verarbeitet werden, dass „Dante Alighieri“ nicht bloß eine Zeichenfolge, sondern eine Instanz der Klasse „Person“ ist und zugleich als Autor in Beziehung zu verschiedenen literarischen Werken steht, die ihrerseits wieder mit anderen Informationen verknĂŒpft werden.

Über dieses semantische Netz lĂ€sst sich das implizite Wissen, das Maschinen zuvor verborgen blieb, abfragen und verarbeiten. Entscheidend hierfĂŒr ist, dass die einzelnen Bestandteile der Tripel durch einzigartige Bezeichner eindeutig gekennzeichnet werden, wie man sie zum Beispiel in Form von Normdaten findet. Auf diese Weise können Redundanzen vermieden, Mehrdeutigkeiten aufgelöst oder sprachliche Barrieren aufgehoben werden. Zudem erleichtert ihre Verwendung den Zusammenschluss unterschiedlicher Wissensspeicher, wodurch auf lange Sicht ein umfassendes, abfragbares Datennetz geschaffen werden kann.

Fragenstellen fĂŒr AnfĂ€nger*innen am Beispiel von Wikidata

Allerdings erhĂ€lt man auf seine Fragen nur Antworten, wenn man sie den Regeln der verwendeten Ontologie entsprechend formuliert. Wie das konkret funktioniert, zeigte Herr Dr. Normann am Beispiel der freien und offenen Wissensdatenbank Wikidata.[2] Sie fungiert in erster Linie als zentraler Speicher zur Verwaltung strukturierter Daten fĂŒr Wikimedia-Projekte wie Wikipedia, kann und soll aber gemĂ€ĂŸ der CreativeCommons-Lizenz auch als Aggregator fĂŒr externe Anwendungen genutzt werden.[3] Mit ĂŒber 56 Millionen Datenobjekten – Tendenz steigend – werden aufbereitete Ressourcen zur WissensreprĂ€sentation zur VerfĂŒgung gestellt, die auch fĂŒr die Geisteswissenschaften interessant sein können.

Abbildung 3: Einfache Beispielabfrage mit dem Wikidata Query Service (Quelle: Screenshot von https://query.wikidata.org/)

Die einzelnen Datenobjekte sind ĂŒber unikale Identifikatoren referenzierbar, vergleichbar mit einer GND-Nummer. Damit können differenzierte Aussagen ĂŒber Konzepte, GegenstĂ€nde oder beispielsweise Personen modelliert werden.

Die Abfragesprache SPARQL (SPARQL Protocol And RDF Query Language) macht die in der Wissensdatenbank gespeicherten Aussagen recherchierbar.[4] Die jeweilige Fragestellung wird dabei als Muster (pattern) im Tripel-Format formuliert. In der Datenbank wird dann nach Übereinstimmungen (matches) mit genau diesem Muster gesucht. Alles, was dem nicht entspricht, wird auch nicht ausgegeben.

FĂŒr schlichte Fragestellungen bietet Wikidata mit dem Query Helper ein einsteigerfreundliches Werkzeug, fĂŒr das keine genauen Kenntnisse der Abfragesprache benötigt werden. In einer Art Baukastentechnik werden die Fragen zusammengeklickt. Doch können damit leider nicht die Potentiale von SPARQL-Abfragen ausgeschöpft werden. FĂŒr experimentierfreudigere Anwender*innen ist der Wikidata Query Service besser geeignet. Die BenutzeroberflĂ€che erleichtert das Auffinden der Identifikatoren fĂŒr Objekte und ihre möglichen Eigenschaften. Weil die VorschlĂ€ge dabei von der voreingestellten Sprache abhĂ€ngen, ist es dennoch unerlĂ€sslich, sich intensiv mit dem Vokabular auseinanderzusetzen.

Abbildung 4: Die angebotenen Visualisierungen der Abfrageergebnisse liefern erste Einsichten (Quelle: Screenshot von https://query.wikidata.org/)

Generell hĂ€ngt es von den definierten Aussagen ab, ob und wie sinnvoll und nachhaltig Fragen beantwortet werden können. In Anlehnung an die eingangs gestellte Frage könnten wir nach Figuren aus der „Göttlichen Komödie“ suchen und visualisieren, in welchen anderen Werktypen sie am hĂ€ufigsten rezipiert werden (Abb. 3). Je nach Themengebiet ist das Ergebnis unterschiedlich zuverlĂ€ssig und vollstĂ€ndig. Hier fĂ€llt etwa auf, dass fĂŒr einen Werktyp kein Label, also natĂŒrlichsprachliches Etikett, vergeben wurde (Abb. 4). Beim nĂ€heren Explorieren des Abfrageergebnisses fĂ€llt auch eine uneinheitliche Klassifizierung beispielsweise der literarischen Werke auf.

Daten mĂŒssen sorgfĂ€ltig gepflegt werden

Dass jeder in Wikidata ein Datenobjekt erstellen, beschreiben und klassifizieren kann, hat folglich nicht nur Vorteile. Aus geisteswissenschaftlicher Perspektive schwankt die DatenqualitĂ€t und Informationsdichte je nach Themengebiet zum Teil betrĂ€chtlich. Angesichts der tĂ€glich wachsenden Zahl neuer Datenobjekte ist es daher schwer zu ĂŒberprĂŒfen, wie verlĂ€sslich und vollstĂ€ndig die Ergebnisausgabe ist.

Die Vorbehalte gegenĂŒber der DatenqualitĂ€t können indes minimiert werden, wenn die Forschung sich bereits strukturierter und normierter Daten bedient und, wo sie fehlen, selbst nach den fachspezifischen Standards aufbereitet und zur VerfĂŒgung stellt. Positiv ist etwa, dass Wikidata die Möglichkeit bietet und fördert, zu jedem Objekt Referenzen anzugeben. Hier können Geisteswissenschaftler*innen eine Vorbildfunktion einnehmen und die Relevanz der Quellenangaben fĂŒr die QualitĂ€t der Datengrundlage betonen.

Am Schluss bleibt die Erkenntnis: Semantic Web ist kein einfaches Thema, doch die Möglichkeit, aus der kaum zu ĂŒberblickenden Informationsmenge im Internet Sinn zu generieren, ebnet fĂŒr die Vermittlung von Wissen neue Wege.

Veranstaltungshinweis: Semantic Web in der Lehre

Wer mehr ĂŒber das Semantic Web lernen möchte, ist herzlich eingeladen im Sommersemester 2019 die nachfolgende Kombination aus Seminar und Übung am Lehrstuhl fĂŒr „Digital Humanities in den Geschichts- und Kulturwissenschaften“ am Historischen Seminar zu besuchen:

Dozent: Prof. Dr. Torsten Hiltmann
Seminar: Knowledge Engineering mit Semantic Web Technologien zur Organisation, Analyse und Produktion geisteswissenschaftlichen Wissens — Methoden und Techniken (Digital Humanities) – (mehr Informationen)
Termin: Fr. 10–12 Uhr, F 040

Dozent: Prof. Dr. Torsten Hiltmann
Übung: Knowledge Engineering mit Semantic Web Technologien zur Organisation, Analyse und Produktion geisteswissenschaftlichen Wissens — PraxisĂŒbung (Digital Humanities) – (mehr Informationen)
Termin: Fr. 12–14 Uhr, F 040


Save the date!

Die nÀchste Sitzung des Arbeitskreises Digital Humanities findet am Donnerstag, dem 18. April 2019, von 10-12 Uhr statt.

Wo? Raum 613, Service Center Digital Humanities/ZB Sozialwissenschaften, Scharnhorststraße 103/109

Inhalt: Dominique Stutzmann (IRHT Paris) wird mit uns ĂŒber das Projekt Himanis und die Möglichkeiten der automatisierten Erschließung handschriftlicher Quellenkorpora sprechen.


Anmerkungen:[1] Standardisierte und empfohlene Beispiele hierfĂŒr sind RDF-Schema und OWL.
[2] Eine andere Initiative wĂ€re DBPedia, die von Entwicklern der UniversitĂ€t Leipzig, UniversitĂ€t Mannheim, des Hasso-Plattner-Instituts und OpenLink Software betrieben wird. Es werden unter anderem die in der Wikipedia bereitgestellten strukturierten Daten in semantisch verarbeitbare Daten ĂŒbertragen und zur freien Nutzung ĂŒber offene Schnittstellen angeboten.
[3] Eine kurze Vorstellung der Idee und des Konzepts hinter der Wissensdatenbank findet sich unter der Wikidata:Introduction-Seite.
[4] Die Help:Contents-Seite ist ein guter Einstieg, aber Wikidata bietet auch ein einsteigerfreundliches Tutorial fĂŒr SPARQL-Abfragen, das hier eingesehen werden kann.

Kategorien:

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Captcha wird geladen…

Weitere BeitrÀge