Datensouveränität – Mensch.Maschine.Kultur

Offenheit, dieser Leuchtturm des 20. Jahrhunderts, wurde realisiert durch offene Schnittstellen (APIs). Im Falle von Galerien, Bibliotheken, Archiven und Museen (GLAMs) war es das Open Archives Initiative Protocol for Metadata Harvesting, kurz OAI-PMH. Die Idee war damals, eine Schnittstelle bereitzustellen, die Metadaten in interoperablen Formaten bereitstellt und so den Austausch zwischen verschiedenen Institutionen ermöglicht. Darüber hinaus wird das Harvesting verteilter, im XML-Format beschriebener Ressourcen möglich gemacht, die auf vom Anbieter definierte benannte Mengen beschränkt sein können. Auf die Objekte wird über URLs in den Metadaten verwiesen; so wird auch der Zugriff auf die Objekte selbst möglich. Grundsätzlich ist das Protokoll nicht darauf ausgelegt, zwischen den Nutzer:innen zu unterscheiden; Lizenzen und Rechteerklärungen können einbezogen werden, aber es ist nicht vorgesehen, bestimmtes Material vor dem Zugriff zu verbergen. Die Entscheidung, ob (und welches) durch Urheberrechte geschütztes Material verwendet werden soll, liegt letztlich bei den Nutzer:innen.

Leuchtturm an der Bretonischen Küste, Gemälde von Théodore Gudin, 1845. Staatliche Museen zu Berlin, Nationalgalerie. Public Domain Mark 1.0

Das 21. Jahrhundert brachte dann ein neues Konzept: Datensouveränität. Dies bedeutet einerseits, dass die Daten den Gesetzen und Verwaltungsstrukturen unterliegen, die in dem Rechtsraum gelten, in dem die Daten gehostet werden; für die Datenhalter steht das Konzept andererseits stellvertretend für die Vorstellung, dass die Rechteinhaber selbst bestimmen können, was Dritte mit den Daten tun dürfen und können. Mit Blick auf die Situation, dass es nun einen zweiten Leuchtturm gibt – die Bereitstellung von Kulturerbe-Datensätzen für Innovation und Forschung –, der in stürmischen Zeiten Orientierung bietet, wird die Rolle der Kulturerbe-Institutionen als Zugangsvermittler greifbar: Wenn Rechteinhaber ihre (urheberrechtlich geschützten) Daten kommerziellen KI-Firmen nicht offen zur Verfügung stellen wollen, können GLAM-Institutionen als Datenanbieter Differenzierungen bei der Nutzung dieser Daten aushandeln. So können diese Daten beispielsweise von Start-ups, kleinen und mittleren Unternehmen (KMU) und Unternehmen aus dem Kulturbereich kostenlos genutzt werden, während für big tech-Unternehmen Gebühren anfallen würden. Interessanterweise sieht der europäische Data Governance Act einen solchen Fall vor und enthält ein entsprechendes Instrumentarium. Es gibt ein Kapitel über die Nutzung von Daten, die von öffentlichen Stellen zur Verfügung gestellt werden (Kapitel II, Artikel 6), das die Bereitstellung von Daten gegen Gebühren regelt und eine Differenzierung der zu erhebenden Gebühren zwischen privaten Nutzer:innen, KMU und Start-ups einerseits und größeren Unternehmen andererseits ermöglicht, soweit sie nicht unter die erste Bedingung fallen. Damit wird eine Differenzierungsmöglichkeit für die kommerzielle Nutzung geschaffen, wobei sich die Gebühren an den Kosten der Infrastruktur zur Bereitstellung der Daten orientieren müssen. Für diese Fälle benötigen Kulturerbe-Institutionen neue Lizenzen (oder Rechteerklärungen), die darlegen, ob kommerzielle Unternehmen aufgrund der Opt-Out-Option der Rechteinhaber vom Zugang zu den Daten ausgeschlossen sind oder nicht; und die klären, ob große Tech-Konzerne durch die Zahlung von Gebühren Zugang erhalten, während Daten für Start-ups und KMUs kostenlos zur Verfügung gestellt werden.

Während dies die rechtliche Seite der Rolle von GLAM-Einrichtungen als Zugangsvermittler beschreibt, gibt es auch eine technische Seite der Datensouveränität, die durch den Begriff „Datenräume“ angesprochen wird. APIs wie OAI-PMH werden auch weiterhin den Austausch zwischen Institutionen gewährleisten, aber im Hinblick auf Datenbereitstellung für Dritte an Bedeutung verlieren (abgesehen von der Bereitstellung gemeinfreien Materials). Aufgewertet hingegen wird das Konzept der Datenräume, das von zentraler Bedeutung für die Politik der Europäischen Kommission in den kommenden Jahren ist. Ein geplanter Datenraum ist z.B. der European Data Space for Cultural Heritage, der in Zusammenarbeit mit Europeana entstehen soll; bereits bestehende vergleichbare Initiativen sind die European Open Science Cloud (EOSC) und die European Collaborative Cloud for Cultural Heritage (ECCCH). Eine technische Umsetzung eines solchen Datenraums ist GAIA-X, eine europäische Initiative für eine unabhängige Cloud-Infrastruktur. Neben einer Reihe anderer Funktionen ermöglicht sie es GLAM-Institutionen, ihre Daten vor Ort aufzubewahren und den Nutzer:innen der Infrastruktur verarbeitete Daten zur Verfügung zu stellen, nachdem sie einen Algorithmus ihrer Wahl auf die Daten der Kulturerbe-Institution angewendet haben: Anstatt Terabytes von Daten herunterzuladen und sie selbst zu verarbeiten, kann der Algorithmus (oder das machine learning-Modell) ausgewählt und zu den Daten gesendet werden. Ein Beispiel mit solchen Funktionalitäten hat die Staatsbibliothek zu Berlin mit dem CrossAsia Demonstrator entwickelt. Eine solche Infrastruktur ermöglicht nicht nur den Umgang mit Daten mit unterschiedlichen Nutzungsrechten, sondern erlaubt auch eine Differenzierung zwischen Nutzer:innen und Zahlungsdiensten. Mit anderen Worten: Sie gewährt die volle Souveränität über die Daten. Wie bei allen technischen Lösungen gibt es auch hier eine Kehrseite: Solche Datenräume sind in der Regel komplex und schwer zu handhaben, was für Kulturerbe-Einrichtungen eine Hürde darstellt und oft zusätzlichen Personalbedarf mit sich bringt.

Mit den Konzepten der Datenräume und der Datensouveränität verbunden (aber nicht an sie gebunden) ist die Idee der Allmende. Der englische Begriff „Commons“ bezeichnet eine gemeinsame Ressource, die von einer Gemeinschaft zum Nutzen ihrer Mitglieder verwaltet wird. Europeana, ein Meta-Aggregator und Webportal für die digitale Sammlung des europäischen Kulturerbes, konzeptualisiert den geplanten europäischen Datenraum für das Kulturerbe ausdrücklich als „an open and resilient commons for the users of European cultural data, where data owners – as opposed to platforms – have control of their data and of how, when and with whom it is shared“. Die hier gewählte Formulierung ist bezeichnend für einen Lernprozess in Bezug auf Offenheit: Die Definition eines offenen Gemeinguts „im Gegensatz zu Plattformen“ spricht ein Problem an, das für offene Allmenden charakteristisch ist, nämlich die Übernutzung der verfügbaren Ressourcen, die zu deren Erschöpfung führen kann. Bei den klassischen Beispielen für Allmenden wie Fischgründen oder Weideland ist die Ressource dann gefährdet, wenn Nutzer:innen versuchen, von ihr zu profitieren, ohne gleichzeitig zu ihrer Erhaltung beizutragen. Dies ist bei digitalen Ressourcen jedoch nicht der Fall. Das Problem liegt vielmehr im potenziellen Verlust des gemeinschaftlichen Nutzens aufgrund von Handlungen, die durch Eigeninteresse motiviert sind. Im 21. Jahrhundert hat der Aufstieg der großen Plattformen das so genannte „Paradoxon der Offenheit“ offenbart: „open resources are most likely to contribute to the power of those with the best means to make use of them“. Die Notwendigkeit von Datenräumen, die von einer Gemeinschaft zum Nutzen ihrer Mitglieder verwaltet werden, fügt der Offenheit nicht nur eine weitere Schattierung hinzu, sondern eröffnet gleichzeitig eine weitere Front: Die Abkehr von der Plattformisierung impliziert nämlich eine Ablehnung der Dominanz außereuropäischer big tech-Unternehmen.

An sich könnte ja alles ganz einfach sein: Kulturerbeeinrichtungen und andere öffentliche Stellen bieten qualitativ hochwertige Daten in großem Umfang an, und das möglichst unter einer permissiven Lizenz wie etwa CC0 oder Public Domain Mark 1.0. Das entspricht der Ausgangsidee: Kulturerbeeinrichtungen werden aus Steuermitteln finanziert, daher sollen ihre Dienstleistungen und Produkte auch allen zugutekommen; im Fall von Daten sollen Innovation, Forschung und natürlich auch private Nutzung ermöglicht werden.

Nun leben wir in Zeiten großer Sprachmodelle und exploitativer Praktiken insbesondere US-amerikanischer Big Tech-Unternehmen. Hier werden in großem Stil Daten aus dem Internet abgesaugt und in großen proprietären Sprachmodellen verarbeitet. Diese Unternehmen sind nicht nur die Innovationstreiber, sondern heben sich z.B. von Forschungseinrichtungen dadurch ab, dass sie über speziell aufbereitete Trainingsdatensätze ebenso verfügen wie über eine exzeptionelle Rechenleistung und die bestbezahltesten Stellen für Entwickler:innen von Algorithmen; dies alles sind teure Zutaten für ein Erfolgsrezept bei kleiner Konkurrenz.

Eine der Schwächen von ChatGPT – und vermutlich auch von GPT-4 – liegt in der mangelnden Verlässlichkeit. Diese Schwäche resultiert aus dem Unvermögen von rein stochastischen Sprachmodellen, zwischen Fakten und Fiktion zu unterscheiden; aber auch an einem Mangel an Daten. Gerade im Hinblick auf „halluzinierte“ Literaturnachweise sind bibliographische Daten aus Bibliotheken für die Erstellung großer Sprachmodelle sehr attraktiv. Ein weiteres Problem besteht im Mangel an qualitativ hochwertigen Textdaten. Einer jüngst publizierten Studie zufolge werden hochqualitative Textdaten noch vor dem Jahr 2026 erschöpft sein; das liegt vor allem daran, dass es im Internet an Etikette und Orthografie mangelt. Wer aber, wenn nicht die Bibliotheken haben riesige Bestände an qualitativ hochwertigen Textdaten? Nahezu alle hier verfügbaren Inhalte sind durch einen Qualitätsfilter gelaufen, der sich „Verlage“ nennt. Über die intellektuelle Qualität der Bücher mag man geteilter Meinung sein; aber sprachlich und orthographisch ist das, was bis Ende des 20. Jahrhunderts gedruckt wurde (also vor dem Beginn des Self-Publishings), von sehr guter Qualität.

Schließlich noch das liebe Geld: Die Inflation ist wieder da, die Niedrigzinsphase ist vorbei, die erste Silicon Valley-Bank bankrott. Daraus folgt, dass viele dort ansässige Unternehmen bald frisches Geld benötigen; also wird bald monetarisiert werden, um Profite zu erzeugen. Aus bislang noch kostenfrei angebotenen Produkten (wie ChatGPT) werden bald spezifischere neue Modelle erstellt werden, die gegen Bezahlung bedarfsorientierte Services bereitstellen.

Sollen die Kulturerbeinstitutionen als Einrichtungen öffentlichen Rechts nun der Profitmaximierung einiger weniger Unternehmen dienen, indem sie teure und ressourcenintensive (und steuerfinanzierte) Daten kostenlos bereitstellen? Die Antwort ist differenziert und daher kompliziert. Selbstverständlich sollten Daten wie bislang auch unter permissiven Lizenzen bereitgestellt werden. Hier können durchaus auch duale Strategien verwendet werden. Einerseits können die über Schnittstellen wie OAI-PMH oder IIIF bereitgestellten Daten auch weiterhin unter CC0 oder Public Domain-Lizenzen zugänglich sein; technische Zugangsbeschränkungen können über die Steuerung von IP-Adressen oder Downloadmaxima das Absaugen von Daten in großem Stil verhindern. Andererseits können eigene Datenpublikationen erfolgen, die die einzelnen Datensätze bündeln, um Forschung und Innovation zu ermöglichen; solcherart Angebote sind als Datenbankwerke 15 Jahre lang geschützt, und hier können Lizenzen verwendet werden, die ein „NC“ (non-commercial) enthalten und solche Daten für Forschung und Innovation verwendbar machen. Beispielhaft verwendet die Stiftung Preußischer Kulturbesitz eine solche Lizenz (CC-BY-NC-SA) für die digitale Repräsentation eines ihrer Prunkstücke, und auch der (nicht so einfach zu benutzende) 3D-Scan ist unter dieser Lizenz frei verfügbar (download hier).

Interessanterweise hat die Europäische Union den oben beschriebenen Fall im Data Governance Act antizipiert und ein relevantes Instrumentarium eingefügt. Hier gibt es ein Kapitel zur Nutzung von Daten öffentlicher Stellen (Kapitel II, Artikel 6), in dem die Bereitstellung von Daten gegen Gebühren geregelt wird. Darin heißt es, dass die öffentlichen Einrichtungen bei den Gebühren, die sie verlangen, unterscheiden dürfen zwischen privaten Nutzern bzw. kleinen und mittleren Unternehmen einerseits und größeren Unternehmen andererseits, die nicht mehr unter die erstere Definition fallen. Dort schafft man also eine Möglichkeit für Differenzierungen im Rahmen der gewerblichen Nutzer, wobei die Gebühren an den Kosten für die Bereitstellungsinfrastruktur orientiert sein sollen. Im Rechtssystem ist das etwas eher Atypisches, da ja das Gleichbehandlungsprinzip gilt. Kulturerbeeinrichtungen haben damit die EU-Kommissarin für Wettbewerb Margrethe Vestager an ihrer Seite, die 2020 den Data Governance Act präsentiert hat (er ist übrigens ab dem 24. September 2023 anzuwenden). Vestager ist zugleich auch Kommissarin für Digitales und hat in den ersten fünf Jahren ihrer Amtszeit mehr als 15 Milliarden Euro an Kartellstrafen verhängt. Ein politischer Durchsetzungswille scheint also vorhanden zu sein.

Dieser wird im Zweifelsfall auch notwendig sein. Lizenzen wie CC-BY-SA-NC unterbinden die Verwendung öffentlicher Daten für kommerzielle große Sprachmodelle. Da sich die Ersteller von großen Sprachmodellen in einem urheberrechtlichen Minenfeld bewegen und bei anderen Modellen eine Bildagentur oder weitere Rechteinhaber bereits Urheberrechtsklagen eingereicht haben, muss man leider anzweifeln, dass sie in der Zukunft Rücksicht darauf nehmen werden. Die entsprechenden Gerichtsentscheide bleiben in den anhängigen Fällen freilich abzuwarten. Selbst mit reverse engineering ist nämlich nicht einfach nachzuweisen, welche Datensätze in ein großes Sprachmodell eingeflossen sind; daher müsste eine Art Indizienprozess geführt werden. Mittel- und langfristig scheint es daher sinnvoller zu sein, auf die Etablierung von Prüfverfahren und Standards vor der Veröffentlichung von KI-Modellen zu setzen. Dazu gehören die Offenlegung des Trainingsmaterials und -prozesses, seine Evaluierung durch Expert:innen, Code Audits, aber auch eine Beweislastumkehr im Hinblick auf die Lizenzierung des verwendeten Datenmaterials. Solche Prozeduren zum Pflichtbestandteil für die Zulassung kommerzieller KI-Anwendungen zu machen, ist dann tatsächlich Aufgabe der Europäischen Union.

Ein weiterer Weg besteht schließlich darin, Kulturerbedaten in einem eigenen Data Space für Kulturerbe zu publizieren; die Ausschreibung für einen solchen Data Space wurde im vergangenen Herbst auf den Weg gebracht und ist Teil des EU Data Acts. Inwiefern dieser Data Space den Kulturerbeinstitutionen volle Datensouveränität und damit die Möglichkeit gewährt, den Zugriff auf die Datenpublikationen zu steuern, bleibt abzuwarten.

Schlagwortarchiv für: Datensouveränität

Offenheit und ihre Schattierungen

Über die Verwendung von Lizenzen in Zeiten von großen Sprachmodellen