Schlagwortarchiv für: Offenheit

Offenheit, Effizienz und geschlossene Systeme

Das Konzept der Datenräume, das die Europäische Kommission verfolgt, ist nicht nur ein technisches; es impliziert auch eine politische Verfasstheit. Datenräume wie GAIA-X benötigen keine zentralisierte Verwaltung. Der Betrieb eines solchen Datenraumes kann im Rahmen einer Föderation erfolgen, die die Mittel zur Kontrolle der Datenintegrität und der Datenvertrauenswürdigkeit herstellt. Der Verbund, der den Datenraum betreibt, entspricht daher eher der Europäischen Union (d.h. einem Staatenverbund) als einer zentralistisch organisierten Demokratie. Und Vertrauenswürdigkeit ist nicht nur im Hinblick auf Daten und machine learning-Modelle etwas, was Kulturerbe-Einrichtungen auszeichnet. Solche Institutionen erfüllen ihre Aufgabe auf der Grundlage des Vertrauens, das die Menschen in sie setzen, ein Vertrauen, das über Jahrzehnte oder Jahrhunderte gewachsen und Ausdruck der Überzeugung der Menschen ist, dass diese renommierten und altehrwürdigen Institutionen die richtigen Entscheidungen treffen und beispielsweise die richtige Auswahl bei der Akquisition ihrer Objekte treffen.

Das politische Konzept der Datenräume steht damit in klarem Gegensatz zu den hierarchischen und undurchsichtigen Strukturen von big tech-Konzernen. Im Hinblick auf Daten und machine learning-Modelle ist bei den einschlägigen Konzernen (Alphabet, Meta, Amazon, Microsoft) seit den 2010er Jahren eine deutliche Zentralisierungsbewegung zu beobachten, vor allem im Hinblick auf Forschung und Entwicklung sowie die Bereitstellung von Infrastruktur. Eine Studie aus dem Jahr 2022 zu den Werten, die in der Forschung zu maschinellem Lernen zentral sind, hebt zwei Einsichten hervor: Zum einen nimmt die Präsenz der großen Tech-Konzerne in den 100 meistzitierten Studien, die im Rahmen der zwei bedeutendsten machine learning-Konferenzen publiziert wurden, massiv zu. „For example, in 2008/09, 24% of these top cited papers had corporate affiliated authors, and in 2018/19 this statistic more than doubled, to 55%. Moreover, of these corporations connected to influential papers, the presence of ‚big-tech‘ firms, such as Google and Microsoft, more than tripled from 21% to 66%.“ Damit sind die Tech-Firmen nahezu genauso häufig an der wichtigsten Forschung beteiligt wie die bedeutendsten Universitäten. Die Perspektivierung der Konsequenzen dieser Privatisierung der Forschung für die Aufteilung der Wissensproduktion in westlichen Gesellschaften wären eigene Studien wert. Zum anderen hebt die Studie von Birhane et al. einen Wert hervor, der in den untersuchten 100 Forschungsbeiträgen neben anderen immer wieder hervorgehoben wird: Effizienz. Das Lob der Effizienz ist in diesem Fall nicht neutral, denn es favorisiert diejenigen Institutionen, die in der Lage sind, stetig wachsende Datenmengen zu prozessieren und die dafür notwendigen Ressourcen zu beschaffen und zu betreiben. Mit anderen Worten: Die Hervorhebung eines technisch klingenden Werts wie Effizienz „facilitates and encourages the most powerful actors to scale up their computation to ever higher orders of magnitude, making their models even less accessible to those without resources to use them and decreasing the ability to compete with them.“

Scheintür des Sokarhotep, symbolisiert die nur scheinbare Offenheit der von Big Tech bereitgestellten KI-Anwendungen

Scheintür des Sokarhotep, Altes Reich, 5. Dynastie. Ägyptisches Museum und Papyrussammlung. CC BY-SA 4.0.
Die Scheintür symbolisiert die nur scheinbare Offenheit der von Big Tech bereitgestellten KI-Anwendungen

Damit ist bereits der zweite Aspekt angesprochen, die Verfügungsmacht über Infrastruktur. Zweifellos gibt es bereits jetzt einen „compute divide“ zwischen den big tech-Konzernen und beispielsweise den Elite-Universitäten. Forschung und Entwicklung im Bereich maschinellen Lernens ist aktuell in hohem Maße von der von einigen wenigen Akteuren bereitgestellten Infrastruktur abhängig. Dieser Sachverhalt hat auch Auswirkungen auf die offene Bereitstellung von Modellen. Wenn sich Offenheit als Frage des Zugangs zu Ressourcen darstellt, wird Umfang (scale) zu einem Problem für Offenheit: Wirklich offene KI-Systeme sind nicht möglich, wenn die Ressourcen, die benötigt werden, um sie von Grund auf herzustellen, und die für ihren Einsatz in großem Maßstab erforderlich sind, geschlossen bleiben, weil sie nur denjenigen zur Verfügung stehen, die über diese signifikanten Ressourcen verfügen. Und das sind fast immer Konzerne. Eine jüngst veröffentlichte Studie zur Machtkonzentration und politischen Ökonomie von offener KI kommt daher zu dem Schluss, dass open source und Zentralisierung einander ausschließen: „only a few large tech corporations can create and deploy large AI systems at scale, from start to finish – a far cry from the decentralized and modifiable infrastructure that once animated the dream of the free/open source software movement“. Ein Firmenname wie „OpenAI“ wird damit zum Oxymoron.

Vor diesem Hintergrund wird deutlich, dass die europäische Konzeption von Datenräumen eine Gegenbewegung zu den monopolistischen Strukturen der Tech-Konzerne darstellt. Die Offenheit, Datensouveränität und die Vertrauenswürdigkeit, die diese Datenräume repräsentieren, werden zwar nicht die Möglichkeit eröffnen, Infrastrukturen aufzubauen, die es mit denen der big tech-Unternehmen aufnehmen können. Sie werden es aber ermöglichen, spezifische Modelle mit klar definierten Aufgabenstellungen zu entwickeln, die effizienter als die von den Tech-Konzernen entwickelten Allzweckanwendungen arbeiten. So könnte der für das Feld maschinellen Lernens zentrale Wert der Effizienz neu codiert werden.

Offenheit und ihre Schattierungen

Offenheit, dieser Leuchtturm des 20. Jahrhunderts, wurde realisiert durch offene Schnittstellen (APIs). Im Falle von Galerien, Bibliotheken, Archiven und Museen (GLAMs) war es das Open Archives Initiative Protocol for Metadata Harvesting, kurz OAI-PMH. Die Idee war damals, eine Schnittstelle bereitzustellen, die Metadaten in interoperablen Formaten bereitstellt und so den Austausch zwischen verschiedenen Institutionen ermöglicht. Darüber hinaus wird das Harvesting verteilter, im XML-Format beschriebener Ressourcen möglich gemacht, die auf vom Anbieter definierte benannte Mengen beschränkt sein können. Auf die Objekte wird über URLs in den Metadaten verwiesen; so wird auch der Zugriff auf die Objekte selbst möglich. Grundsätzlich ist das Protokoll nicht darauf ausgelegt, zwischen den Nutzer:innen zu unterscheiden; Lizenzen und Rechteerklärungen können einbezogen werden, aber es ist nicht vorgesehen, bestimmtes Material vor dem Zugriff zu verbergen. Die Entscheidung, ob (und welches) durch Urheberrechte geschütztes Material verwendet werden soll, liegt letztlich bei den Nutzer:innen.

Leuchtturm an der Bretonischen Küste, Gemälde von Théodore Gudin, 1845

Leuchtturm an der Bretonischen Küste, Gemälde von Théodore Gudin, 1845. Staatliche Museen zu Berlin, Nationalgalerie. Public Domain Mark 1.0

Das 21. Jahrhundert brachte dann ein neues Konzept: Datensouveränität. Dies bedeutet einerseits, dass die Daten den Gesetzen und Verwaltungsstrukturen unterliegen, die in dem Rechtsraum gelten, in dem die Daten gehostet werden; für die Datenhalter steht das Konzept andererseits stellvertretend für die Vorstellung, dass die Rechteinhaber selbst bestimmen können, was Dritte mit den Daten tun dürfen und können. Mit Blick auf die Situation, dass es nun einen zweiten Leuchtturm gibt – die Bereitstellung von Kulturerbe-Datensätzen für Innovation und Forschung –, der in stürmischen Zeiten Orientierung bietet, wird die Rolle der Kulturerbe-Institutionen als Zugangsvermittler greifbar: Wenn Rechteinhaber ihre (urheberrechtlich geschützten) Daten kommerziellen KI-Firmen nicht offen zur Verfügung stellen wollen, können GLAM-Institutionen als Datenanbieter Differenzierungen bei der Nutzung dieser Daten aushandeln. So können diese Daten beispielsweise von Start-ups, kleinen und mittleren Unternehmen (KMU) und Unternehmen aus dem Kulturbereich kostenlos genutzt werden, während für big tech-Unternehmen Gebühren anfallen würden. Interessanterweise sieht der europäische Data Governance Act einen solchen Fall vor und enthält ein entsprechendes Instrumentarium. Es gibt ein Kapitel über die Nutzung von Daten, die von öffentlichen Stellen zur Verfügung gestellt werden (Kapitel II, Artikel 6), das die Bereitstellung von Daten gegen Gebühren regelt und eine Differenzierung der zu erhebenden Gebühren zwischen privaten Nutzer:innen, KMU und Start-ups einerseits und größeren Unternehmen andererseits ermöglicht, soweit sie nicht unter die erste Bedingung fallen. Damit wird eine Differenzierungsmöglichkeit für die kommerzielle Nutzung geschaffen, wobei sich die Gebühren an den Kosten der Infrastruktur zur Bereitstellung der Daten orientieren müssen. Für diese Fälle benötigen Kulturerbe-Institutionen neue Lizenzen (oder Rechteerklärungen), die darlegen, ob kommerzielle Unternehmen aufgrund der Opt-Out-Option der Rechteinhaber vom Zugang zu den Daten ausgeschlossen sind oder nicht; und die klären, ob große Tech-Konzerne durch die Zahlung von Gebühren Zugang erhalten, während Daten für Start-ups und KMUs kostenlos zur Verfügung gestellt werden.

Während dies die rechtliche Seite der Rolle von GLAM-Einrichtungen als Zugangsvermittler beschreibt, gibt es auch eine technische Seite der Datensouveränität, die durch den Begriff „Datenräume“ angesprochen wird. APIs wie OAI-PMH werden auch weiterhin den Austausch zwischen Institutionen gewährleisten, aber im Hinblick auf Datenbereitstellung für Dritte an Bedeutung verlieren (abgesehen von der Bereitstellung gemeinfreien Materials). Aufgewertet hingegen wird das Konzept der Datenräume, das von zentraler Bedeutung für die Politik der Europäischen Kommission in den kommenden Jahren ist. Ein geplanter Datenraum ist z.B. der European Data Space for Cultural Heritage, der in Zusammenarbeit mit Europeana entstehen soll; bereits bestehende vergleichbare Initiativen sind die European Open Science Cloud (EOSC) und die European Collaborative Cloud for Cultural Heritage (ECCCH). Eine technische Umsetzung eines solchen Datenraums ist GAIA-X, eine europäische Initiative für eine unabhängige Cloud-Infrastruktur. Neben einer Reihe anderer Funktionen ermöglicht sie es GLAM-Institutionen, ihre Daten vor Ort aufzubewahren und den Nutzer:innen der Infrastruktur verarbeitete Daten zur Verfügung zu stellen, nachdem sie einen Algorithmus ihrer Wahl auf die Daten der Kulturerbe-Institution angewendet haben: Anstatt Terabytes von Daten herunterzuladen und sie selbst zu verarbeiten, kann der Algorithmus (oder das machine learning-Modell) ausgewählt und zu den Daten gesendet werden. Ein Beispiel mit solchen Funktionalitäten hat die Staatsbibliothek zu Berlin mit dem CrossAsia Demonstrator entwickelt. Eine solche Infrastruktur ermöglicht nicht nur den Umgang mit Daten mit unterschiedlichen Nutzungsrechten, sondern erlaubt auch eine Differenzierung zwischen Nutzer:innen und Zahlungsdiensten. Mit anderen Worten: Sie gewährt die volle Souveränität über die Daten. Wie bei allen technischen Lösungen gibt es auch hier eine Kehrseite: Solche Datenräume sind in der Regel komplex und schwer zu handhaben, was für Kulturerbe-Einrichtungen eine Hürde darstellt und oft zusätzlichen Personalbedarf mit sich bringt.

Mit den Konzepten der Datenräume und der Datensouveränität verbunden (aber nicht an sie gebunden) ist die Idee der Allmende. Der englische Begriff „Commons“ bezeichnet eine gemeinsame Ressource, die von einer Gemeinschaft zum Nutzen ihrer Mitglieder verwaltet wird. Europeana, ein Meta-Aggregator und Webportal für die digitale Sammlung des europäischen Kulturerbes, konzeptualisiert den geplanten europäischen Datenraum für das Kulturerbe ausdrücklich als „an open and resilient commons for the users of European cultural data, where data owners – as opposed to platforms – have control of their data and of how, when and with whom it is shared“. Die hier gewählte Formulierung ist bezeichnend für einen Lernprozess in Bezug auf Offenheit: Die Definition eines offenen Gemeinguts „im Gegensatz zu Plattformen“ spricht ein Problem an, das für offene Allmenden charakteristisch ist, nämlich die Übernutzung der verfügbaren Ressourcen, die zu deren Erschöpfung führen kann. Bei den klassischen Beispielen für Allmenden wie Fischgründen oder Weideland ist die Ressource dann gefährdet, wenn Nutzer:innen versuchen, von ihr zu profitieren, ohne gleichzeitig zu ihrer Erhaltung beizutragen. Dies ist bei digitalen Ressourcen jedoch nicht der Fall. Das Problem liegt vielmehr im potenziellen Verlust des gemeinschaftlichen Nutzens aufgrund von Handlungen, die durch Eigeninteresse motiviert sind. Im 21. Jahrhundert hat der Aufstieg der großen Plattformen das so genannte „Paradoxon der Offenheit“ offenbart: „open resources are most likely to contribute to the power of those with the best means to make use of them“. Die Notwendigkeit von Datenräumen, die von einer Gemeinschaft zum Nutzen ihrer Mitglieder verwaltet werden, fügt der Offenheit nicht nur eine weitere Schattierung hinzu, sondern eröffnet gleichzeitig eine weitere Front: Die Abkehr von der Plattformisierung impliziert nämlich eine Ablehnung der Dominanz außereuropäischer big tech-Unternehmen.

Orientierung in stürmischen Zeiten

Kulturerbe-Institutionen wie Galerien, Bibliotheken, Archive und Museen (GLAMs) befinden sich aktuell in einer schwierigen Situation: Generative KI-Modelle haben die Bedeutung des Begriffs „Offenheit“ fundamental verändert. Die offene Bereitstellung des digitalen Kulturerbes markierte bis vor kurzem ein absolut gesetztes Ideal, ebenso wie der Schutz geistigen Eigentums (intellectual property rights, IPR). Zwischen diesem Gegensatzpaar gibt es eine Grauzone mit vielerlei Abstufungen, und Handreichungen bieten Orientierung, um im Zweifelsfall zwischen diesen Oppositionen hindurch navigieren zu können. Offenheit soll es ermöglichen, auf der Grundlage des vorhandenen kulturellen Erbes Kultur neu zu schaffen sowie Innovation und Forschung zu stimulieren, idealerweise durch die Bereitstellung von Material, das gemeinfrei ist. Mit den Verlagshäusern als den Trägern von Urheberrechten können Kulturerbe-Einrichtungen Lizenzvereinbarungen treffen. Bislang verstanden Kulturerbe-Einrichtungen ihre Rolle daher als Vermittler, die schöpferfreundliche Urheberrechte und Zugänglichkeit ausbalancierten.

Die Entwicklung generativer KI-Anwendungen vor allem in den 2020er Jahren hat diese Situation deutlich verkompliziert: Wie verhalten sich generative KI und geistiges Eigentum zueinander? Dürfen solche Modelle mit urheberrechtlich geschütztem Material trainiert werden? Können Träger von Urheberrechten es versagen, dass ihr Material zum Training von machine learning-Anwendungen verwendet wird? Wer hat das Urheberrecht am Output dieser Modelle? Dürfen bestimmte kommerzielle Unternehmen von der Nutzung urheberrechtlich geschützten Materials ausgeschlossen werden, während es anderen (kommerziellen) Nutzern ermöglicht wird? Kulturerbe-Einrichtungen müssen nun zwischen den Ungeheuern Skylla (Schutz geistigen Eigentums) und Charybdis (Restriktionen für kommerzielle Unternehmen) hindurchnavigieren. Dass es jetzt zwei Leuchttürme von Messina gibt (Offenheit für alle und Bereitstellung von Kulturerbedatensets für Innovation und Forschung), macht die Sache nicht einfacher.

Meerenge bei Messina, Scylla und Charybdis. Zeichnung von Karl Friedrich Schinkel Karl Friedrich Schinkel, „Meerenge bei Messina, Scylla und Charybdis“. Public Domain, Kupferstichkabinett der Staatlichen Museen zu Berlin

Das früher existierende Oppositionspaar, das oft ein Dilemma darstellte (d.h. eine Zwickmühle, bei der jede Entscheidung für eine der Oppositionen zu einem unerwünschten Ausgang führt), wird nun von vier Polen abgelöst – mit deutlich mehr Handlungsoptionen: Bejahen, Verneinen, Beides, keins von beiden. Diese tetralemmatische Situation ist gerade bei wissenschaftlichen Bibliotheken eklatant, denn sie verfügen über einen Schatz, der immer kostbarer wird: Digital vorhandene Bücher mit syntaktisch und lexikalisch korrekten Texten aus vertrauenswürdiger Quelle wie einer Kulturerbe-Institution oder Verlagen sind zu einer erschöpflichen und in naher Zukunft umkämpften Quelle für das Training von Large Language Models geworden. Einer Studie zufolge werden hochqualitative Textdaten im Englischen noch vor dem Jahr 2026 erschöpft sein, für die anderen Weltsprachen wird der Zeithorizont wohl kaum viel länger sein. Auch die Bestände an gemeinfreien Werken, die permanent von den Bibliotheken digitalisiert werden, steigen daher aktuell an Wert – ironischerweise aber auch Texte, die eigentlich Open Access zur Verfügung stehen, und für die sich die großen Verlagshäuser in naher Zukunft Nutzungsrechte sichern werden, um damit ihre eigenen Modelle herstellen zu können. Bibliotheken, die mit Verlagen Lizenzvereinbarungen getroffen haben, um auch urheberrechtlich geschützte Werke in digitaler Form bereitstellen zu können, haben dann ein Problem, wenn in den Lizenzvereinbarungen eine entsprechende Regelung die Nutzung geschützter Inhalte für Trainingszwecke explizit ausgeschlossen wird. Wenn es dazu keine Aussage gibt, ist es je nach nationalem Kontext geboten, die Ansprüche der Rechteinhaber:innen zu schützen. Die Nationalbibliothek der Niederlande (KB) hat daher kommerzielle Unternehmen vom Download solcher Ressourcen ausgeschlossen, da zu befürchten steht, dass solche Unternehmen das Urheberrecht missachten, und die KB hat ihre Nutzungsbedingungen aktualisiert. Das ist insofern ungewöhnlich, als bislang nicht zwischen verschiedenen Nutzenden unterschieden wurde. Rechtlich kann ein solches Vorgehen problematisch sein, wenn damit der Zugang zu gemeinfreiem Material unterbunden wird. Technisch stellt das Blockieren von Crawlers nur eine Notlösung dar, denn wirksam können Crawler nicht von den bereitgestellten Inhalten ausgesperrt werden; rechtlich muss bei einem Verstoß auch gegen eine unerlaubte Verwendung vorgegangen werden. Und schließlich: Ist es ethisch richtig, kommerzielle Unternehmen von bestimmten Inhalten auszusperren? Schließlich werden damit ja auch Startups, kleine und mittlere Unternehmen (KMUs) sowie Unternehmen der Kreativindustrie getroffen. Wie ließe sich denn legitim zwischen big tech-Unternehmen und den kleineren Playern differenzieren?

Es ist nicht überraschend, dass Unklarheit über die rechtlichen Rahmenbedingungen besteht: Häufig hinkt die Gesetzgebung hinter der Realität hinterher. Noch in diesem Jahr soll der mit einem Kompromiss ausgehandelte AI Act verabschiedet werden und in Kraft treten. Wie werden die Regelungen hier aussehen – und schaffen sie wirklich Klarheit? Von Entitäten, die AI-Anwendungen entwickeln und in der EU operieren, wird verlangt, dass sie eine „policy to respect Union copyright law“ entwickeln. Die Nutzung von urheberrechtlich geschützten Werken für das Training von KI-Modellen wird mit der text and data mining (TDM) Ausnahme in Artikel 4 der „Directive on Copyright in the Digital Single Market“ verbunden. Damit dürfen KI-Modelle mit urheberrechtlich geschütztem Material trainiert werden. Allerdings sieht die zitierte Direktive auch die Möglichkeit vor, dass Rechteinhaber sich ihre Rechte vorbehalten, um text and data mining zu verhindern: „Wenn die Vorbehaltsrechte ausdrücklich und in geeigneter Weise vorbehalten wurden, müssen Anbieter von KI-Modellen mit allgemeinem Verwendungszweck eine Genehmigung von den Rechteinhabern einholen, wenn sie Text und Data Mining bei solchen Werken durchführen wollen.“ Das ist der Punkt, wo es schwierig wird: Bislang gibt es dazu keinen einheitlichen Rechtsweg, und es ist unklar, entlang welchem (technischen) Standard oder Protokoll das Recht auf Opt-out  in maschinenlesbarer Form formuliert werden soll. Daher überrascht nicht, dass auch eine gemeinnützige Organisation wie Creative Commons die Forderung aufgestellt hat, dass die Möglichkeit, sich gegen eine solche Nutzung zu entscheiden, zu einem einklagbaren Recht wird.

Vor diesem Hintergrund wird deutlich, dass sich Kulturerbe-Einrichtungen vom Ideal der Offenheit verabschieden müssen, jedenfalls sofern es absolut gesetzt wird. Vielmehr sind hier Abstufungen hinzuzufügen: Offen für private Nutzer*innen sowie die Forschung, aber nicht für die Kulturindustrie, Startups, kleine und mittlere Unternehmen sowie kommerzielle AI-Unternehmen, wenn die Rechteinhaber dies wünschen. Ganz pragmatisch bedeutet dies zunächst einmal, dass zahlreiche Lizenzverträge nachverhandelt werden müssen, um die Position der Rechteinhaber in eindeutiger Weise zu dokumentieren. Dennoch bleiben viele Fragen offen: Wie verhält es sich mit den zahlreichen Werken, bei denen die Nutzungsrechte nicht eindeutig geklärt sind? Gibt es die Möglichkeit, zwischen KMUs und big tech-Unternehmen zu differenzieren, oder gilt einfach nur pauschal „NoAI“? Sollte es dazu nicht auch eigene Lizenzen geben? Wer übernimmt die Entwicklung technischer Standards und Protokolle, um den Opt-out maschinenlesbar umzusetzen? Wer ist dafür zuständig, das „Machine Unlearning“ von Modellen zu veranlassen, die bereits mit urheberrechtlich geschützten Werken trainiert wurden?

Was die GLAM-Institutionen aktuell benötigen, sind zum einen neu verfasste Lizenzen und Nutzungsrechte sowie Weißbücher und technische Lösungen, zum anderen die Finanzierung von Expertengruppen und Juristen, die zu diesen Themen beraten und über die unterschiedlichen Funktionen von Lizenzen, Nutzungsbedingungen und Nutzungsrechten informieren. Und schließlich gehört dazu auch eine politische Beratung von Entscheidungsträgern, um auf nationaler und europäischer Ebene Einfluss nehmen zu können. Das entspricht zusammengenommen nicht weniger als einer Orientierung gebenden Kartierung, um zwischen den beschriebenen zwei Ungeheuern und den zwei Leuchttürmen hindurchnavigieren zu können.