Lizenzen – Mensch.Maschine.Kultur

Kulturerbe-Institutionen wie Galerien, Bibliotheken, Archive und Museen (GLAMs) befinden sich aktuell in einer schwierigen Situation: Generative KI-Modelle haben die Bedeutung des Begriffs „Offenheit“ fundamental verändert. Die offene Bereitstellung des digitalen Kulturerbes markierte bis vor kurzem ein absolut gesetztes Ideal, ebenso wie der Schutz geistigen Eigentums (intellectual property rights, IPR). Zwischen diesem Gegensatzpaar gibt es eine Grauzone mit vielerlei Abstufungen, und Handreichungen bieten Orientierung, um im Zweifelsfall zwischen diesen Oppositionen hindurch navigieren zu können. Offenheit soll es ermöglichen, auf der Grundlage des vorhandenen kulturellen Erbes Kultur neu zu schaffen sowie Innovation und Forschung zu stimulieren, idealerweise durch die Bereitstellung von Material, das gemeinfrei ist. Mit den Verlagshäusern als den Trägern von Urheberrechten können Kulturerbe-Einrichtungen Lizenzvereinbarungen treffen. Bislang verstanden Kulturerbe-Einrichtungen ihre Rolle daher als Vermittler, die schöpferfreundliche Urheberrechte und Zugänglichkeit ausbalancierten.

Die Entwicklung generativer KI-Anwendungen vor allem in den 2020er Jahren hat diese Situation deutlich verkompliziert: Wie verhalten sich generative KI und geistiges Eigentum zueinander? Dürfen solche Modelle mit urheberrechtlich geschütztem Material trainiert werden? Können Träger von Urheberrechten es versagen, dass ihr Material zum Training von machine learning-Anwendungen verwendet wird? Wer hat das Urheberrecht am Output dieser Modelle? Dürfen bestimmte kommerzielle Unternehmen von der Nutzung urheberrechtlich geschützten Materials ausgeschlossen werden, während es anderen (kommerziellen) Nutzern ermöglicht wird? Kulturerbe-Einrichtungen müssen nun zwischen den Ungeheuern Skylla (Schutz geistigen Eigentums) und Charybdis (Restriktionen für kommerzielle Unternehmen) hindurchnavigieren. Dass es jetzt zwei Leuchttürme von Messina gibt (Offenheit für alle und Bereitstellung von Kulturerbedatensets für Innovation und Forschung), macht die Sache nicht einfacher.

Karl Friedrich Schinkel, „Meerenge bei Messina, Scylla und Charybdis“. Public Domain, Kupferstichkabinett der Staatlichen Museen zu Berlin

Das früher existierende Oppositionspaar, das oft ein Dilemma darstellte (d.h. eine Zwickmühle, bei der jede Entscheidung für eine der Oppositionen zu einem unerwünschten Ausgang führt), wird nun von vier Polen abgelöst – mit deutlich mehr Handlungsoptionen: Bejahen, Verneinen, Beides, keins von beiden. Diese tetralemmatische Situation ist gerade bei wissenschaftlichen Bibliotheken eklatant, denn sie verfügen über einen Schatz, der immer kostbarer wird: Digital vorhandene Bücher mit syntaktisch und lexikalisch korrekten Texten aus vertrauenswürdiger Quelle wie einer Kulturerbe-Institution oder Verlagen sind zu einer erschöpflichen und in naher Zukunft umkämpften Quelle für das Training von Large Language Models geworden. Einer Studie zufolge werden hochqualitative Textdaten im Englischen noch vor dem Jahr 2026 erschöpft sein, für die anderen Weltsprachen wird der Zeithorizont wohl kaum viel länger sein. Auch die Bestände an gemeinfreien Werken, die permanent von den Bibliotheken digitalisiert werden, steigen daher aktuell an Wert – ironischerweise aber auch Texte, die eigentlich Open Access zur Verfügung stehen, und für die sich die großen Verlagshäuser in naher Zukunft Nutzungsrechte sichern werden, um damit ihre eigenen Modelle herstellen zu können. Bibliotheken, die mit Verlagen Lizenzvereinbarungen getroffen haben, um auch urheberrechtlich geschützte Werke in digitaler Form bereitstellen zu können, haben dann ein Problem, wenn in den Lizenzvereinbarungen eine entsprechende Regelung die Nutzung geschützter Inhalte für Trainingszwecke explizit ausgeschlossen wird. Wenn es dazu keine Aussage gibt, ist es je nach nationalem Kontext geboten, die Ansprüche der Rechteinhaber:innen zu schützen. Die Nationalbibliothek der Niederlande (KB) hat daher kommerzielle Unternehmen vom Download solcher Ressourcen ausgeschlossen, da zu befürchten steht, dass solche Unternehmen das Urheberrecht missachten, und die KB hat ihre Nutzungsbedingungen aktualisiert. Das ist insofern ungewöhnlich, als bislang nicht zwischen verschiedenen Nutzenden unterschieden wurde. Rechtlich kann ein solches Vorgehen problematisch sein, wenn damit der Zugang zu gemeinfreiem Material unterbunden wird. Technisch stellt das Blockieren von Crawlers nur eine Notlösung dar, denn wirksam können Crawler nicht von den bereitgestellten Inhalten ausgesperrt werden; rechtlich muss bei einem Verstoß auch gegen eine unerlaubte Verwendung vorgegangen werden. Und schließlich: Ist es ethisch richtig, kommerzielle Unternehmen von bestimmten Inhalten auszusperren? Schließlich werden damit ja auch Startups, kleine und mittlere Unternehmen (KMUs) sowie Unternehmen der Kreativindustrie getroffen. Wie ließe sich denn legitim zwischen big tech-Unternehmen und den kleineren Playern differenzieren?

Es ist nicht überraschend, dass Unklarheit über die rechtlichen Rahmenbedingungen besteht: Häufig hinkt die Gesetzgebung hinter der Realität hinterher. Noch in diesem Jahr soll der mit einem Kompromiss ausgehandelte AI Act verabschiedet werden und in Kraft treten. Wie werden die Regelungen hier aussehen – und schaffen sie wirklich Klarheit? Von Entitäten, die AI-Anwendungen entwickeln und in der EU operieren, wird verlangt, dass sie eine „policy to respect Union copyright law“ entwickeln. Die Nutzung von urheberrechtlich geschützten Werken für das Training von KI-Modellen wird mit der text and data mining (TDM) Ausnahme in Artikel 4 der „Directive on Copyright in the Digital Single Market“ verbunden. Damit dürfen KI-Modelle mit urheberrechtlich geschütztem Material trainiert werden. Allerdings sieht die zitierte Direktive auch die Möglichkeit vor, dass Rechteinhaber sich ihre Rechte vorbehalten, um text and data mining zu verhindern: „Wenn die Vorbehaltsrechte ausdrücklich und in geeigneter Weise vorbehalten wurden, müssen Anbieter von KI-Modellen mit allgemeinem Verwendungszweck eine Genehmigung von den Rechteinhabern einholen, wenn sie Text und Data Mining bei solchen Werken durchführen wollen.“ Das ist der Punkt, wo es schwierig wird: Bislang gibt es dazu keinen einheitlichen Rechtsweg, und es ist unklar, entlang welchem (technischen) Standard oder Protokoll das Recht auf Opt-out in maschinenlesbarer Form formuliert werden soll. Daher überrascht nicht, dass auch eine gemeinnützige Organisation wie Creative Commons die Forderung aufgestellt hat, dass die Möglichkeit, sich gegen eine solche Nutzung zu entscheiden, zu einem einklagbaren Recht wird.

Vor diesem Hintergrund wird deutlich, dass sich Kulturerbe-Einrichtungen vom Ideal der Offenheit verabschieden müssen, jedenfalls sofern es absolut gesetzt wird. Vielmehr sind hier Abstufungen hinzuzufügen: Offen für private Nutzer*innen sowie die Forschung, aber nicht für die Kulturindustrie, Startups, kleine und mittlere Unternehmen sowie kommerzielle AI-Unternehmen, wenn die Rechteinhaber dies wünschen. Ganz pragmatisch bedeutet dies zunächst einmal, dass zahlreiche Lizenzverträge nachverhandelt werden müssen, um die Position der Rechteinhaber in eindeutiger Weise zu dokumentieren. Dennoch bleiben viele Fragen offen: Wie verhält es sich mit den zahlreichen Werken, bei denen die Nutzungsrechte nicht eindeutig geklärt sind? Gibt es die Möglichkeit, zwischen KMUs und big tech-Unternehmen zu differenzieren, oder gilt einfach nur pauschal „NoAI“? Sollte es dazu nicht auch eigene Lizenzen geben? Wer übernimmt die Entwicklung technischer Standards und Protokolle, um den Opt-out maschinenlesbar umzusetzen? Wer ist dafür zuständig, das „Machine Unlearning“ von Modellen zu veranlassen, die bereits mit urheberrechtlich geschützten Werken trainiert wurden?

Was die GLAM-Institutionen aktuell benötigen, sind zum einen neu verfasste Lizenzen und Nutzungsrechte sowie Weißbücher und technische Lösungen, zum anderen die Finanzierung von Expertengruppen und Juristen, die zu diesen Themen beraten und über die unterschiedlichen Funktionen von Lizenzen, Nutzungsbedingungen und Nutzungsrechten informieren. Und schließlich gehört dazu auch eine politische Beratung von Entscheidungsträgern, um auf nationaler und europäischer Ebene Einfluss nehmen zu können. Das entspricht zusammengenommen nicht weniger als einer Orientierung gebenden Kartierung, um zwischen den beschriebenen zwei Ungeheuern und den zwei Leuchttürmen hindurchnavigieren zu können.

An sich könnte ja alles ganz einfach sein: Kulturerbeeinrichtungen und andere öffentliche Stellen bieten qualitativ hochwertige Daten in großem Umfang an, und das möglichst unter einer permissiven Lizenz wie etwa CC0 oder Public Domain Mark 1.0. Das entspricht der Ausgangsidee: Kulturerbeeinrichtungen werden aus Steuermitteln finanziert, daher sollen ihre Dienstleistungen und Produkte auch allen zugutekommen; im Fall von Daten sollen Innovation, Forschung und natürlich auch private Nutzung ermöglicht werden.

Nun leben wir in Zeiten großer Sprachmodelle und exploitativer Praktiken insbesondere US-amerikanischer Big Tech-Unternehmen. Hier werden in großem Stil Daten aus dem Internet abgesaugt und in großen proprietären Sprachmodellen verarbeitet. Diese Unternehmen sind nicht nur die Innovationstreiber, sondern heben sich z.B. von Forschungseinrichtungen dadurch ab, dass sie über speziell aufbereitete Trainingsdatensätze ebenso verfügen wie über eine exzeptionelle Rechenleistung und die bestbezahltesten Stellen für Entwickler:innen von Algorithmen; dies alles sind teure Zutaten für ein Erfolgsrezept bei kleiner Konkurrenz.

Eine der Schwächen von ChatGPT – und vermutlich auch von GPT-4 – liegt in der mangelnden Verlässlichkeit. Diese Schwäche resultiert aus dem Unvermögen von rein stochastischen Sprachmodellen, zwischen Fakten und Fiktion zu unterscheiden; aber auch an einem Mangel an Daten. Gerade im Hinblick auf „halluzinierte“ Literaturnachweise sind bibliographische Daten aus Bibliotheken für die Erstellung großer Sprachmodelle sehr attraktiv. Ein weiteres Problem besteht im Mangel an qualitativ hochwertigen Textdaten. Einer jüngst publizierten Studie zufolge werden hochqualitative Textdaten noch vor dem Jahr 2026 erschöpft sein; das liegt vor allem daran, dass es im Internet an Etikette und Orthografie mangelt. Wer aber, wenn nicht die Bibliotheken haben riesige Bestände an qualitativ hochwertigen Textdaten? Nahezu alle hier verfügbaren Inhalte sind durch einen Qualitätsfilter gelaufen, der sich „Verlage“ nennt. Über die intellektuelle Qualität der Bücher mag man geteilter Meinung sein; aber sprachlich und orthographisch ist das, was bis Ende des 20. Jahrhunderts gedruckt wurde (also vor dem Beginn des Self-Publishings), von sehr guter Qualität.

Schließlich noch das liebe Geld: Die Inflation ist wieder da, die Niedrigzinsphase ist vorbei, die erste Silicon Valley-Bank bankrott. Daraus folgt, dass viele dort ansässige Unternehmen bald frisches Geld benötigen; also wird bald monetarisiert werden, um Profite zu erzeugen. Aus bislang noch kostenfrei angebotenen Produkten (wie ChatGPT) werden bald spezifischere neue Modelle erstellt werden, die gegen Bezahlung bedarfsorientierte Services bereitstellen.

Sollen die Kulturerbeinstitutionen als Einrichtungen öffentlichen Rechts nun der Profitmaximierung einiger weniger Unternehmen dienen, indem sie teure und ressourcenintensive (und steuerfinanzierte) Daten kostenlos bereitstellen? Die Antwort ist differenziert und daher kompliziert. Selbstverständlich sollten Daten wie bislang auch unter permissiven Lizenzen bereitgestellt werden. Hier können durchaus auch duale Strategien verwendet werden. Einerseits können die über Schnittstellen wie OAI-PMH oder IIIF bereitgestellten Daten auch weiterhin unter CC0 oder Public Domain-Lizenzen zugänglich sein; technische Zugangsbeschränkungen können über die Steuerung von IP-Adressen oder Downloadmaxima das Absaugen von Daten in großem Stil verhindern. Andererseits können eigene Datenpublikationen erfolgen, die die einzelnen Datensätze bündeln, um Forschung und Innovation zu ermöglichen; solcherart Angebote sind als Datenbankwerke 15 Jahre lang geschützt, und hier können Lizenzen verwendet werden, die ein „NC“ (non-commercial) enthalten und solche Daten für Forschung und Innovation verwendbar machen. Beispielhaft verwendet die Stiftung Preußischer Kulturbesitz eine solche Lizenz (CC-BY-NC-SA) für die digitale Repräsentation eines ihrer Prunkstücke, und auch der (nicht so einfach zu benutzende) 3D-Scan ist unter dieser Lizenz frei verfügbar (download hier).

Interessanterweise hat die Europäische Union den oben beschriebenen Fall im Data Governance Act antizipiert und ein relevantes Instrumentarium eingefügt. Hier gibt es ein Kapitel zur Nutzung von Daten öffentlicher Stellen (Kapitel II, Artikel 6), in dem die Bereitstellung von Daten gegen Gebühren geregelt wird. Darin heißt es, dass die öffentlichen Einrichtungen bei den Gebühren, die sie verlangen, unterscheiden dürfen zwischen privaten Nutzern bzw. kleinen und mittleren Unternehmen einerseits und größeren Unternehmen andererseits, die nicht mehr unter die erstere Definition fallen. Dort schafft man also eine Möglichkeit für Differenzierungen im Rahmen der gewerblichen Nutzer, wobei die Gebühren an den Kosten für die Bereitstellungsinfrastruktur orientiert sein sollen. Im Rechtssystem ist das etwas eher Atypisches, da ja das Gleichbehandlungsprinzip gilt. Kulturerbeeinrichtungen haben damit die EU-Kommissarin für Wettbewerb Margrethe Vestager an ihrer Seite, die 2020 den Data Governance Act präsentiert hat (er ist übrigens ab dem 24. September 2023 anzuwenden). Vestager ist zugleich auch Kommissarin für Digitales und hat in den ersten fünf Jahren ihrer Amtszeit mehr als 15 Milliarden Euro an Kartellstrafen verhängt. Ein politischer Durchsetzungswille scheint also vorhanden zu sein.

Dieser wird im Zweifelsfall auch notwendig sein. Lizenzen wie CC-BY-SA-NC unterbinden die Verwendung öffentlicher Daten für kommerzielle große Sprachmodelle. Da sich die Ersteller von großen Sprachmodellen in einem urheberrechtlichen Minenfeld bewegen und bei anderen Modellen eine Bildagentur oder weitere Rechteinhaber bereits Urheberrechtsklagen eingereicht haben, muss man leider anzweifeln, dass sie in der Zukunft Rücksicht darauf nehmen werden. Die entsprechenden Gerichtsentscheide bleiben in den anhängigen Fällen freilich abzuwarten. Selbst mit reverse engineering ist nämlich nicht einfach nachzuweisen, welche Datensätze in ein großes Sprachmodell eingeflossen sind; daher müsste eine Art Indizienprozess geführt werden. Mittel- und langfristig scheint es daher sinnvoller zu sein, auf die Etablierung von Prüfverfahren und Standards vor der Veröffentlichung von KI-Modellen zu setzen. Dazu gehören die Offenlegung des Trainingsmaterials und -prozesses, seine Evaluierung durch Expert:innen, Code Audits, aber auch eine Beweislastumkehr im Hinblick auf die Lizenzierung des verwendeten Datenmaterials. Solche Prozeduren zum Pflichtbestandteil für die Zulassung kommerzieller KI-Anwendungen zu machen, ist dann tatsächlich Aufgabe der Europäischen Union.

Ein weiterer Weg besteht schließlich darin, Kulturerbedaten in einem eigenen Data Space für Kulturerbe zu publizieren; die Ausschreibung für einen solchen Data Space wurde im vergangenen Herbst auf den Weg gebracht und ist Teil des EU Data Acts. Inwiefern dieser Data Space den Kulturerbeinstitutionen volle Datensouveränität und damit die Möglichkeit gewährt, den Zugriff auf die Datenpublikationen zu steuern, bleibt abzuwarten.

Schlagwortarchiv für: Lizenzen

Orientierung in stürmischen Zeiten

Über die Verwendung von Lizenzen in Zeiten von großen Sprachmodellen