Schlagwortarchiv für: big data

Über die Verwendung von Lizenzen in Zeiten von großen Sprachmodellen

An sich könnte ja alles ganz einfach sein: Kulturerbeeinrichtungen und andere öffentliche Stellen bieten qualitativ hochwertige Daten in großem Umfang an, und das möglichst unter einer permissiven Lizenz wie etwa CC0 oder Public Domain Mark 1.0. Das entspricht der Ausgangsidee: Kulturerbeeinrichtungen werden aus Steuermitteln finanziert, daher sollen ihre Dienstleistungen und Produkte auch allen zugutekommen; im Fall von Daten sollen Innovation, Forschung und natürlich auch private Nutzung ermöglicht werden.

Nun leben wir in Zeiten großer Sprachmodelle und exploitativer Praktiken insbesondere US-amerikanischer Big Tech-Unternehmen. Hier werden in großem Stil Daten aus dem Internet abgesaugt und in großen proprietären Sprachmodellen verarbeitet. Diese Unternehmen sind nicht nur die Innovationstreiber, sondern heben sich z.B. von Forschungseinrichtungen dadurch ab, dass sie über speziell aufbereitete Trainingsdatensätze ebenso verfügen wie über eine exzeptionelle Rechenleistung und die bestbezahltesten Stellen für Entwickler:innen von Algorithmen; dies alles sind teure Zutaten für ein Erfolgsrezept bei kleiner Konkurrenz.

Eine der Schwächen von ChatGPT – und vermutlich auch von GPT-4 – liegt in der mangelnden Verlässlichkeit. Diese Schwäche resultiert aus dem Unvermögen von rein stochastischen  Sprachmodellen, zwischen Fakten und Fiktion zu unterscheiden; aber auch an einem Mangel an Daten. Gerade im Hinblick auf „halluzinierte“ Literaturnachweise sind bibliographische Daten aus Bibliotheken für die Erstellung großer Sprachmodelle sehr attraktiv. Ein weiteres Problem besteht im Mangel an qualitativ hochwertigen Textdaten. Einer jüngst publizierten Studie zufolge werden hochqualitative Textdaten noch vor dem Jahr 2026 erschöpft sein; das liegt vor allem daran, dass es im Internet an Etikette und Orthografie mangelt. Wer aber, wenn nicht die Bibliotheken haben riesige Bestände an qualitativ hochwertigen Textdaten? Nahezu alle hier verfügbaren Inhalte sind durch einen Qualitätsfilter gelaufen, der sich „Verlage“ nennt. Über die intellektuelle Qualität der Bücher mag man geteilter Meinung sein; aber sprachlich und orthographisch ist das, was bis Ende des 20. Jahrhunderts gedruckt wurde (also vor dem Beginn des Self-Publishings), von sehr guter Qualität.

Schließlich noch das liebe Geld: Die Inflation ist wieder da, die Niedrigzinsphase ist vorbei, die erste Silicon Valley-Bank bankrott. Daraus folgt, dass viele dort ansässige Unternehmen bald frisches Geld benötigen; also wird bald monetarisiert werden, um Profite zu erzeugen. Aus bislang noch kostenfrei angebotenen Produkten (wie ChatGPT) werden bald spezifischere neue Modelle erstellt werden, die gegen Bezahlung bedarfsorientierte Services bereitstellen.

Sollen die Kulturerbeinstitutionen als Einrichtungen öffentlichen Rechts nun der Profitmaximierung einiger weniger Unternehmen dienen, indem sie teure und ressourcenintensive (und steuerfinanzierte) Daten kostenlos bereitstellen? Die Antwort ist differenziert und daher kompliziert. Selbstverständlich sollten Daten wie bislang auch unter permissiven Lizenzen bereitgestellt werden. Hier können durchaus auch duale Strategien verwendet werden. Einerseits können die über Schnittstellen wie OAI-PMH oder IIIF bereitgestellten Daten auch weiterhin unter CC0 oder Public Domain-Lizenzen zugänglich sein; technische Zugangsbeschränkungen können über die Steuerung von IP-Adressen oder Downloadmaxima das Absaugen von Daten in großem Stil verhindern. Andererseits können eigene Datenpublikationen erfolgen, die die einzelnen Datensätze bündeln, um Forschung und Innovation zu ermöglichen; solcherart Angebote sind als Datenbankwerke 15 Jahre lang geschützt, und hier können Lizenzen verwendet werden, die ein „NC“ (non-commercial) enthalten und solche Daten für Forschung und Innovation verwendbar machen. Beispielhaft verwendet die Stiftung Preußischer Kulturbesitz eine solche Lizenz (CC-BY-NC-SA) für die digitale Repräsentation eines ihrer Prunkstücke, und auch der (nicht so einfach zu benutzende) 3D-Scan ist unter dieser Lizenz frei verfügbar (download hier).

Interessanterweise hat die Europäische Union den oben beschriebenen Fall im Data Governance Act antizipiert und ein relevantes Instrumentarium eingefügt. Hier gibt es ein Kapitel zur Nutzung von Daten öffentlicher Stellen (Kapitel II, Artikel 6), in dem die Bereitstellung von Daten gegen Gebühren geregelt wird. Darin heißt es, dass die öffentlichen Einrichtungen bei den Gebühren, die sie verlangen, unterscheiden dürfen zwischen privaten Nutzern bzw. kleinen und mittleren Unternehmen einerseits und größeren Unternehmen andererseits, die nicht mehr unter die erstere Definition fallen. Dort schafft man also eine Möglichkeit für Differenzierungen im Rahmen der gewerblichen Nutzer, wobei die Gebühren an den Kosten für die Bereitstellungsinfrastruktur orientiert sein sollen. Im Rechtssystem ist das etwas eher Atypisches, da ja das Gleichbehandlungsprinzip gilt. Kulturerbeeinrichtungen haben damit die EU-Kommissarin für Wettbewerb Margrethe Vestager an ihrer Seite, die 2020 den Data Governance Act präsentiert hat (er ist übrigens ab dem 24. September 2023 anzuwenden). Vestager ist zugleich auch Kommissarin für Digitales und hat in den ersten fünf Jahren ihrer Amtszeit mehr als 15 Milliarden Euro an Kartellstrafen verhängt. Ein politischer Durchsetzungswille scheint also vorhanden zu sein.

Dieser wird im Zweifelsfall auch notwendig sein. Lizenzen wie CC-BY-SA-NC unterbinden die Verwendung öffentlicher Daten für kommerzielle große Sprachmodelle. Da sich die Ersteller von großen Sprachmodellen in einem urheberrechtlichen Minenfeld bewegen und bei anderen Modellen eine Bildagentur oder weitere Rechteinhaber bereits Urheberrechtsklagen eingereicht haben, muss man leider anzweifeln, dass sie in der Zukunft Rücksicht darauf nehmen werden. Die entsprechenden Gerichtsentscheide bleiben in den anhängigen Fällen freilich abzuwarten. Selbst mit reverse engineering ist nämlich nicht einfach nachzuweisen, welche Datensätze in ein großes Sprachmodell eingeflossen sind; daher müsste eine Art Indizienprozess geführt werden. Mittel- und langfristig scheint es daher sinnvoller zu sein, auf die Etablierung von Prüfverfahren und Standards vor der Veröffentlichung von KI-Modellen zu setzen. Dazu gehören die Offenlegung des Trainingsmaterials und -prozesses, seine Evaluierung durch Expert:innen, Code Audits, aber auch eine Beweislastumkehr im Hinblick auf die Lizenzierung des verwendeten Datenmaterials. Solche Prozeduren zum Pflichtbestandteil für die Zulassung kommerzieller KI-Anwendungen zu machen, ist dann tatsächlich Aufgabe der Europäischen Union.

Ein weiterer Weg besteht schließlich darin, Kulturerbedaten in einem eigenen Data Space für Kulturerbe zu publizieren; die Ausschreibung für einen solchen Data Space wurde im vergangenen Herbst auf den Weg gebracht und ist Teil des EU Data Acts. Inwiefern dieser Data Space den Kulturerbeinstitutionen volle Datensouveränität und damit die Möglichkeit gewährt, den Zugriff auf die Datenpublikationen zu steuern, bleibt abzuwarten.

Über den Einsatz von ChatGPT in Kulturerbeeinrichtungen

Seit der Veröffentlichung des Dialogsystems ChatGPT im November 2022 hat die gesellschaftliche Debatte über Künstliche Intelligenz (KI) deutlich an Fahrt aufgenommen und auch Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen erreicht. Dabei geht es vor allem um die Einschätzung, wie leistungsfähig solche grossen Sprachmodelle (Large Language Models, LLMs) im Allgemeinen und Generative Pre-trained Transformers (GPTs) im Besonderen sind. Für den Kulturerbebereich zeigen sich dabei eine ganze Reihe möglicher Einsatzbereiche des Chatbot-Prototypen ChatGPT: Die Anfertigung von Textzusammenfassungen oder Beschreibungen von Kunstwerken, das Generieren von Metadaten, Schreiben von Computercode für einfache Aufgaben, Unterstützung bei der Sacherschließung oder Hilfe für Nutzer:innen beim Auffinden von Ressourcen auf den Webseiten der Kulturerbeeinrichtungen.

Zweifellos liegen die Stärken von ChatGPT in der Erzeugung von Text und damit verknüpften Aufgaben. Als „statistische Papageien“, wie diese Large Language Models in einem vieldiskutierten Paper von 2021 bezeichnet wurden, können diese Sprachmodelle auf stochastischer Basis vorhersagen, welches die nächsten Worte eines Textausschnitts sein werden. Der Anwendungsfall ChatGPT ist als textbasiertes Dialogsystem darauf trainiert worden, in jedem Fall Antworten zu geben. Diese Eigenschaft des Chatbots verweist direkt auf eine der zentralen Schwächen des Modells: Im Zweifelsfall werden schlicht unwahre Angaben gemacht, um den Dialog aufrechtzuerhalten. Da grosse Sprachmodelle nur Anwendungen künstlicher Intelligenz sind und über keinerlei Weltwissen verfügen, können sie per se nicht zwischen Fakten und Fiktion, sozialer Konstruktion und Unwahrheit unterscheiden. Die Tatsache, dass ChatGPT im Zweifelsfall „halluziniert“ (wie der gängige anthropomorphisierende Terminus lautet) und beispielsweise auch Literaturnachweise erfindet, beschädigt selbstverständlich die Verlässlichkeit des Systems – und verweist auf die grosse Stärke von Bibliotheken, zuverlässige Nachweise zur Verfügung zu stellen.

Andererseits besteht eine Stärke derartiger Systeme darin, dass sie Diskurse hervorragend nachbilden können und daher auch in der Lage sind, einzelne Texte oder grössere Textkorpora in herausragender Weise zu klassifizieren und inhaltlich zu beschreiben. Hier zeigt sich ein grosses Potential insbesondere für Bibliotheken: Bislang arbeiten digitale Assistenten, die bei der Verschlagwortung von Büchern unterstützen, mit statistischen Verfahren wie tf-idf oder auch mit Deep Learning. Solche Herangehensweisen könnten durch Topic Modeling ergänzt werden. Dieses Verfahren erzeugt eine Reihe von Begriffen, die stochastisch modelliert wurde und den Inhalt eines Werkes bzw. die in ihm verhandelten Themen („Topics“) beschreibt. Die Herausforderung für die Benutzer:innen lag bislang nun darin, dieser Wortansammlung durch eine Interpretation ein schlüssiges Label oder – im Falle von Bibliotheken – ein kontrolliertes Vokabular zuzuweisen. Genau dieses Labeling kann ChatGPT hervorragend, wie mehrere Forscher:innen bestätigt haben. Da somit die Verschlagwortung von Texten massiv verbessert und erleichtert werden kann, liegt hierin sicher einer der zukünftigen Anwendungsfälle für KI in Bibliotheken – und genau hieran wird im Teilprojekt 2 „KI-unterstützte Inhaltsanalyse und Sacherschließung“ des Projeks „Mensch.Maschine.Kultur“ gearbeitet. Verbesserungswürdig hingegen sind einfache Programmieraufgaben wie die Erstellung eines bibliographischen Nachweises in einem bestimmten Format oder die Transformation eines Nachweises von MARC.xml in JSON; derartige Aufgaben werden nicht immer zuverlässig ausgeführt, wie ein Experiment kürzlich ergab.

ChatGPT unterstreicht als eine der aktuell leistungsfähigsten textbasierten KI-Anwendungen den möglichen Nutzen solcher Modelle. Zugleich werden aber auch die Risiken deutlich, die mit dem Einsatz solcher Anwendungen einhergehen: Bislang sind ausschliesslich die US-amerikanischen Big Tech-Unternehmen in der Lage, derart leistungsfähige Modelle zu trainieren, bereitzustellen und später durch bestärkendes Lernen auf spezifische Aufgaben hin optimierte Modelle zu entwickeln – und zwar mit dem klaren Ziel der Monetarisierung. Darüber hinaus bringen generative KI-Systeme eine Reihe von ethischen Problemen mit sich, denn sie benötigen grosse Textmassen, die bislang aus dem Internet bezogen wurden und damit einem Ort, in dem nicht alle Menschen einander höflich und mit aller Etikette begegnen. So hat eine Studie festgestellt, dass Large Language Models Stereotype reproduzieren, beispielsweise indem sie die Begriffe „Muslime“ und „Gewalt“ miteinander assoziieren. Darüber hinaus müssen toxische Inhalte in den Sprachmodellen als solche gelabelt werden, und dies wird von schlecht bezahlten Menschen vorgenommen, was die ethische Fragwürdigkeit der Erstellung dieser Modelle unterstreicht.

Schliesslich ist hervorzuheben, dass diese Modelle fast ausschliesslich auf der Grundlage von im Internet verfügbarem Wortmaterial des 21. Jahrhunderts trainiert wurden. Demgegenüber wird im Teilprojekt 4 „Datenbereitstellung und Kuratierung für KI“ des Projekts „Mensch.Maschine.Kultur“ daran gearbeitet, kuratierte und historische Daten aus Bibliotheken für KI-Anwendungen aufzubereiten. Die Verfügbarkeit von Large Language Models verweist darüber hinaus auf ganz grundsätzliche Fragen: Die nämlich, welche Rolle das Kulturerbe der gesamten Menschheit in Zukunft spielen soll und welchen Einfluss Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen auf die Erstellung solcher Modelle haben können; und welche Auswirkungen die von grossen Sprachmodellen generierten Texte auf unsere gegenwärtige Kultur haben werden.