Schlagwortarchiv für: big data

Über Objektivität – und die Brücke zur Wahrheit

Die Statistik genießt hohes Ansehen. Zwar sagt der Volksmund „Traue keiner Statistik, die Du nicht selbst gefälscht hast“, sie gilt aber dennoch häufig als Musterbeispiel einer auf breiter Datengrundlage aufsattelnden Objektivität. Ins Extrem gesteigert wird diese Ansicht noch im Hinblick auf maschinelles Lernen: Machine learning-Modelle sind statistische Lerner. Ein jüngst publizierter Forschungsartikel kritisiert diese Auffassung: „the mythology surrounding ML presents it—and justifies its usage in said contexts over the status quo of human decision-making—as paradigmatically objective in the sense of being free from the influence of human values“ (Andrews et al. 2024).
Dass maschinelles Lernen als Extremfall von Objektivität angesehen wird, hat seinen Ursprung im 19. Jahrhundert. Damals wurden die Grundlagen unseres heutigen Verständnisses von Objektivität gelegt. Menschlicher (und fehlbarer) Subjektivität wurde mechanische Objektivität gegenübergestellt. Maschinen wurden damals die Freiheit von willentlichen Eingriffen zugesprochen, die als die gefährlichsten Aspekte der Subjektivität angesehen wurden (Daston / Galison 2007). So werden bis heute Maschinen – seien es Kameras, Sensoren oder elektronische Geräte, oder auch die Daten, die sie produzieren – zum Sinnbild für die Abschaffung des menschlichen Handelns und zur Verkörperung von Objektivität ohne Subjektivität. Diese Auffassungen halten sich hartnäckig, und es wird erklärungsbedürftig, warum der gesunde Menschenverstand Daten, der Statistik und maschinellem Lernen immer noch Objektivität und Unparteilichkeit zuschreibt.
Die Debatte des 19. Jahrhunderts hat heute ihren Wiedergänger in der Diskussion um Biases. Ganz offensichtlich verträgt sich die Tatsache, dass jeder Datensatz statistische Verzerrungen enthält, schlecht mit der Zuschreibung von Objektivität, die doch insbesondere großen Datensätzen innewohnen soll. Aus statistischer Sicht ist es so, dass ein großer Stichprobenumfang die Signifikanz erhöht; die Effektgröße wird wichtiger. Andererseits bedeutet „groß“ nicht „alles“; man muss sich vielmehr des von den Daten abgedeckten Universums bewusst sein. Statistische Schlussfolgerungen, d.h. Schlussfolgerungen aus Daten über die Grundgesamtheit, können nicht ohne weiteres gezogen werden, wenn die Datensätze nicht so angelegt sind, dass ihre Repräsentativität gewährleistet ist (Kitchin 2019). Ein Artikel aus dem Jahr 2022 hält im Hinblick auf statistische Verzerrungen fest: „Data bias has been defined as ‘a systematic distortion in the data’ that can be measured by ‘contrasting a working data sample with reference samples drawn from different sources or contexts.’ This definition encodes an important premise: that there is an absolute truth value in data and that bias is just a ‘distortion’ from that value. This key premise broadly motivates approaches to ‘debias’ data and ML systems.“ (Miceli et al. 2022). Was nach Objektivität und „absolutem Wahrheitswert“ klingt, weil es auf großen Datensätzen, auf Statistik und machine learning-Modellen beruht, ist aber nicht unbedingt korrekt, denn wenn das Modell die Realität schlecht abbildet, können die Schlussfolgerungen, die man aus den Ergebnissen zieht, falsch sein. Dies ist auch der Grund, warum Cathy O’Neil 2016 einen Algorithmus als „an opinion formalized in code“ bezeichnet hat – er bietet nicht einfach Objektivität, sondern arbeitet auf die Zwecke und Ziele hin, für die er geschrieben wurde.

Relieffragment mit Darstellung von Ruderern, Hatschepsut (Königin, Altes Ägypten, 18. Dynastie)

Relieffragment mit Darstellung von Ruderern, Hatschepsut (Königin) (Altes Ägypten, 18. Dynastie). Staatliche Museen zu Berlin, Ägyptisches Museum und Papyrussammlung. Public Domain Mark 1.0
Eine historische Visualisierung von Wissenschaftler:innen, die miteinander kommunizieren und ihre Standpunkte im Sinne einer über dem Individuum stehenden Gemeinschaft abstimmen?

Dass Wissenschaftler:innen – und die machine learning-Gemeinschaft insbesondere – dennoch am Begriff der Objektivität und am objektiven Charakter wissenschaftlichen Wissens festhalten, liegt in der Tatsache begründet, dass letzteres sozial konstruiert ist, da es sich zum Teil aus kollektiven Überzeugungen wissenschaftlicher Gemeinschaften ableitet (Fleck 1935/1980). Über die Tätigkeit der einzelnen Forscher:in hinaus zeigt die Einbettung der Forschungsergebnisse in einen breiteren wissenschaftlichen Diskurs, dass wissenschaftliche Forschung eine kollektive Tätigkeit ist. Vieles von dem, was als ‘Wissenschaft’ bezeichnet wird, beruht auf sozialen Praktiken und Verfahren der Zusprechung. Wie die Wissenschaftshistorikerin Naomi Oreskes 2019 festhielt, unterstützt die Heterogenität der wissenschaftlichen Gemeinschaft paradoxerweise die Stärke des erzielten Konsenses: „Objectivity is likely to be maximized when […] the community is sufficiently diverse that a broad range of views can be developed, heard, and appropriately considered.“ Das war offensichtlich auch Miceli et al. klar, als sie in der Debatte um Biases Position bezogen: „data never represents an absolute truth. Data, just like truth, is the product of subjective and asymmetrical social relations.“ Letztlich führen die Prozesse, die innerhalb solcher wissenschaftlicher Gemeinschaften ablaufen, zu dem, was als wissenschaftliche Wahrheit bezeichnet wird. Daten, Statistik, maschinelles Lernen und Objektivität sind in gesamtgesellschaftliche Diskurse eingebettet, und diese bilden letzten Endes die Brücke zur Wahrheit.

Offenheit und ihre Schattierungen

Offenheit, dieser Leuchtturm des 20. Jahrhunderts, wurde realisiert durch offene Schnittstellen (APIs). Im Falle von Galerien, Bibliotheken, Archiven und Museen (GLAMs) war es das Open Archives Initiative Protocol for Metadata Harvesting, kurz OAI-PMH. Die Idee war damals, eine Schnittstelle bereitzustellen, die Metadaten in interoperablen Formaten bereitstellt und so den Austausch zwischen verschiedenen Institutionen ermöglicht. Darüber hinaus wird das Harvesting verteilter, im XML-Format beschriebener Ressourcen möglich gemacht, die auf vom Anbieter definierte benannte Mengen beschränkt sein können. Auf die Objekte wird über URLs in den Metadaten verwiesen; so wird auch der Zugriff auf die Objekte selbst möglich. Grundsätzlich ist das Protokoll nicht darauf ausgelegt, zwischen den Nutzer:innen zu unterscheiden; Lizenzen und Rechteerklärungen können einbezogen werden, aber es ist nicht vorgesehen, bestimmtes Material vor dem Zugriff zu verbergen. Die Entscheidung, ob (und welches) durch Urheberrechte geschütztes Material verwendet werden soll, liegt letztlich bei den Nutzer:innen.

Leuchtturm an der Bretonischen Küste, Gemälde von Théodore Gudin, 1845

Leuchtturm an der Bretonischen Küste, Gemälde von Théodore Gudin, 1845. Staatliche Museen zu Berlin, Nationalgalerie. Public Domain Mark 1.0

Das 21. Jahrhundert brachte dann ein neues Konzept: Datensouveränität. Dies bedeutet einerseits, dass die Daten den Gesetzen und Verwaltungsstrukturen unterliegen, die in dem Rechtsraum gelten, in dem die Daten gehostet werden; für die Datenhalter steht das Konzept andererseits stellvertretend für die Vorstellung, dass die Rechteinhaber selbst bestimmen können, was Dritte mit den Daten tun dürfen und können. Mit Blick auf die Situation, dass es nun einen zweiten Leuchtturm gibt – die Bereitstellung von Kulturerbe-Datensätzen für Innovation und Forschung –, der in stürmischen Zeiten Orientierung bietet, wird die Rolle der Kulturerbe-Institutionen als Zugangsvermittler greifbar: Wenn Rechteinhaber ihre (urheberrechtlich geschützten) Daten kommerziellen KI-Firmen nicht offen zur Verfügung stellen wollen, können GLAM-Institutionen als Datenanbieter Differenzierungen bei der Nutzung dieser Daten aushandeln. So können diese Daten beispielsweise von Start-ups, kleinen und mittleren Unternehmen (KMU) und Unternehmen aus dem Kulturbereich kostenlos genutzt werden, während für big tech-Unternehmen Gebühren anfallen würden. Interessanterweise sieht der europäische Data Governance Act einen solchen Fall vor und enthält ein entsprechendes Instrumentarium. Es gibt ein Kapitel über die Nutzung von Daten, die von öffentlichen Stellen zur Verfügung gestellt werden (Kapitel II, Artikel 6), das die Bereitstellung von Daten gegen Gebühren regelt und eine Differenzierung der zu erhebenden Gebühren zwischen privaten Nutzer:innen, KMU und Start-ups einerseits und größeren Unternehmen andererseits ermöglicht, soweit sie nicht unter die erste Bedingung fallen. Damit wird eine Differenzierungsmöglichkeit für die kommerzielle Nutzung geschaffen, wobei sich die Gebühren an den Kosten der Infrastruktur zur Bereitstellung der Daten orientieren müssen. Für diese Fälle benötigen Kulturerbe-Institutionen neue Lizenzen (oder Rechteerklärungen), die darlegen, ob kommerzielle Unternehmen aufgrund der Opt-Out-Option der Rechteinhaber vom Zugang zu den Daten ausgeschlossen sind oder nicht; und die klären, ob große Tech-Konzerne durch die Zahlung von Gebühren Zugang erhalten, während Daten für Start-ups und KMUs kostenlos zur Verfügung gestellt werden.

Während dies die rechtliche Seite der Rolle von GLAM-Einrichtungen als Zugangsvermittler beschreibt, gibt es auch eine technische Seite der Datensouveränität, die durch den Begriff „Datenräume“ angesprochen wird. APIs wie OAI-PMH werden auch weiterhin den Austausch zwischen Institutionen gewährleisten, aber im Hinblick auf Datenbereitstellung für Dritte an Bedeutung verlieren (abgesehen von der Bereitstellung gemeinfreien Materials). Aufgewertet hingegen wird das Konzept der Datenräume, das von zentraler Bedeutung für die Politik der Europäischen Kommission in den kommenden Jahren ist. Ein geplanter Datenraum ist z.B. der European Data Space for Cultural Heritage, der in Zusammenarbeit mit Europeana entstehen soll; bereits bestehende vergleichbare Initiativen sind die European Open Science Cloud (EOSC) und die European Collaborative Cloud for Cultural Heritage (ECCCH). Eine technische Umsetzung eines solchen Datenraums ist GAIA-X, eine europäische Initiative für eine unabhängige Cloud-Infrastruktur. Neben einer Reihe anderer Funktionen ermöglicht sie es GLAM-Institutionen, ihre Daten vor Ort aufzubewahren und den Nutzer:innen der Infrastruktur verarbeitete Daten zur Verfügung zu stellen, nachdem sie einen Algorithmus ihrer Wahl auf die Daten der Kulturerbe-Institution angewendet haben: Anstatt Terabytes von Daten herunterzuladen und sie selbst zu verarbeiten, kann der Algorithmus (oder das machine learning-Modell) ausgewählt und zu den Daten gesendet werden. Ein Beispiel mit solchen Funktionalitäten hat die Staatsbibliothek zu Berlin mit dem CrossAsia Demonstrator entwickelt. Eine solche Infrastruktur ermöglicht nicht nur den Umgang mit Daten mit unterschiedlichen Nutzungsrechten, sondern erlaubt auch eine Differenzierung zwischen Nutzer:innen und Zahlungsdiensten. Mit anderen Worten: Sie gewährt die volle Souveränität über die Daten. Wie bei allen technischen Lösungen gibt es auch hier eine Kehrseite: Solche Datenräume sind in der Regel komplex und schwer zu handhaben, was für Kulturerbe-Einrichtungen eine Hürde darstellt und oft zusätzlichen Personalbedarf mit sich bringt.

Mit den Konzepten der Datenräume und der Datensouveränität verbunden (aber nicht an sie gebunden) ist die Idee der Allmende. Der englische Begriff „Commons“ bezeichnet eine gemeinsame Ressource, die von einer Gemeinschaft zum Nutzen ihrer Mitglieder verwaltet wird. Europeana, ein Meta-Aggregator und Webportal für die digitale Sammlung des europäischen Kulturerbes, konzeptualisiert den geplanten europäischen Datenraum für das Kulturerbe ausdrücklich als „an open and resilient commons for the users of European cultural data, where data owners – as opposed to platforms – have control of their data and of how, when and with whom it is shared“. Die hier gewählte Formulierung ist bezeichnend für einen Lernprozess in Bezug auf Offenheit: Die Definition eines offenen Gemeinguts „im Gegensatz zu Plattformen“ spricht ein Problem an, das für offene Allmenden charakteristisch ist, nämlich die Übernutzung der verfügbaren Ressourcen, die zu deren Erschöpfung führen kann. Bei den klassischen Beispielen für Allmenden wie Fischgründen oder Weideland ist die Ressource dann gefährdet, wenn Nutzer:innen versuchen, von ihr zu profitieren, ohne gleichzeitig zu ihrer Erhaltung beizutragen. Dies ist bei digitalen Ressourcen jedoch nicht der Fall. Das Problem liegt vielmehr im potenziellen Verlust des gemeinschaftlichen Nutzens aufgrund von Handlungen, die durch Eigeninteresse motiviert sind. Im 21. Jahrhundert hat der Aufstieg der großen Plattformen das so genannte „Paradoxon der Offenheit“ offenbart: „open resources are most likely to contribute to the power of those with the best means to make use of them“. Die Notwendigkeit von Datenräumen, die von einer Gemeinschaft zum Nutzen ihrer Mitglieder verwaltet werden, fügt der Offenheit nicht nur eine weitere Schattierung hinzu, sondern eröffnet gleichzeitig eine weitere Front: Die Abkehr von der Plattformisierung impliziert nämlich eine Ablehnung der Dominanz außereuropäischer big tech-Unternehmen.

Hungrige Magie

„Any sufficiently advanced technology is indistinguishable from magic“, wußte schon Arthur C. Clarke, und es gehört zum Zauber neuer Technologien, dass ihre Kehrseiten systematisch beschwiegen werden. So ist es auch mit dem Energieverbrauch von großen Sprachmodellen (LLMs): Wie beim Schnitzel, das auf dem Teller der Verbraucher:innen landet und den Zusammenhang zu den Realitäten der Massentierhaltung vergessen macht, ist es auch bei den Wunderwerken künstlicher Intelligenz. Angaben über die zur Erstellung solcher Produkte wie ChatGPT erforderliche Rechenleistung und die verwendeten big data werden nicht gemacht, sei es, um Datenschutz- und urheberrechtliche Probleme nicht allzu offenbar werden zu lassen, sei es, um den Energiehunger und den CO2-Ausstoß beim Training dieser Modelle und ihrem Betrieb nicht quantifizieren zu müssen. Eine seriöse Zeitung wie die Zeit schätzte im März 2023: „Für den Betrieb von ChatGPT fallen […] derzeit Kosten in Höhe von 100.000 bis 700.000 Dollar am Tag an“ und gab „1.287 Gigawattstunden Strom“ oder „Emissionen von geschätzt 502 Tonnen CO2“ für das Training von GPT-3 an (Art. “Hidden Energie”, in: Die Zeit Nr. 14 vom 30.03.2023, S.52). Vor diesem Hintergrund kann nicht verwundern, dass sich nach Angaben der International Energy Authority der Stromverbrauch der big tech-Unternehmen Amazon, Microsoft, Google und Meta zwischen 2017 und 2021 auf 72 TWh verdoppelt hat; diese vier Unternehmen sind zugleich die weltweit größten Anbieter kommerziell verfügbarer Cloud-Rechenkapazität.

Vor kurzem wurde nun von Sasha Luccioni, Yacine Jernite und Emma Strubell die erste systematische Studie zum Energieverbrauch und CO2-Ausstoß verschiedener machine learning-Modelle während der Inferenz-Phase vorgelegt. Inferenz meint hier den Betrieb der Modelle, d.h. den Zeitraum des Einsatzes nach dem Training und Finetuning der Modelle. Inferenz macht etwa 80 bis 90 Prozent der Kosten maschinellen Lernens aus, auf einer Cloud-Computing-Plattform wie Amazon Web Services (AWS) nach Angaben des Betreibers etwa 90 Prozent. Die Studie von Luccioni et al. unterstreicht dabei die Unterschiede zwischen den verschiedenen machine learning-Anwendungen: Die Strom- und CO2-Intensität ist bei textbasierten Anwendungen massiv geringer als bei bildbasierten Aufgaben; ebenso ist sie bei diskriminativen Aufgabenstellung massiv geringer als bei generativen, dazu gehören die generative pretrained transformers, GPTs. Die Unterschiede zwischen den verschiedenen Modellen sind dabei beträchtlich: „Das Aufladen eines durchschnittlichen Smartphones erfordert 0,012 kWh Energie, was bedeutet, dass das effizienteste Modell zur Texterzeugung für 1.000 Inferenzen so viel Energie verbraucht wie 16 % einer vollen Smartphone-Ladung, während das am wenigsten effiziente Modell zur Bilderzeugung so viel Energie verbraucht wie 950 Smartphone-Ladungen (11,49 kWh) oder fast eine Ladung pro Bilderzeugung.“ Je größer das Modell ist, desto schneller wird während der Inferenz-Phase genauso viel Strom verbraucht bzw. CO2 ausgestoßen wie während der Trainingsphase.

Da ‚Allzweckanwendungen‘ für dieselbe Aufgabenstellung mehr Energie verbrauchen als Modelle, die für einen spezifischen Zweck trainiert wurden, weisen Luccioni et al. auf mehrere Zielkonflikte hin: Zum einen auf den Zielkonflikt zwischen Modellgröße vs. Stromverbrauch, denn der Nutzen von multi purpose-Modellen muss gegen ihre Stromkosten und die CO2-Emissionen abgewogen werden. Zum anderen auf den Zielkonflikt zwischen Fehlerrate/Effizienz und Stromverbrauch über die verschiedenen Modelle hinweg, denn je geringer die Fehlerrate bzw. je höher die Effizienz eines Modells, desto geringer ist auch der Stromverbrauch spezifischer Modelle, während hingegen multi purpose-Modelle zwar viele verschiedene Aufgabenstellungen erfüllen können, hierbei jedoch eine höhere Fehlerrate und einen höheren Stromverbrauch aufweisen. Diese empirisch belegten Befunde stellen nach Ansicht der Autorinnen beispielsweise in Frage, ob es angesichts des Energiebedarfs solcher multi purpose-Modelle wie Bard und Bing wirklich notwendig ist, diese zu betreiben, wenn sie in Kontexten wie Websuche und Navigation eingesetzt werden, d.h. in Situationen, in denen die Aufgabenstellungen klar definiert sind.

Der Energiehunger großer Allzweck-Modelle zeigt den führenden Unternehmer:innen und Investor:innen der westlichen big tech-Konzerne nicht etwa die „Grenzen des Wachstums“ auf, wie sie der Club of Rome vor über 50 Jahren benannte. Im Gegenteil, CEOs wie Jeff Bezos, zu dessen Imperium auch die größte Cloud-Computing-Plattform AWS gehört, fürchten eher die Stagnation: „We will have to stop growing, which I think is a very bad future.“ Visionen wie das Metaverse sind im Hinblick auf den Ressourcenverbrauch und die Emissionen äußerst kostspielig, und man darf mit Recht fragen, ob KI-Anwendungen in der Zukunft wirklich der gesamten Menschheit oder nur denjenigen Firmen oder Einzelpersonen, die es sich leisten können, zur Verfügung stehen werden. Nichts von alledem ist auch nur annähernd nachhaltig. Angesichts des wachsenden Stromverbrauchs der westlichen big tech-Unternehmen und der Tatsache, dass bereits jetzt die Kerninfrastruktur für die Entwicklung von KI-Produkten durch einige wenige Akteure zentralisiert ist, bleibt derzeit unklar, wohin die Entwicklung ‚magischer‘ KI-Anwendungen führen wird. Die Wissenschaftlerin Kate Crawford hat dazu in ihrem Buch „Atlas of AI“ eine eigene Antwort gegeben: Ins All, denn dort gibt es die Ressourcen, die diese Konzerne benötigen.

Den Kuckuck füttern

Large Language Models (LLMs) kombinieren Wörter, die im Trainingsdatensatz häufig in ähnlichen Zusammenhängen auftauchen; auf dieser Grundlage sagen sie das wahrscheinlichste Wort bzw. den wahrscheinlichsten Satz vorher. Je größer der Trainingsdatensatz ist, desto mehr Kombinationsmöglichkeiten gibt es, und desto ‚kreativer‘ wirkt das Modell. Die schiere Größe von Modellen wie GPT-4 stellt aber bereits einen schwer einholbaren Wettbewerbsvorteil dar: Es gibt nur eine Handvoll von Unternehmen weltweit, die exorbitante Rechenleistung, Verfügung über big data und enorme Marktreichweite miteinander kombinieren können, um ein derartiges Produkt herstellen zu können. Am aktuellen Konkurrenzkampf sind keine Forschungseinrichtungen beteiligt, wohl aber die big tech-Unternehmen Microsoft, Meta und Google. Wenige Akteure und wenige Modelle bedeuten allerdings auch einen „Wettlauf nach unten, was Sicherheit und Ethik betrifft“, denn die Verwendung von big data hat im Hinblick auf LLMs auch zumeist zur Folge, dass die Trainingsdaten sensible und vertrauliche Informationen sowie urheberrechtlich geschütztes Material enthalten. In zahlreichen Gerichtsverfahren wird den Tech-Giganten vorgeworfen, die Daten von Millionen von Nutzer:innen ohne deren Zustimmung im Netz eingesammelt und gegen das Urheberrecht zu verstoßen, um KI-Modelle zu trainieren.

Die Nutzer:innen des Internets haben also bereits dazu beigetragen, das Kuckuckskind zu füttern. Google machte diese Tatsache auf indirekte Weise dadurch bekannt, dass es im Juni 2023 seine Datenschutzerklärung aktualisierte: „wir nutzen Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen weiterzuentwickeln, die diese grundlegenden Technologien nutzen – wie Google Übersetzer, Bard und Cloud AI.“ Weniger bekannt ist jedoch die Tatsache, dass die großen Tech-Unternehmen ihre Modelle wie Bard auch damit trainieren, was ihnen die Nutzer:innen anvertrauen. Mit anderen Worten: Alles, was man einem Chatbot erzählt, kann wiederum als Trainingsmaterial verwendet werden. In Googles eigenen Worten klingt das dann so: „Wir nutzen Ihre Interaktionen mit KI-Modellen und Technologien wie Bard, um diese Modelle zu entwickeln, zu trainieren, zu optimieren und zu verbessern, damit sie besser auf Ihre Anfragen reagieren.“ Eine Konsequenz aus der Bauart von LLMs aber ist, dass sich der Output generativer Modelle nicht kontrollieren lässt; es gibt dazu bei den großen Modellen schlicht zu viele Möglichkeiten. Wenn das LLM auf privaten oder vertraulichen Daten trainiert wurde und wird, kann das dazu führen, dass diese Daten offengelegt werden und vertrauliche Informationen preisgegeben werden. Daher sollten bereits die Trainingsdaten den Datenschutzbestimmungen entsprechen, und daher wird immer wieder Transparenz im Hinblick auf Trainingsdaten gefordert.

Konsequenterweise warnt Google in seinen Datenschutzbestimmungen zu Bard die Nutzer:innen des Modells davor, dieses mit sensitiven Daten zu füttern: „Geben Sie in Ihren Unterhaltungen mit Bard keine vertraulichen Informationen und keine Daten an, die Prüfer nicht sehen sollen“. Das ist insofern interessant, als der KI-Hype mit solchen Begriffen wie „disruption“ befeuert wird, zugleich aber unklar bleibt, wie das Geschäftsmodell aussehen soll, mit dem die big tech-Unternehmen mittelfristig Gewinne generieren wollen – und wie denn für durchschnittliche Nutzer:innen genau der Anwendungsfall aussehen soll. Ein Anwendungsfall allerdings besteht in der Generierung von alltäglich benötigten Texten, nämlich von wohlformulierten Bewerbungsschreiben. Lädt man dazu allerdings den eigenen Lebenslauf hoch, füttert man nur wieder den Kuckuck. Und das ist nicht in unser aller Sinne: Datenschutz ist schließlich (auch) ein Gemeingut.

Über die Verwendung von Lizenzen in Zeiten von großen Sprachmodellen

An sich könnte ja alles ganz einfach sein: Kulturerbeeinrichtungen und andere öffentliche Stellen bieten qualitativ hochwertige Daten in großem Umfang an, und das möglichst unter einer permissiven Lizenz wie etwa CC0 oder Public Domain Mark 1.0. Das entspricht der Ausgangsidee: Kulturerbeeinrichtungen werden aus Steuermitteln finanziert, daher sollen ihre Dienstleistungen und Produkte auch allen zugutekommen; im Fall von Daten sollen Innovation, Forschung und natürlich auch private Nutzung ermöglicht werden.

Nun leben wir in Zeiten großer Sprachmodelle und exploitativer Praktiken insbesondere US-amerikanischer Big Tech-Unternehmen. Hier werden in großem Stil Daten aus dem Internet abgesaugt und in großen proprietären Sprachmodellen verarbeitet. Diese Unternehmen sind nicht nur die Innovationstreiber, sondern heben sich z.B. von Forschungseinrichtungen dadurch ab, dass sie über speziell aufbereitete Trainingsdatensätze ebenso verfügen wie über eine exzeptionelle Rechenleistung und die bestbezahltesten Stellen für Entwickler:innen von Algorithmen; dies alles sind teure Zutaten für ein Erfolgsrezept bei kleiner Konkurrenz.

Eine der Schwächen von ChatGPT – und vermutlich auch von GPT-4 – liegt in der mangelnden Verlässlichkeit. Diese Schwäche resultiert aus dem Unvermögen von rein stochastischen  Sprachmodellen, zwischen Fakten und Fiktion zu unterscheiden; aber auch an einem Mangel an Daten. Gerade im Hinblick auf „halluzinierte“ Literaturnachweise sind bibliographische Daten aus Bibliotheken für die Erstellung großer Sprachmodelle sehr attraktiv. Ein weiteres Problem besteht im Mangel an qualitativ hochwertigen Textdaten. Einer jüngst publizierten Studie zufolge werden hochqualitative Textdaten noch vor dem Jahr 2026 erschöpft sein; das liegt vor allem daran, dass es im Internet an Etikette und Orthografie mangelt. Wer aber, wenn nicht die Bibliotheken haben riesige Bestände an qualitativ hochwertigen Textdaten? Nahezu alle hier verfügbaren Inhalte sind durch einen Qualitätsfilter gelaufen, der sich „Verlage“ nennt. Über die intellektuelle Qualität der Bücher mag man geteilter Meinung sein; aber sprachlich und orthographisch ist das, was bis Ende des 20. Jahrhunderts gedruckt wurde (also vor dem Beginn des Self-Publishings), von sehr guter Qualität.

Schließlich noch das liebe Geld: Die Inflation ist wieder da, die Niedrigzinsphase ist vorbei, die erste Silicon Valley-Bank bankrott. Daraus folgt, dass viele dort ansässige Unternehmen bald frisches Geld benötigen; also wird bald monetarisiert werden, um Profite zu erzeugen. Aus bislang noch kostenfrei angebotenen Produkten (wie ChatGPT) werden bald spezifischere neue Modelle erstellt werden, die gegen Bezahlung bedarfsorientierte Services bereitstellen.

Sollen die Kulturerbeinstitutionen als Einrichtungen öffentlichen Rechts nun der Profitmaximierung einiger weniger Unternehmen dienen, indem sie teure und ressourcenintensive (und steuerfinanzierte) Daten kostenlos bereitstellen? Die Antwort ist differenziert und daher kompliziert. Selbstverständlich sollten Daten wie bislang auch unter permissiven Lizenzen bereitgestellt werden. Hier können durchaus auch duale Strategien verwendet werden. Einerseits können die über Schnittstellen wie OAI-PMH oder IIIF bereitgestellten Daten auch weiterhin unter CC0 oder Public Domain-Lizenzen zugänglich sein; technische Zugangsbeschränkungen können über die Steuerung von IP-Adressen oder Downloadmaxima das Absaugen von Daten in großem Stil verhindern. Andererseits können eigene Datenpublikationen erfolgen, die die einzelnen Datensätze bündeln, um Forschung und Innovation zu ermöglichen; solcherart Angebote sind als Datenbankwerke 15 Jahre lang geschützt, und hier können Lizenzen verwendet werden, die ein „NC“ (non-commercial) enthalten und solche Daten für Forschung und Innovation verwendbar machen. Beispielhaft verwendet die Stiftung Preußischer Kulturbesitz eine solche Lizenz (CC-BY-NC-SA) für die digitale Repräsentation eines ihrer Prunkstücke, und auch der (nicht so einfach zu benutzende) 3D-Scan ist unter dieser Lizenz frei verfügbar (download hier).

Interessanterweise hat die Europäische Union den oben beschriebenen Fall im Data Governance Act antizipiert und ein relevantes Instrumentarium eingefügt. Hier gibt es ein Kapitel zur Nutzung von Daten öffentlicher Stellen (Kapitel II, Artikel 6), in dem die Bereitstellung von Daten gegen Gebühren geregelt wird. Darin heißt es, dass die öffentlichen Einrichtungen bei den Gebühren, die sie verlangen, unterscheiden dürfen zwischen privaten Nutzern bzw. kleinen und mittleren Unternehmen einerseits und größeren Unternehmen andererseits, die nicht mehr unter die erstere Definition fallen. Dort schafft man also eine Möglichkeit für Differenzierungen im Rahmen der gewerblichen Nutzer, wobei die Gebühren an den Kosten für die Bereitstellungsinfrastruktur orientiert sein sollen. Im Rechtssystem ist das etwas eher Atypisches, da ja das Gleichbehandlungsprinzip gilt. Kulturerbeeinrichtungen haben damit die EU-Kommissarin für Wettbewerb Margrethe Vestager an ihrer Seite, die 2020 den Data Governance Act präsentiert hat (er ist übrigens ab dem 24. September 2023 anzuwenden). Vestager ist zugleich auch Kommissarin für Digitales und hat in den ersten fünf Jahren ihrer Amtszeit mehr als 15 Milliarden Euro an Kartellstrafen verhängt. Ein politischer Durchsetzungswille scheint also vorhanden zu sein.

Dieser wird im Zweifelsfall auch notwendig sein. Lizenzen wie CC-BY-SA-NC unterbinden die Verwendung öffentlicher Daten für kommerzielle große Sprachmodelle. Da sich die Ersteller von großen Sprachmodellen in einem urheberrechtlichen Minenfeld bewegen und bei anderen Modellen eine Bildagentur oder weitere Rechteinhaber bereits Urheberrechtsklagen eingereicht haben, muss man leider anzweifeln, dass sie in der Zukunft Rücksicht darauf nehmen werden. Die entsprechenden Gerichtsentscheide bleiben in den anhängigen Fällen freilich abzuwarten. Selbst mit reverse engineering ist nämlich nicht einfach nachzuweisen, welche Datensätze in ein großes Sprachmodell eingeflossen sind; daher müsste eine Art Indizienprozess geführt werden. Mittel- und langfristig scheint es daher sinnvoller zu sein, auf die Etablierung von Prüfverfahren und Standards vor der Veröffentlichung von KI-Modellen zu setzen. Dazu gehören die Offenlegung des Trainingsmaterials und -prozesses, seine Evaluierung durch Expert:innen, Code Audits, aber auch eine Beweislastumkehr im Hinblick auf die Lizenzierung des verwendeten Datenmaterials. Solche Prozeduren zum Pflichtbestandteil für die Zulassung kommerzieller KI-Anwendungen zu machen, ist dann tatsächlich Aufgabe der Europäischen Union.

Ein weiterer Weg besteht schließlich darin, Kulturerbedaten in einem eigenen Data Space für Kulturerbe zu publizieren; die Ausschreibung für einen solchen Data Space wurde im vergangenen Herbst auf den Weg gebracht und ist Teil des EU Data Acts. Inwiefern dieser Data Space den Kulturerbeinstitutionen volle Datensouveränität und damit die Möglichkeit gewährt, den Zugriff auf die Datenpublikationen zu steuern, bleibt abzuwarten.

Über den Einsatz von ChatGPT in Kulturerbeeinrichtungen

Seit der Veröffentlichung des Dialogsystems ChatGPT im November 2022 hat die gesellschaftliche Debatte über Künstliche Intelligenz (KI) deutlich an Fahrt aufgenommen und auch Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen erreicht. Dabei geht es vor allem um die Einschätzung, wie leistungsfähig solche grossen Sprachmodelle (Large Language Models, LLMs) im Allgemeinen und Generative Pre-trained Transformers (GPTs) im Besonderen sind. Für den Kulturerbebereich zeigen sich dabei eine ganze Reihe möglicher Einsatzbereiche des Chatbot-Prototypen ChatGPT: Die Anfertigung von Textzusammenfassungen oder Beschreibungen von Kunstwerken, das Generieren von Metadaten, Schreiben von Computercode für einfache Aufgaben, Unterstützung bei der Sacherschließung oder Hilfe für Nutzer:innen beim Auffinden von Ressourcen auf den Webseiten der Kulturerbeeinrichtungen.

Zweifellos liegen die Stärken von ChatGPT in der Erzeugung von Text und damit verknüpften Aufgaben. Als „statistische Papageien“, wie diese Large Language Models in einem vieldiskutierten Paper von 2021 bezeichnet wurden, können diese Sprachmodelle auf stochastischer Basis vorhersagen, welches die nächsten Worte eines Textausschnitts sein werden. Der Anwendungsfall ChatGPT ist als textbasiertes Dialogsystem darauf trainiert worden, in jedem Fall Antworten zu geben. Diese Eigenschaft des Chatbots verweist direkt auf eine der zentralen Schwächen des Modells: Im Zweifelsfall werden schlicht unwahre Angaben gemacht, um den Dialog aufrechtzuerhalten. Da grosse Sprachmodelle nur Anwendungen künstlicher Intelligenz sind und über keinerlei Weltwissen verfügen, können sie per se nicht zwischen Fakten und Fiktion, sozialer Konstruktion und Unwahrheit unterscheiden. Die Tatsache, dass ChatGPT im Zweifelsfall „halluziniert“ (wie der gängige anthropomorphisierende Terminus lautet) und beispielsweise auch Literaturnachweise erfindet, beschädigt selbstverständlich die Verlässlichkeit des Systems – und verweist auf die grosse Stärke von Bibliotheken, zuverlässige Nachweise zur Verfügung zu stellen.

Andererseits besteht eine Stärke derartiger Systeme darin, dass sie Diskurse hervorragend nachbilden können und daher auch in der Lage sind, einzelne Texte oder grössere Textkorpora in herausragender Weise zu klassifizieren und inhaltlich zu beschreiben. Hier zeigt sich ein grosses Potential insbesondere für Bibliotheken: Bislang arbeiten digitale Assistenten, die bei der Verschlagwortung von Büchern unterstützen, mit statistischen Verfahren wie tf-idf oder auch mit Deep Learning. Solche Herangehensweisen könnten durch Topic Modeling ergänzt werden. Dieses Verfahren erzeugt eine Reihe von Begriffen, die stochastisch modelliert wurde und den Inhalt eines Werkes bzw. die in ihm verhandelten Themen („Topics“) beschreibt. Die Herausforderung für die Benutzer:innen lag bislang nun darin, dieser Wortansammlung durch eine Interpretation ein schlüssiges Label oder – im Falle von Bibliotheken – ein kontrolliertes Vokabular zuzuweisen. Genau dieses Labeling kann ChatGPT hervorragend, wie mehrere Forscher:innen bestätigt haben. Da somit die Verschlagwortung von Texten massiv verbessert und erleichtert werden kann, liegt hierin sicher einer der zukünftigen Anwendungsfälle für KI in Bibliotheken – und genau hieran wird im Teilprojekt 2 „KI-unterstützte Inhaltsanalyse und Sacherschließung“ des Projeks „Mensch.Maschine.Kultur“ gearbeitet. Verbesserungswürdig hingegen sind einfache Programmieraufgaben wie die Erstellung eines bibliographischen Nachweises in einem bestimmten Format oder die Transformation eines Nachweises von MARC.xml in JSON; derartige Aufgaben werden nicht immer zuverlässig ausgeführt, wie ein Experiment kürzlich ergab.

ChatGPT unterstreicht als eine der aktuell leistungsfähigsten textbasierten KI-Anwendungen den möglichen Nutzen solcher Modelle. Zugleich werden aber auch die Risiken deutlich, die mit dem Einsatz solcher Anwendungen einhergehen: Bislang sind ausschliesslich die US-amerikanischen Big Tech-Unternehmen in der Lage, derart leistungsfähige Modelle zu trainieren, bereitzustellen und später durch bestärkendes Lernen auf spezifische Aufgaben hin optimierte Modelle zu entwickeln – und zwar mit dem klaren Ziel der Monetarisierung. Darüber hinaus bringen generative KI-Systeme eine Reihe von ethischen Problemen mit sich, denn sie benötigen grosse Textmassen, die bislang aus dem Internet bezogen wurden und damit einem Ort, in dem nicht alle Menschen einander höflich und mit aller Etikette begegnen. So hat eine Studie festgestellt, dass Large Language Models Stereotype reproduzieren, beispielsweise indem sie die Begriffe „Muslime“ und „Gewalt“ miteinander assoziieren. Darüber hinaus müssen toxische Inhalte in den Sprachmodellen als solche gelabelt werden, und dies wird von schlecht bezahlten Menschen vorgenommen, was die ethische Fragwürdigkeit der Erstellung dieser Modelle unterstreicht.

Schliesslich ist hervorzuheben, dass diese Modelle fast ausschliesslich auf der Grundlage von im Internet verfügbarem Wortmaterial des 21. Jahrhunderts trainiert wurden. Demgegenüber wird im Teilprojekt 4 „Datenbereitstellung und Kuratierung für KI“ des Projekts „Mensch.Maschine.Kultur“ daran gearbeitet, kuratierte und historische Daten aus Bibliotheken für KI-Anwendungen aufzubereiten. Die Verfügbarkeit von Large Language Models verweist darüber hinaus auf ganz grundsätzliche Fragen: Die nämlich, welche Rolle das Kulturerbe der gesamten Menschheit in Zukunft spielen soll und welchen Einfluss Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen auf die Erstellung solcher Modelle haben können; und welche Auswirkungen die von grossen Sprachmodellen generierten Texte auf unsere gegenwärtige Kultur haben werden.