Schlagwortarchiv für: Large Language Models

Large Language Models und ihre WEIRDen Konsequenzen

In seinem Buch „The Weirdest People in the World“ („Die seltsamsten Menschen der Welt“) widmet sich der Evolutionspsychologe Joseph Henrich einer besonderen Spezies, die er „WEIRD people“ nennt. Dieses Wortspiel lässt sich insofern auflösen, als WEIRD für „white, educated, industrialised, rich, democratic“ steht. Henrich fragt sich hier, wie es dazu kommen konnte, dass ein kleiner Teil der Bevölkerung, der zumeist in der westlichen Welt lebt, eine Reihe recht spezifischer Fähigkeiten herausbilden konnte. Er beginnt damit, dass in den letzten 500 Jahren das Gehirn dieser Menschen durch extensives Lesen sowie durch den Einfluss Luthers bzw. dessen Imperativ, die Bibel selbständig zu lesen, verändert wurde.  Um diese Veränderungen zu charakterisieren und insbesondere herauszuarbeiten, wie sich in Mitteleuropa eine Beschleunigungsdynamik und das Antreiben von Innovation als Motor ökonomischen Wachstums entwickelten, beschäftigt er sich mit Ausbildungsinstitutionen, Urbanisierung, der Herausbildung unpersönlicher Märkte, überregionalen Klosterordnungen, Universitäten, Wissensgesellschaften, Gelehrtenbriefwechseln und der Herausbildung neuer (protestantischer) religiöser Gruppierungen. Wollte man Henrichs Studie weiterführen und ins 21. Jahrhundert verlängern, müsste man sich mit dem Einfluss und den Veränderungen beschäftigen, die Large Language Models (LLMs) auf das menschliche Gehirn haben. Obwohl diese erst seit 2016 existieren und erst seit Herbst 2022 (ChatGPT) für eine breite Nutzerschaft zur Verfügung stehen, lassen sich doch bereits jetzt einige – zugegebenermaßen spekulative – Konsequenzen aus ihrer Nutzung antizipieren.

  1. Wir werden den Umgang mit Falschinformationen lernen (müssen). LLMs sind große Fabulierer, sie können aber nicht zwischen wahr und falsch unterscheiden. Als absolut effiziente Textgeneratoren können sie im Handumdrehen große Mengen von sachlich falschen Inhalten erzeugen, die das Internet, die sozialen Medien und die Kommentarspalten von Nachrichtenseiten füttern. Das kann zu erheblichen Deformationen z.B. des politischen Diskurses führen, etwa wenn Wahlen anstehen – und das ist in 2024 in den USA, Indien, voraussichtlich dem Vereinigten Königreich sowie zahlreichen weiteren Ländern der Welt der Fall. Es kann daher nicht überraschen, dass selbst das Weltwirtschaftsforum in seinem diesjährigen „Global Risks Report“ Falschinformationen und zum Zweck der Täuschung eingesetzte Desinformation zu den größten Risiken mit kurzfristiger Wirkung zählt. Da LLMs Texte produzieren, zu deren Erstellung das wahrscheinlichste nächste Wort vorhergesagt wird, erzeugen sie Beiträge, die plausibel klingen können, oft aber inhaltlich und sachlich mindestens nicht ganz richtig sind. Eine WEIRDe Konsequenz wird also darin bestehen, dass das menschliche Gehirn im Hinblick auf Unterscheidungsfähigkeit wird hinzulernen müssen, um diese synthetischen Inhalte präzise identifizieren (und verwerfen) zu können.
  2. Wir werden unseren Begriff von Authentizität nachschärfen (müssen). Im April 2023 lehnte der Berliner Fotograf Boris Eldagsen den namhaften Sony World Photography Award mit der Begründung ab, dass das authentisch wirkende Bild zweier Frauen KI-generiert sei. Die für den Preis verantwortliche Jury war nicht in der Lage, das Bild mit dem Titel „Pseudomnesia: The Electrician“ von einem Foto zu unterscheiden, das mit einer herkömmlichen Kamera gemacht worden war. Unsere Sehgewohnheiten und Wahrnehmungsroutinen sind aber darauf ausgerichtet, Fotografien als getreue Abbildung der Realität anzusehen. Hier werden wir zweifellos hinzulernen und unseren Begriff von Authentizität anpassen müssen, denn auch im Bereich des Bewegtbildes sind multimodale LLMs äußerst leistungsfähig geworden. Im Januar 2024 zeigte eine Studie auf, dass in den vergangenen Wochen über 100 Deepfake-Videos von Rishi Sunak als Werbeanzeigen auf Facebook verbreitet worden waren. Beide Beispiele zeigen die Manipulierbarkeit unserer Wahrnehmung auf, führen zu Irritation, Verstörung und Skepsis und verweisen darauf, dass wir den Umgang mit AI-generierten visuellen Inhalten neu lernen müssen.
  3. Wir werden mit der Faszination von Bildwelten zurechtkommen (müssen). Generative pretrained transformers (GPTs) werden in Kürze nicht nur in der Lage sein, Texte zu generieren, sondern auch vollständige dreidimensionale Bildwelten erzeugen können. Genau darauf zielt ja Mark Zuckerbergs Vision vom Metaverse ab: Virtuelle Welten zu erschaffen, die von einer so überwältigenden Faszination sind, dass die Nutzer:innen sich nicht mehr von ihnen lösen können; mit anderen Worten: Bildwelten, die hoch süchtig machend sind. Die Anziehungskraft virtueller Realitäten, wie sie bislang in der Gaming-Industrie bekannt sind, wird damit potenziert. Um von diesen Welten nicht vollständig abhängig zu werden und den Kontakt zur Realität nicht zu verlieren, werden wir daher unsere kognitiven Fähigkeiten anpassen müssen – ganz sicher eine WEIRDe Kompetenz im Sinne Henrichs.

Diese drei Beispiele zeigen nur die wahrscheinlichsten Konsequenzen auf, die die breite Nutzung von LLMs für unsere Gehirne haben werden. Viele andere sind denkbar, beispielsweise die Verkümmerung der Fähigkeit, komplexe Texte zu konzeptualisieren (ebenfalls ein WEIRDe Fähigkeit). Im Hinblick auf die Plastizität unserer Gehirne steht damit die Ankunft der LLMs und ihres Outputs in einer Reihe mit historischen Umbrüchen wie der Erfindung des Buchdrucks und der Einführung von elektronischen Massenmedien sowie deren Folgen für die kognitive Organisation und das soziale Zusammenleben. Es ist nicht untertrieben zu sagen, dass der Begriff der Repräsentation neu definiert werden muss. Bislang hat die Menschheit diese Epochenumbrüche recht gut verkraftet. Wir werden sehen, wie sich die WEIRDen Konsequenzen in der Praxis auswirken werden.

Hungrige Magie

„Any sufficiently advanced technology is indistinguishable from magic“, wußte schon Arthur C. Clarke, und es gehört zum Zauber neuer Technologien, dass ihre Kehrseiten systematisch beschwiegen werden. So ist es auch mit dem Energieverbrauch von großen Sprachmodellen (LLMs): Wie beim Schnitzel, das auf dem Teller der Verbraucher:innen landet und den Zusammenhang zu den Realitäten der Massentierhaltung vergessen macht, ist es auch bei den Wunderwerken künstlicher Intelligenz. Angaben über die zur Erstellung solcher Produkte wie ChatGPT erforderliche Rechenleistung und die verwendeten big data werden nicht gemacht, sei es, um Datenschutz- und urheberrechtliche Probleme nicht allzu offenbar werden zu lassen, sei es, um den Energiehunger und den CO2-Ausstoß beim Training dieser Modelle und ihrem Betrieb nicht quantifizieren zu müssen. Eine seriöse Zeitung wie die Zeit schätzte im März 2023: „Für den Betrieb von ChatGPT fallen […] derzeit Kosten in Höhe von 100.000 bis 700.000 Dollar am Tag an“ und gab „1.287 Gigawattstunden Strom“ oder „Emissionen von geschätzt 502 Tonnen CO2“ für das Training von GPT-3 an (Art. “Hidden Energie”, in: Die Zeit Nr. 14 vom 30.03.2023, S.52). Vor diesem Hintergrund kann nicht verwundern, dass sich nach Angaben der International Energy Authority der Stromverbrauch der big tech-Unternehmen Amazon, Microsoft, Google und Meta zwischen 2017 und 2021 auf 72 TWh verdoppelt hat; diese vier Unternehmen sind zugleich die weltweit größten Anbieter kommerziell verfügbarer Cloud-Rechenkapazität.

Vor kurzem wurde nun von Sasha Luccioni, Yacine Jernite und Emma Strubell die erste systematische Studie zum Energieverbrauch und CO2-Ausstoß verschiedener machine learning-Modelle während der Inferenz-Phase vorgelegt. Inferenz meint hier den Betrieb der Modelle, d.h. den Zeitraum des Einsatzes nach dem Training und Finetuning der Modelle. Inferenz macht etwa 80 bis 90 Prozent der Kosten maschinellen Lernens aus, auf einer Cloud-Computing-Plattform wie Amazon Web Services (AWS) nach Angaben des Betreibers etwa 90 Prozent. Die Studie von Luccioni et al. unterstreicht dabei die Unterschiede zwischen den verschiedenen machine learning-Anwendungen: Die Strom- und CO2-Intensität ist bei textbasierten Anwendungen massiv geringer als bei bildbasierten Aufgaben; ebenso ist sie bei diskriminativen Aufgabenstellung massiv geringer als bei generativen, dazu gehören die generative pretrained transformers, GPTs. Die Unterschiede zwischen den verschiedenen Modellen sind dabei beträchtlich: „Das Aufladen eines durchschnittlichen Smartphones erfordert 0,012 kWh Energie, was bedeutet, dass das effizienteste Modell zur Texterzeugung für 1.000 Inferenzen so viel Energie verbraucht wie 16 % einer vollen Smartphone-Ladung, während das am wenigsten effiziente Modell zur Bilderzeugung so viel Energie verbraucht wie 950 Smartphone-Ladungen (11,49 kWh) oder fast eine Ladung pro Bilderzeugung.“ Je größer das Modell ist, desto schneller wird während der Inferenz-Phase genauso viel Strom verbraucht bzw. CO2 ausgestoßen wie während der Trainingsphase.

Da ‚Allzweckanwendungen‘ für dieselbe Aufgabenstellung mehr Energie verbrauchen als Modelle, die für einen spezifischen Zweck trainiert wurden, weisen Luccioni et al. auf mehrere Zielkonflikte hin: Zum einen auf den Zielkonflikt zwischen Modellgröße vs. Stromverbrauch, denn der Nutzen von multi purpose-Modellen muss gegen ihre Stromkosten und die CO2-Emissionen abgewogen werden. Zum anderen auf den Zielkonflikt zwischen Fehlerrate/Effizienz und Stromverbrauch über die verschiedenen Modelle hinweg, denn je geringer die Fehlerrate bzw. je höher die Effizienz eines Modells, desto geringer ist auch der Stromverbrauch spezifischer Modelle, während hingegen multi purpose-Modelle zwar viele verschiedene Aufgabenstellungen erfüllen können, hierbei jedoch eine höhere Fehlerrate und einen höheren Stromverbrauch aufweisen. Diese empirisch belegten Befunde stellen nach Ansicht der Autorinnen beispielsweise in Frage, ob es angesichts des Energiebedarfs solcher multi purpose-Modelle wie Bard und Bing wirklich notwendig ist, diese zu betreiben, wenn sie in Kontexten wie Websuche und Navigation eingesetzt werden, d.h. in Situationen, in denen die Aufgabenstellungen klar definiert sind.

Der Energiehunger großer Allzweck-Modelle zeigt den führenden Unternehmer:innen und Investor:innen der westlichen big tech-Konzerne nicht etwa die „Grenzen des Wachstums“ auf, wie sie der Club of Rome vor über 50 Jahren benannte. Im Gegenteil, CEOs wie Jeff Bezos, zu dessen Imperium auch die größte Cloud-Computing-Plattform AWS gehört, fürchten eher die Stagnation: „We will have to stop growing, which I think is a very bad future.“ Visionen wie das Metaverse sind im Hinblick auf den Ressourcenverbrauch und die Emissionen äußerst kostspielig, und man darf mit Recht fragen, ob KI-Anwendungen in der Zukunft wirklich der gesamten Menschheit oder nur denjenigen Firmen oder Einzelpersonen, die es sich leisten können, zur Verfügung stehen werden. Nichts von alledem ist auch nur annähernd nachhaltig. Angesichts des wachsenden Stromverbrauchs der westlichen big tech-Unternehmen und der Tatsache, dass bereits jetzt die Kerninfrastruktur für die Entwicklung von KI-Produkten durch einige wenige Akteure zentralisiert ist, bleibt derzeit unklar, wohin die Entwicklung ‚magischer‘ KI-Anwendungen führen wird. Die Wissenschaftlerin Kate Crawford hat dazu in ihrem Buch „Atlas of AI“ eine eigene Antwort gegeben: Ins All, denn dort gibt es die Ressourcen, die diese Konzerne benötigen.

Den Kuckuck füttern

Large Language Models (LLMs) kombinieren Wörter, die im Trainingsdatensatz häufig in ähnlichen Zusammenhängen auftauchen; auf dieser Grundlage sagen sie das wahrscheinlichste Wort bzw. den wahrscheinlichsten Satz vorher. Je größer der Trainingsdatensatz ist, desto mehr Kombinationsmöglichkeiten gibt es, und desto ‚kreativer‘ wirkt das Modell. Die schiere Größe von Modellen wie GPT-4 stellt aber bereits einen schwer einholbaren Wettbewerbsvorteil dar: Es gibt nur eine Handvoll von Unternehmen weltweit, die exorbitante Rechenleistung, Verfügung über big data und enorme Marktreichweite miteinander kombinieren können, um ein derartiges Produkt herstellen zu können. Am aktuellen Konkurrenzkampf sind keine Forschungseinrichtungen beteiligt, wohl aber die big tech-Unternehmen Microsoft, Meta und Google. Wenige Akteure und wenige Modelle bedeuten allerdings auch einen „Wettlauf nach unten, was Sicherheit und Ethik betrifft“, denn die Verwendung von big data hat im Hinblick auf LLMs auch zumeist zur Folge, dass die Trainingsdaten sensible und vertrauliche Informationen sowie urheberrechtlich geschütztes Material enthalten. In zahlreichen Gerichtsverfahren wird den Tech-Giganten vorgeworfen, die Daten von Millionen von Nutzer:innen ohne deren Zustimmung im Netz eingesammelt und gegen das Urheberrecht zu verstoßen, um KI-Modelle zu trainieren.

Die Nutzer:innen des Internets haben also bereits dazu beigetragen, das Kuckuckskind zu füttern. Google machte diese Tatsache auf indirekte Weise dadurch bekannt, dass es im Juni 2023 seine Datenschutzerklärung aktualisierte: „wir nutzen Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen weiterzuentwickeln, die diese grundlegenden Technologien nutzen – wie Google Übersetzer, Bard und Cloud AI.“ Weniger bekannt ist jedoch die Tatsache, dass die großen Tech-Unternehmen ihre Modelle wie Bard auch damit trainieren, was ihnen die Nutzer:innen anvertrauen. Mit anderen Worten: Alles, was man einem Chatbot erzählt, kann wiederum als Trainingsmaterial verwendet werden. In Googles eigenen Worten klingt das dann so: „Wir nutzen Ihre Interaktionen mit KI-Modellen und Technologien wie Bard, um diese Modelle zu entwickeln, zu trainieren, zu optimieren und zu verbessern, damit sie besser auf Ihre Anfragen reagieren.“ Eine Konsequenz aus der Bauart von LLMs aber ist, dass sich der Output generativer Modelle nicht kontrollieren lässt; es gibt dazu bei den großen Modellen schlicht zu viele Möglichkeiten. Wenn das LLM auf privaten oder vertraulichen Daten trainiert wurde und wird, kann das dazu führen, dass diese Daten offengelegt werden und vertrauliche Informationen preisgegeben werden. Daher sollten bereits die Trainingsdaten den Datenschutzbestimmungen entsprechen, und daher wird immer wieder Transparenz im Hinblick auf Trainingsdaten gefordert.

Konsequenterweise warnt Google in seinen Datenschutzbestimmungen zu Bard die Nutzer:innen des Modells davor, dieses mit sensitiven Daten zu füttern: „Geben Sie in Ihren Unterhaltungen mit Bard keine vertraulichen Informationen und keine Daten an, die Prüfer nicht sehen sollen“. Das ist insofern interessant, als der KI-Hype mit solchen Begriffen wie „disruption“ befeuert wird, zugleich aber unklar bleibt, wie das Geschäftsmodell aussehen soll, mit dem die big tech-Unternehmen mittelfristig Gewinne generieren wollen – und wie denn für durchschnittliche Nutzer:innen genau der Anwendungsfall aussehen soll. Ein Anwendungsfall allerdings besteht in der Generierung von alltäglich benötigten Texten, nämlich von wohlformulierten Bewerbungsschreiben. Lädt man dazu allerdings den eigenen Lebenslauf hoch, füttert man nur wieder den Kuckuck. Und das ist nicht in unser aller Sinne: Datenschutz ist schließlich (auch) ein Gemeingut.

Über die Tyrannei der Mehrheit

Large Language Models (LLMs) leisten, wenn sie Texte generieren, eine Vorhersage des statistisch wahrscheinlichsten Wortes. Aus der Tatsache, dass das vorhergesagte Wort oder der vorhergesagte Satz das wahrscheinlichste ist, lässt sich zum einen noch nicht schließen, ob er wahr oder falsch ist. Zum anderen führt die Vorhersage von Wahrscheinlichkeiten zu einer Bevorzugung der Mehrheitsmeinung. Wenn im Trainingsdatensatz die eine Wortkombination deutlich häufiger auftaucht als die andere, wird sie vom LLM bevorzugt; und auch, wenn die Annotator:innen ein bestimmtes Label häufiger vergeben als ein anderes, wird das häufiger vergebene Label bevorzugt und das der Minderheitenmeinung unterdrückt. Diese „Tyrannei der Mehrheit“ hat für mindestens zwei wichtige gesellschaftliche Felder Konsequenzen: Für die Wissenschaft und die Kultur.

Wenn wir uns vor Augen führen, wie Thomas Kuhn die „Struktur wissenschaftlicher Revolutionen“ und Pierre Bourdieu die Erneuerung kultureller Felder konzeptualisieren, wird deutlich, dass jedes neue wissenschaftliche Paradigma und jede künstlerische Avantgardebewegung mindestens zu Anfang eine Minderheitenmeinung darstellt. Es gibt eine dominante Mehrheitsmeinung, die Kuhn als paradigmatische „normal science“ und Bourdieu als „orthodoxe“ Kunstauffassung bezeichnet. Diese gesellschaftlichen Gruppen bilden in ihrem jeweiligen Feld den herrschenden Pol und werden in einem Wettbewerb von einer „revolutionären“ (Kuhn) oder „häretischen“ (Bourdieu) Position herausgefordert. Auf diese Entgegensetzung reagieren die Vertreter:innen der herrschenden Meinung häufig negativ: „Normal science, for example, often suppresses fundamental novelties because they are necessarily subversive of its basic commitments.“ (Kuhn, Structure, S.5). Was folgt, ist, soziologisch gesprochen, ein Kampf um Anerkennung, ein Ringen um die Zurückweisung eines älteren wissenschaftlichen oder künstlerischen Paradigmas und die Einführung eines neuen.

Das Kräftemessen zwischen den unterschiedlichen Gruppen von Wissenschaftler:innen oder Künstler:innen kann zu verschiedenen Ergebnissen führen. Das neue Paradigma löst beispielsweise das alte vollständig ab und nimmt selbst eine dominante Position im Feld ein. Das etwa geschah bei der Erforschung der Syphilis, als Anfang des 20. Jahrhunderts erstmals Krankheitserreger nachgewiesen werden konnten. Andere Möglichkeit: Zwei unterschiedliche wissenschaftliche Paradigmen (oder Kunstrichtungen) können nebeneinander koexistieren, so wie die Newton’sche und die Einstein’sche Mechanik; entscheidend ist hier, dass beide einen unterschiedlichen Bezugsrahmen haben, der sich wechselseitig ausschließt (so wie Wissenschaftler:innen häufig ja auch erst eine neue ‘Schule des Sehens’ herausbilden und neue Daten erheben müssen). Eine weitere Möglichkeit besteht darin, dass zwei unterschiedliche Paradigmen nebeneinander existieren, ohne dass sich die Mehrheitsverhältnisse ändern. Das ist etwa bei den unterschiedlichen Interpretationen der Quantenmechanik der Fall: Die stochastische oder Kopenhagener Interpretation der Quantenmechanik bildet die Mehrheitsmeinung, während die deterministische oder Bohmsche Theorie eine Minderheitenmeinung darstellt. Im Feld der Kunst kann man hier etwa an die Überwindung der Tonalität und die Entwicklung der Zwölftontechnik durch Avantgardisten wie Arnold Schönberg und Alban Berg denken. Obwohl diese Technik später aufgegriffen wurde, entwickelte sie sich nicht zum dominanten Verfahren und wurde nie so recht massentauglich (während die Tonalität bis heute für die Mehrheit der Konsument:innen entscheidend ist). Die Langlebigkeit überkommener wissenschaftlicher Paradigmen bzw. ihrer Vertreter  kommentierte Max Planck einmal ironisch mit den Worten: „Die Wissenschaft schreitet mit einer Beerdigung nach der anderen voran.

Die Art und Weise, wie Kuhn und Bourdieu die Erneuerungsprozesse in den Feldern Wissenschaft und Kultur konzeptualisieren, rücken vor allem die gesellschaftlichen Vorgänge in den Fokus, die mit wissenschaftlichen oder künstlerischen Revolutionen verbunden sind. Mit Blick auf LLMs und den mit einer künstlichen allgemeinen Intelligenz (AGI) verbundenen Hoffnungen ist das instruktiv: Derartige ‚Intelligenz‘ tendiert aufgrund ihrer Bauart zur Wiederholung der Mehrheitsmeinung und damit zur Repetition des dominanten Paradigmas (Feld der Wissenschaft) bzw. zum Gemeinplatz, zum Klischee, zur Banalität und zum Unauthentischen (Feld der Kunst). Das heißt nicht, dass die intelligenten Maschinen nicht dazu genutzt werden können, neue Paradigmen zu schaffen. ‚Von selbst‘ werden sie es aber nicht tun. Vielmehr wird deutlich, dass wir die scheinbar übermächtigen KIs im größeren Zusammenhang eines soziotechnischen Systems sehen müssen, in dem der Mensch als Agent nach wie vor eine zentrale Rolle spielt – auch dann, wenn er in der Minderheit ist.

Mensch-Maschine-Kreativität

An Sprachmodelle, die Texte auf der Grundlage von Wahrscheinlichkeiten generieren, nähern wir uns am besten mit einer gesunden Skepsis im Hinblick auf die Faktentreue und mit etwas Humor an. Jack Krawczyk, der bei Google für die Entwicklung des Chatbots „Bard“ verantwortlich ist, bekannte im März 2023 ganz offen: „Bard and ChatGPT are large language models, not knowledge models. They are great at generating human-sounding text, they are not good at ensuring their text is fact-based.“ Ein Sprachmodell mit einem ironischen Augenzwinkern „Bard“ zu nennen, trifft den Nagel auf den Kopf: Barden dichten, erzählen Geschichten und halten sich nicht unbedingt an die Wahrheit, wie wir seit Platon wissen.

Texte zu erstellen, insbesondere literarische Texte, war bislang Menschen vorbehalten. Large Language Models (LLMs) aber sind überraschend gut darin, literarische Stile und Genres zu identifizieren und zu replizieren. Wie dürfen wir uns also von nun an literarische Textproduktion vorstellen? Begriffe wie „Bewusstsein“, „Gedächtnis“, „Intentionalität“ und „Kreativität“ sind erstaunlich schlecht definiert, und zwar für Menschen ebenso wie für Maschinen. Im Hinblick auf letztere hat sich die britische Kognitionswissenschaftlerin Margaret A. Boden in ihrem Buch „The Creative Mind“ bereits mit den Unterschieden zwischen menschlicher und maschineller Kreativität beschäftigt – wobei sie unterstreicht, dass Maschinen eben nur zu einem bestimmten Grad kreativ zu sein scheinen. Sie unterscheidet drei Formen von Kreativität: a) Ungewohnte Kombinationen vertrauter Ideen herstellen; b) Explorative Kreativität; und c) Transformative Kreativität.

Aus bekannten Ideen unbekannte Kombinationen herzustellen ist sicherlich das, was LLMs beherrschen, denn das entspricht ihrer Bauart: Aus dem vorhandenen Datenmaterial die wahrscheinlichste Rekombination herstellen und dabei den in den Daten vorhandenen Mustern folgen. Es dürfte daher keine große Herausforderung für ein LLM mehr darstellen, eine kurze Geschichte in 99 verschiedenen Stilen zu produzieren und damit Raymond Queneau’s berühmte „Exercises de Style“ zu replizieren. Literarische Variationen wie Permutationen, Reimformen, Jargons, Erzählperspektiven, Soziolekte usf. dürften durch einen einzigen Prompt herstellbar sein. Die Formulierung “ein einziger Prompt” zeigt dabei die Unschärfe des Begriffs “Intention” auf: Es muss schon ein Mensch den Prompt eingeben und “intentional” handeln, alles weitere übernimmt die Maschine.

Die nach Boden zweite Form von Kreativität erforscht konzeptuelle Räume, die wir uns im Bereich der Literatur als etablierte Genres vorstellen können. Genres folgen Regeln, die den Raum umreißen, in dem die literarische Handlung vonstatten geht; der Soziologe Pierre Bourdieu hat sie als „Regeln der Kunst“ beschrieben. Nicht alles ist in jedem Genre möglich: Während im Krimi Tote nicht wieder auferstehen oder sich als lebende Leichen fortbewegen, ist dies in der Phantastik oder der Horrorliteratur durchaus möglich. LLMs sind in der Lage, solche Möglichkeitsräume zu identifizieren und die sie charakterisierenden Muster zu wiederholen. Gerade wenn es in den zugrundeliegenden Daten viele Beispiele für literarische Genres wie historische Romane, Fantasy und Liebesromane nebst charakteristischen Stilen und Topoi gibt, können LLMs Rekombinationen zuverlässig herstellen und so den konzeptuellen Raum explorieren. Da diese Räume sehr viele Möglichkeiten bieten, von denen nicht alle für menschliche Leser gleich attraktiv sind, können wir uns diese kombinatorischen Explorationen als Mensch-Maschine-Kollaborationen vorstellen: Ein Mensch überlegt sich ein Konzept für einen Roman und lässt die hier umrissene Handlung von der Maschine kapitelweise ausformulieren. Derartige Kollaborationen lassen sich dabei eher aus ökonomischer denn aus ästhetischer Perspektive kritisieren: Um den aktuellen Möglichkeitsraum zu kennen, müssen LLMs auch Zugriff auf Material haben, das unter Copyright steht. Handelt es sich um Systeme wie ChatGPT, deren Datengrundlage nicht offengelegt wird, kommt das einer Privatisierung von Kultur gleich, die einst öffentlich war. Und, um ein altes Argument anzuführen: Hier wird menschliche Arbeit durch eine Maschinerie ersetzt, die es den entsprechenden Firmen ermöglicht, den erzeugten Mehrwert abzuschöpfen.

Die dritte Form der Kreativität, die Margaret Boden beschreibt, zielt auf eine Transformation des konzeptuellen Raums ab. Hier werden die Regeln, die diesen Raum beschreiben, gesprengt und neue etabliert. Wir können beispielsweise an Marcel Duchamps „Fountain“ betiteltes Pissoir, an Picassos erstes kubistisches Gemälde „Les Demoiselles d’Avignon“ oder an Italo Calvinos „Le città invisibili“ denken. Um den konzeptuellen Raum umzugestalten, muss man ihn allerdings erst einmal kennen und die in ihm geltenden Regeln benennen können, um in einer Kollaboration mit einer Maschine ein solches transformatives Werk realisieren zu können. Ein LLM kann das nicht leisten, da solche Modelle ihre eigene Aktivität nicht reflektieren, nicht über Weltwissen verfügen und ihre Heuristik darauf ausgerichtet ist, Muster zu identifizieren, aber nicht darauf, neue zu erschaffen. Hier trennen sich menschliche und maschinelle Kreativität: Menschliche Kreativität verfügt über Weltwissen und eine (eventuell intuitive) Kenntnis der Regeln eines konzeptuellen Raums; in einer Bewegung der Verabschiedung von den bekannten Konzepten werden neue Lösungen gefunden, radikale Ideen entwickelt und neue Regeln etabliert. Transformative Kreativität ermöglicht es zwar Menschen, neue Werke in Kollaboration mit einer Maschine zu erstellen; die Intention aber, den bekannten Möglichkeitsraum zu verlassen, scheint dem Menschen (noch) vorbehalten zu sein.

It’s the statistics, stupid

„It’s the statistics, stupid“, könnte man formulieren, wenn es um den Umgang mit generativen vortrainierten Sprachmodellen (generative pretrained transformer, GPT) geht. Den müssen wir jedoch alle noch lernen, ein Jahr nach der Präsentation von ChatGPT. Statistische Zusammenhänge bilden den Schlüssel, um zu begreifen, wie stochastische Vorhersagemodelle funktionieren und was sie zu leisten imstande sind.

Einfach erklärt besteht maschinelles Lernen darin, dass einer Maschine Daten gezeigt werden, auf deren Grundlage sie lernt bzw. sich merkt, was mit was zusammenhängt. Diese Daten nennt man den Trainingsdatensatz. Hat die Maschine die Zusammenhänge gelernt, dann zeigt man ihr einen Testdatensatz, d.h. Daten, die sie noch nicht gesehen hat. Am Ergebnis lässt sich bemessen, wie gut eine Maschine die Zusammenhänge gelernt hat. Grundsätzlich gilt dabei: Aus möglichst vielen und repräsentativen Ausgangsdaten (d.h. Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere, ungesehene Daten anwenden zu können. Die Qualität eines solchen Modells hängt also immer davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Large Language Models (LLMs) werden darauf trainiert, Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben und die Illusion eines Dialogs zu erzeugen. Die Maschine bekommt dabei sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, etwa: „It’s the [mask], stupid“. Auf die Frage: „What is this election about?“ macht das Modell dann eine Vorhersage, welches Wort – basierend auf den Trainingsdaten – an der Stelle von [mask] am wahrscheinlichsten stehen würde, hier also „economy“. Im Prinzip könnte hier genauso gut „deficit“, „money“ oder eben „statistics“ stehen, aber „economy“ kommt mit Abstand am häufigsten in den Trainingsdaten vor und ist daher das wahrscheinlichste Wort. Das Sprachmodell kombiniert dabei Wörter, die im Trainingsdatensatz oft in ähnlichen Zusammenhängen auftauchen. Dasselbe trifft für ganze Sätze oder auch längere Texte zu.

Dass LLMs Wahrscheinlichkeiten vorhersagen, hat indes gravierende Konsequenzen. Beispielsweise sagt die Tatsache, dass der von einem Modell vorhergesagte Satz wahrscheinlich ist, nichts darüber aus, ob dieser Satz wahr oder falsch ist. Die erzeugten Texte können also auch falsche Aussagen wie etwa veraltete oder falsche Informationen oder Fiktionen beinhalten. Sprachmodelle wie ChatGPT lernen keine Muster, anhand derer der Wahrheitsgehalt einer Aussage bewertet werden kann. Daher gehört es zur Aufgabe der Menschen, die den Chatbot benutzen, die Glaubwürdigkeit bzw. den Wahrheitsgehalt der Aussage zu überprüfen und zu kontextualisieren. Diesen Umgang sollten wir alle noch lernen, ebenso wie wir es „damals“ gelernt haben, die Verlässlichkeit einer Quelle zu überprüfen, die als Ergebnis einer Google-Suche präsentiert wird. Für einige Lebensbereiche ist die Unterscheidung wahr/falsch zentral, beispielsweise für die Wissenschaft. Ein generatives Modell, das in der Lage ist, wissenschaftliche Texte zu produzieren, aber nicht zwischen wahr und falsch unterscheiden kann, muss daher zwangsläufig scheitern – so wie es bei dem von Meta präsentierten Modell „Galactica“ der Fall war, das immerhin auf Grundlage von 48 Millionen wissenschaftlichen Artikeln trainiert worden war. Folgerichtig wird so ein Modell auch Fragen nach guter wissenschaftlicher Praxis aufwerfen. Da Wissenschaft ganz wesentlich ein System von Referenzen ist, stellt das Faktum, dass generative Modelle wie ChatGPT Literaturnachweise im Zweifelsfall ‚erdichtet‘ (d.h. eine wahrscheinliche Folge von Wörtern erzeugt), ein echtes Problem dar. Es kann daher nicht überraschen, dass das Wort „halluzinieren“ vom Cambridge Dictionary zum Wort des Jahres 2023 gekürt worden ist.

Darüber hinaus gilt: Der Wahrheitsgehalt von Fakten ist abhängig vom Kontext. Das mag zunächst einmal merkwürdig klingen. Schon die banale Frage: „Was ist die Hauptstadt der Bundesrepublik Deutschland?“ aber zeigt, dass die Antwort unterschiedlich sein kann. Noch vor etwas mehr als 30 Jahren wäre „Bonn am Rhein“ richtig gewesen. Und die Antwort auf die Frage „What is this election about?“ würde heute vermutlich anders ausfallen als vor 30 Jahren (Spoilervorschlag: Oligarchie vs. Demokratie). Im Hinblick auf die Wissenschaft wird es noch komplexer: Zum wissenschaftlichen Erkenntnisfortschritt gehört es, dass Aussagen, die noch vor einigen Jahrzehnten als wahr und faktisch angesehen wurden, heute als überholt gelten. Auch für Programmiercode gilt, dass es Menschen benötigt, die den von einem generativen Modell erzeugten Code überprüfen. Das ist der Grund, warum eine der wichtigsten Plattformen für Softwareentwickler, Stackoverflow, bis heute keine Antworten zulässt, die von solchen Modellen erzeugt wurden, denn es besteht die realistische Gefahr, dass sie falsche oder irreführende Informationen bzw. schädlichen Code bereitstellen. LLMs können den Wahrheitsgehalt einer Aussage nicht überprüfen, weil sie nicht, wie Menschen, über Weltwissen verfügen und daher auch keinen Abgleich mit dem relevanten Kontext vornehmen können.

Jenseits von Wissenschaft und Softwareentwicklung besteht ein ernstzunehmendes Risiko von Sprachmodellen ganz generell in der Erzeugung von Falschinformationen. Werden solche Modelle dazu benutzt, um (sachlich falsche) Inhalte zu erzeugen, die über die sozialen Medien verbreitet werden oder die Kommentarspalten von Nachrichtenseiten füllen, kann das gravierende Konsequenzen haben – sie können die Polarisierung und das Misstrauen innerhalb einer Gesellschaft verstärken oder geteilte Grundüberzeugungen untergraben. Das kann erhebliche politische Konsequenzen haben: Im Jahr 2024 werden beispielsweise in den USA und in Indien neue Regierungen gewählt, und wir können davon ausgehen, dass diese Wahlkämpfe wesentlich durch die in den sozialen Medien bereitgestellten Inhalte entschieden werden. Is it the stupid statistics?

Über die Verwendung von Lizenzen in Zeiten von großen Sprachmodellen

An sich könnte ja alles ganz einfach sein: Kulturerbeeinrichtungen und andere öffentliche Stellen bieten qualitativ hochwertige Daten in großem Umfang an, und das möglichst unter einer permissiven Lizenz wie etwa CC0 oder Public Domain Mark 1.0. Das entspricht der Ausgangsidee: Kulturerbeeinrichtungen werden aus Steuermitteln finanziert, daher sollen ihre Dienstleistungen und Produkte auch allen zugutekommen; im Fall von Daten sollen Innovation, Forschung und natürlich auch private Nutzung ermöglicht werden.

Nun leben wir in Zeiten großer Sprachmodelle und exploitativer Praktiken insbesondere US-amerikanischer Big Tech-Unternehmen. Hier werden in großem Stil Daten aus dem Internet abgesaugt und in großen proprietären Sprachmodellen verarbeitet. Diese Unternehmen sind nicht nur die Innovationstreiber, sondern heben sich z.B. von Forschungseinrichtungen dadurch ab, dass sie über speziell aufbereitete Trainingsdatensätze ebenso verfügen wie über eine exzeptionelle Rechenleistung und die bestbezahltesten Stellen für Entwickler:innen von Algorithmen; dies alles sind teure Zutaten für ein Erfolgsrezept bei kleiner Konkurrenz.

Eine der Schwächen von ChatGPT – und vermutlich auch von GPT-4 – liegt in der mangelnden Verlässlichkeit. Diese Schwäche resultiert aus dem Unvermögen von rein stochastischen  Sprachmodellen, zwischen Fakten und Fiktion zu unterscheiden; aber auch an einem Mangel an Daten. Gerade im Hinblick auf „halluzinierte“ Literaturnachweise sind bibliographische Daten aus Bibliotheken für die Erstellung großer Sprachmodelle sehr attraktiv. Ein weiteres Problem besteht im Mangel an qualitativ hochwertigen Textdaten. Einer jüngst publizierten Studie zufolge werden hochqualitative Textdaten noch vor dem Jahr 2026 erschöpft sein; das liegt vor allem daran, dass es im Internet an Etikette und Orthografie mangelt. Wer aber, wenn nicht die Bibliotheken haben riesige Bestände an qualitativ hochwertigen Textdaten? Nahezu alle hier verfügbaren Inhalte sind durch einen Qualitätsfilter gelaufen, der sich „Verlage“ nennt. Über die intellektuelle Qualität der Bücher mag man geteilter Meinung sein; aber sprachlich und orthographisch ist das, was bis Ende des 20. Jahrhunderts gedruckt wurde (also vor dem Beginn des Self-Publishings), von sehr guter Qualität.

Schließlich noch das liebe Geld: Die Inflation ist wieder da, die Niedrigzinsphase ist vorbei, die erste Silicon Valley-Bank bankrott. Daraus folgt, dass viele dort ansässige Unternehmen bald frisches Geld benötigen; also wird bald monetarisiert werden, um Profite zu erzeugen. Aus bislang noch kostenfrei angebotenen Produkten (wie ChatGPT) werden bald spezifischere neue Modelle erstellt werden, die gegen Bezahlung bedarfsorientierte Services bereitstellen.

Sollen die Kulturerbeinstitutionen als Einrichtungen öffentlichen Rechts nun der Profitmaximierung einiger weniger Unternehmen dienen, indem sie teure und ressourcenintensive (und steuerfinanzierte) Daten kostenlos bereitstellen? Die Antwort ist differenziert und daher kompliziert. Selbstverständlich sollten Daten wie bislang auch unter permissiven Lizenzen bereitgestellt werden. Hier können durchaus auch duale Strategien verwendet werden. Einerseits können die über Schnittstellen wie OAI-PMH oder IIIF bereitgestellten Daten auch weiterhin unter CC0 oder Public Domain-Lizenzen zugänglich sein; technische Zugangsbeschränkungen können über die Steuerung von IP-Adressen oder Downloadmaxima das Absaugen von Daten in großem Stil verhindern. Andererseits können eigene Datenpublikationen erfolgen, die die einzelnen Datensätze bündeln, um Forschung und Innovation zu ermöglichen; solcherart Angebote sind als Datenbankwerke 15 Jahre lang geschützt, und hier können Lizenzen verwendet werden, die ein „NC“ (non-commercial) enthalten und solche Daten für Forschung und Innovation verwendbar machen. Beispielhaft verwendet die Stiftung Preußischer Kulturbesitz eine solche Lizenz (CC-BY-NC-SA) für die digitale Repräsentation eines ihrer Prunkstücke, und auch der (nicht so einfach zu benutzende) 3D-Scan ist unter dieser Lizenz frei verfügbar (download hier).

Interessanterweise hat die Europäische Union den oben beschriebenen Fall im Data Governance Act antizipiert und ein relevantes Instrumentarium eingefügt. Hier gibt es ein Kapitel zur Nutzung von Daten öffentlicher Stellen (Kapitel II, Artikel 6), in dem die Bereitstellung von Daten gegen Gebühren geregelt wird. Darin heißt es, dass die öffentlichen Einrichtungen bei den Gebühren, die sie verlangen, unterscheiden dürfen zwischen privaten Nutzern bzw. kleinen und mittleren Unternehmen einerseits und größeren Unternehmen andererseits, die nicht mehr unter die erstere Definition fallen. Dort schafft man also eine Möglichkeit für Differenzierungen im Rahmen der gewerblichen Nutzer, wobei die Gebühren an den Kosten für die Bereitstellungsinfrastruktur orientiert sein sollen. Im Rechtssystem ist das etwas eher Atypisches, da ja das Gleichbehandlungsprinzip gilt. Kulturerbeeinrichtungen haben damit die EU-Kommissarin für Wettbewerb Margrethe Vestager an ihrer Seite, die 2020 den Data Governance Act präsentiert hat (er ist übrigens ab dem 24. September 2023 anzuwenden). Vestager ist zugleich auch Kommissarin für Digitales und hat in den ersten fünf Jahren ihrer Amtszeit mehr als 15 Milliarden Euro an Kartellstrafen verhängt. Ein politischer Durchsetzungswille scheint also vorhanden zu sein.

Dieser wird im Zweifelsfall auch notwendig sein. Lizenzen wie CC-BY-SA-NC unterbinden die Verwendung öffentlicher Daten für kommerzielle große Sprachmodelle. Da sich die Ersteller von großen Sprachmodellen in einem urheberrechtlichen Minenfeld bewegen und bei anderen Modellen eine Bildagentur oder weitere Rechteinhaber bereits Urheberrechtsklagen eingereicht haben, muss man leider anzweifeln, dass sie in der Zukunft Rücksicht darauf nehmen werden. Die entsprechenden Gerichtsentscheide bleiben in den anhängigen Fällen freilich abzuwarten. Selbst mit reverse engineering ist nämlich nicht einfach nachzuweisen, welche Datensätze in ein großes Sprachmodell eingeflossen sind; daher müsste eine Art Indizienprozess geführt werden. Mittel- und langfristig scheint es daher sinnvoller zu sein, auf die Etablierung von Prüfverfahren und Standards vor der Veröffentlichung von KI-Modellen zu setzen. Dazu gehören die Offenlegung des Trainingsmaterials und -prozesses, seine Evaluierung durch Expert:innen, Code Audits, aber auch eine Beweislastumkehr im Hinblick auf die Lizenzierung des verwendeten Datenmaterials. Solche Prozeduren zum Pflichtbestandteil für die Zulassung kommerzieller KI-Anwendungen zu machen, ist dann tatsächlich Aufgabe der Europäischen Union.

Ein weiterer Weg besteht schließlich darin, Kulturerbedaten in einem eigenen Data Space für Kulturerbe zu publizieren; die Ausschreibung für einen solchen Data Space wurde im vergangenen Herbst auf den Weg gebracht und ist Teil des EU Data Acts. Inwiefern dieser Data Space den Kulturerbeinstitutionen volle Datensouveränität und damit die Möglichkeit gewährt, den Zugriff auf die Datenpublikationen zu steuern, bleibt abzuwarten.