Schlagwortarchiv für: grosse Sprachmodelle

Large Language Models und ihre WEIRDen Konsequenzen

In seinem Buch „The Weirdest People in the World“ („Die seltsamsten Menschen der Welt“) widmet sich der Evolutionspsychologe Joseph Henrich einer besonderen Spezies, die er „WEIRD people“ nennt. Dieses Wortspiel lässt sich insofern auflösen, als WEIRD für „white, educated, industrialised, rich, democratic“ steht. Henrich fragt sich hier, wie es dazu kommen konnte, dass ein kleiner Teil der Bevölkerung, der zumeist in der westlichen Welt lebt, eine Reihe recht spezifischer Fähigkeiten herausbilden konnte. Er beginnt damit, dass in den letzten 500 Jahren das Gehirn dieser Menschen durch extensives Lesen sowie durch den Einfluss Luthers bzw. dessen Imperativ, die Bibel selbständig zu lesen, verändert wurde.  Um diese Veränderungen zu charakterisieren und insbesondere herauszuarbeiten, wie sich in Mitteleuropa eine Beschleunigungsdynamik und das Antreiben von Innovation als Motor ökonomischen Wachstums entwickelten, beschäftigt er sich mit Ausbildungsinstitutionen, Urbanisierung, der Herausbildung unpersönlicher Märkte, überregionalen Klosterordnungen, Universitäten, Wissensgesellschaften, Gelehrtenbriefwechseln und der Herausbildung neuer (protestantischer) religiöser Gruppierungen. Wollte man Henrichs Studie weiterführen und ins 21. Jahrhundert verlängern, müsste man sich mit dem Einfluss und den Veränderungen beschäftigen, die Large Language Models (LLMs) auf das menschliche Gehirn haben. Obwohl diese erst seit 2016 existieren und erst seit Herbst 2022 (ChatGPT) für eine breite Nutzerschaft zur Verfügung stehen, lassen sich doch bereits jetzt einige – zugegebenermaßen spekulative – Konsequenzen aus ihrer Nutzung antizipieren.

  1. Wir werden den Umgang mit Falschinformationen lernen (müssen). LLMs sind große Fabulierer, sie können aber nicht zwischen wahr und falsch unterscheiden. Als absolut effiziente Textgeneratoren können sie im Handumdrehen große Mengen von sachlich falschen Inhalten erzeugen, die das Internet, die sozialen Medien und die Kommentarspalten von Nachrichtenseiten füttern. Das kann zu erheblichen Deformationen z.B. des politischen Diskurses führen, etwa wenn Wahlen anstehen – und das ist in 2024 in den USA, Indien, voraussichtlich dem Vereinigten Königreich sowie zahlreichen weiteren Ländern der Welt der Fall. Es kann daher nicht überraschen, dass selbst das Weltwirtschaftsforum in seinem diesjährigen „Global Risks Report“ Falschinformationen und zum Zweck der Täuschung eingesetzte Desinformation zu den größten Risiken mit kurzfristiger Wirkung zählt. Da LLMs Texte produzieren, zu deren Erstellung das wahrscheinlichste nächste Wort vorhergesagt wird, erzeugen sie Beiträge, die plausibel klingen können, oft aber inhaltlich und sachlich mindestens nicht ganz richtig sind. Eine WEIRDe Konsequenz wird also darin bestehen, dass das menschliche Gehirn im Hinblick auf Unterscheidungsfähigkeit wird hinzulernen müssen, um diese synthetischen Inhalte präzise identifizieren (und verwerfen) zu können.
  2. Wir werden unseren Begriff von Authentizität nachschärfen (müssen). Im April 2023 lehnte der Berliner Fotograf Boris Eldagsen den namhaften Sony World Photography Award mit der Begründung ab, dass das authentisch wirkende Bild zweier Frauen KI-generiert sei. Die für den Preis verantwortliche Jury war nicht in der Lage, das Bild mit dem Titel „Pseudomnesia: The Electrician“ von einem Foto zu unterscheiden, das mit einer herkömmlichen Kamera gemacht worden war. Unsere Sehgewohnheiten und Wahrnehmungsroutinen sind aber darauf ausgerichtet, Fotografien als getreue Abbildung der Realität anzusehen. Hier werden wir zweifellos hinzulernen und unseren Begriff von Authentizität anpassen müssen, denn auch im Bereich des Bewegtbildes sind multimodale LLMs äußerst leistungsfähig geworden. Im Januar 2024 zeigte eine Studie auf, dass in den vergangenen Wochen über 100 Deepfake-Videos von Rishi Sunak als Werbeanzeigen auf Facebook verbreitet worden waren. Beide Beispiele zeigen die Manipulierbarkeit unserer Wahrnehmung auf, führen zu Irritation, Verstörung und Skepsis und verweisen darauf, dass wir den Umgang mit AI-generierten visuellen Inhalten neu lernen müssen.
  3. Wir werden mit der Faszination von Bildwelten zurechtkommen (müssen). Generative pretrained transformers (GPTs) werden in Kürze nicht nur in der Lage sein, Texte zu generieren, sondern auch vollständige dreidimensionale Bildwelten erzeugen können. Genau darauf zielt ja Mark Zuckerbergs Vision vom Metaverse ab: Virtuelle Welten zu erschaffen, die von einer so überwältigenden Faszination sind, dass die Nutzer:innen sich nicht mehr von ihnen lösen können; mit anderen Worten: Bildwelten, die hoch süchtig machend sind. Die Anziehungskraft virtueller Realitäten, wie sie bislang in der Gaming-Industrie bekannt sind, wird damit potenziert. Um von diesen Welten nicht vollständig abhängig zu werden und den Kontakt zur Realität nicht zu verlieren, werden wir daher unsere kognitiven Fähigkeiten anpassen müssen – ganz sicher eine WEIRDe Kompetenz im Sinne Henrichs.

Diese drei Beispiele zeigen nur die wahrscheinlichsten Konsequenzen auf, die die breite Nutzung von LLMs für unsere Gehirne haben werden. Viele andere sind denkbar, beispielsweise die Verkümmerung der Fähigkeit, komplexe Texte zu konzeptualisieren (ebenfalls ein WEIRDe Fähigkeit). Im Hinblick auf die Plastizität unserer Gehirne steht damit die Ankunft der LLMs und ihres Outputs in einer Reihe mit historischen Umbrüchen wie der Erfindung des Buchdrucks und der Einführung von elektronischen Massenmedien sowie deren Folgen für die kognitive Organisation und das soziale Zusammenleben. Es ist nicht untertrieben zu sagen, dass der Begriff der Repräsentation neu definiert werden muss. Bislang hat die Menschheit diese Epochenumbrüche recht gut verkraftet. Wir werden sehen, wie sich die WEIRDen Konsequenzen in der Praxis auswirken werden.

Hungrige Magie

„Any sufficiently advanced technology is indistinguishable from magic“, wußte schon Arthur C. Clarke, und es gehört zum Zauber neuer Technologien, dass ihre Kehrseiten systematisch beschwiegen werden. So ist es auch mit dem Energieverbrauch von großen Sprachmodellen (LLMs): Wie beim Schnitzel, das auf dem Teller der Verbraucher:innen landet und den Zusammenhang zu den Realitäten der Massentierhaltung vergessen macht, ist es auch bei den Wunderwerken künstlicher Intelligenz. Angaben über die zur Erstellung solcher Produkte wie ChatGPT erforderliche Rechenleistung und die verwendeten big data werden nicht gemacht, sei es, um Datenschutz- und urheberrechtliche Probleme nicht allzu offenbar werden zu lassen, sei es, um den Energiehunger und den CO2-Ausstoß beim Training dieser Modelle und ihrem Betrieb nicht quantifizieren zu müssen. Eine seriöse Zeitung wie die Zeit schätzte im März 2023: „Für den Betrieb von ChatGPT fallen […] derzeit Kosten in Höhe von 100.000 bis 700.000 Dollar am Tag an“ und gab „1.287 Gigawattstunden Strom“ oder „Emissionen von geschätzt 502 Tonnen CO2“ für das Training von GPT-3 an (Art. “Hidden Energie”, in: Die Zeit Nr. 14 vom 30.03.2023, S.52). Vor diesem Hintergrund kann nicht verwundern, dass sich nach Angaben der International Energy Authority der Stromverbrauch der big tech-Unternehmen Amazon, Microsoft, Google und Meta zwischen 2017 und 2021 auf 72 TWh verdoppelt hat; diese vier Unternehmen sind zugleich die weltweit größten Anbieter kommerziell verfügbarer Cloud-Rechenkapazität.

Vor kurzem wurde nun von Sasha Luccioni, Yacine Jernite und Emma Strubell die erste systematische Studie zum Energieverbrauch und CO2-Ausstoß verschiedener machine learning-Modelle während der Inferenz-Phase vorgelegt. Inferenz meint hier den Betrieb der Modelle, d.h. den Zeitraum des Einsatzes nach dem Training und Finetuning der Modelle. Inferenz macht etwa 80 bis 90 Prozent der Kosten maschinellen Lernens aus, auf einer Cloud-Computing-Plattform wie Amazon Web Services (AWS) nach Angaben des Betreibers etwa 90 Prozent. Die Studie von Luccioni et al. unterstreicht dabei die Unterschiede zwischen den verschiedenen machine learning-Anwendungen: Die Strom- und CO2-Intensität ist bei textbasierten Anwendungen massiv geringer als bei bildbasierten Aufgaben; ebenso ist sie bei diskriminativen Aufgabenstellung massiv geringer als bei generativen, dazu gehören die generative pretrained transformers, GPTs. Die Unterschiede zwischen den verschiedenen Modellen sind dabei beträchtlich: „Das Aufladen eines durchschnittlichen Smartphones erfordert 0,012 kWh Energie, was bedeutet, dass das effizienteste Modell zur Texterzeugung für 1.000 Inferenzen so viel Energie verbraucht wie 16 % einer vollen Smartphone-Ladung, während das am wenigsten effiziente Modell zur Bilderzeugung so viel Energie verbraucht wie 950 Smartphone-Ladungen (11,49 kWh) oder fast eine Ladung pro Bilderzeugung.“ Je größer das Modell ist, desto schneller wird während der Inferenz-Phase genauso viel Strom verbraucht bzw. CO2 ausgestoßen wie während der Trainingsphase.

Da ‚Allzweckanwendungen‘ für dieselbe Aufgabenstellung mehr Energie verbrauchen als Modelle, die für einen spezifischen Zweck trainiert wurden, weisen Luccioni et al. auf mehrere Zielkonflikte hin: Zum einen auf den Zielkonflikt zwischen Modellgröße vs. Stromverbrauch, denn der Nutzen von multi purpose-Modellen muss gegen ihre Stromkosten und die CO2-Emissionen abgewogen werden. Zum anderen auf den Zielkonflikt zwischen Fehlerrate/Effizienz und Stromverbrauch über die verschiedenen Modelle hinweg, denn je geringer die Fehlerrate bzw. je höher die Effizienz eines Modells, desto geringer ist auch der Stromverbrauch spezifischer Modelle, während hingegen multi purpose-Modelle zwar viele verschiedene Aufgabenstellungen erfüllen können, hierbei jedoch eine höhere Fehlerrate und einen höheren Stromverbrauch aufweisen. Diese empirisch belegten Befunde stellen nach Ansicht der Autorinnen beispielsweise in Frage, ob es angesichts des Energiebedarfs solcher multi purpose-Modelle wie Bard und Bing wirklich notwendig ist, diese zu betreiben, wenn sie in Kontexten wie Websuche und Navigation eingesetzt werden, d.h. in Situationen, in denen die Aufgabenstellungen klar definiert sind.

Der Energiehunger großer Allzweck-Modelle zeigt den führenden Unternehmer:innen und Investor:innen der westlichen big tech-Konzerne nicht etwa die „Grenzen des Wachstums“ auf, wie sie der Club of Rome vor über 50 Jahren benannte. Im Gegenteil, CEOs wie Jeff Bezos, zu dessen Imperium auch die größte Cloud-Computing-Plattform AWS gehört, fürchten eher die Stagnation: „We will have to stop growing, which I think is a very bad future.“ Visionen wie das Metaverse sind im Hinblick auf den Ressourcenverbrauch und die Emissionen äußerst kostspielig, und man darf mit Recht fragen, ob KI-Anwendungen in der Zukunft wirklich der gesamten Menschheit oder nur denjenigen Firmen oder Einzelpersonen, die es sich leisten können, zur Verfügung stehen werden. Nichts von alledem ist auch nur annähernd nachhaltig. Angesichts des wachsenden Stromverbrauchs der westlichen big tech-Unternehmen und der Tatsache, dass bereits jetzt die Kerninfrastruktur für die Entwicklung von KI-Produkten durch einige wenige Akteure zentralisiert ist, bleibt derzeit unklar, wohin die Entwicklung ‚magischer‘ KI-Anwendungen führen wird. Die Wissenschaftlerin Kate Crawford hat dazu in ihrem Buch „Atlas of AI“ eine eigene Antwort gegeben: Ins All, denn dort gibt es die Ressourcen, die diese Konzerne benötigen.

Den Kuckuck füttern

Large Language Models (LLMs) kombinieren Wörter, die im Trainingsdatensatz häufig in ähnlichen Zusammenhängen auftauchen; auf dieser Grundlage sagen sie das wahrscheinlichste Wort bzw. den wahrscheinlichsten Satz vorher. Je größer der Trainingsdatensatz ist, desto mehr Kombinationsmöglichkeiten gibt es, und desto ‚kreativer‘ wirkt das Modell. Die schiere Größe von Modellen wie GPT-4 stellt aber bereits einen schwer einholbaren Wettbewerbsvorteil dar: Es gibt nur eine Handvoll von Unternehmen weltweit, die exorbitante Rechenleistung, Verfügung über big data und enorme Marktreichweite miteinander kombinieren können, um ein derartiges Produkt herstellen zu können. Am aktuellen Konkurrenzkampf sind keine Forschungseinrichtungen beteiligt, wohl aber die big tech-Unternehmen Microsoft, Meta und Google. Wenige Akteure und wenige Modelle bedeuten allerdings auch einen „Wettlauf nach unten, was Sicherheit und Ethik betrifft“, denn die Verwendung von big data hat im Hinblick auf LLMs auch zumeist zur Folge, dass die Trainingsdaten sensible und vertrauliche Informationen sowie urheberrechtlich geschütztes Material enthalten. In zahlreichen Gerichtsverfahren wird den Tech-Giganten vorgeworfen, die Daten von Millionen von Nutzer:innen ohne deren Zustimmung im Netz eingesammelt und gegen das Urheberrecht zu verstoßen, um KI-Modelle zu trainieren.

Die Nutzer:innen des Internets haben also bereits dazu beigetragen, das Kuckuckskind zu füttern. Google machte diese Tatsache auf indirekte Weise dadurch bekannt, dass es im Juni 2023 seine Datenschutzerklärung aktualisierte: „wir nutzen Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen weiterzuentwickeln, die diese grundlegenden Technologien nutzen – wie Google Übersetzer, Bard und Cloud AI.“ Weniger bekannt ist jedoch die Tatsache, dass die großen Tech-Unternehmen ihre Modelle wie Bard auch damit trainieren, was ihnen die Nutzer:innen anvertrauen. Mit anderen Worten: Alles, was man einem Chatbot erzählt, kann wiederum als Trainingsmaterial verwendet werden. In Googles eigenen Worten klingt das dann so: „Wir nutzen Ihre Interaktionen mit KI-Modellen und Technologien wie Bard, um diese Modelle zu entwickeln, zu trainieren, zu optimieren und zu verbessern, damit sie besser auf Ihre Anfragen reagieren.“ Eine Konsequenz aus der Bauart von LLMs aber ist, dass sich der Output generativer Modelle nicht kontrollieren lässt; es gibt dazu bei den großen Modellen schlicht zu viele Möglichkeiten. Wenn das LLM auf privaten oder vertraulichen Daten trainiert wurde und wird, kann das dazu führen, dass diese Daten offengelegt werden und vertrauliche Informationen preisgegeben werden. Daher sollten bereits die Trainingsdaten den Datenschutzbestimmungen entsprechen, und daher wird immer wieder Transparenz im Hinblick auf Trainingsdaten gefordert.

Konsequenterweise warnt Google in seinen Datenschutzbestimmungen zu Bard die Nutzer:innen des Modells davor, dieses mit sensitiven Daten zu füttern: „Geben Sie in Ihren Unterhaltungen mit Bard keine vertraulichen Informationen und keine Daten an, die Prüfer nicht sehen sollen“. Das ist insofern interessant, als der KI-Hype mit solchen Begriffen wie „disruption“ befeuert wird, zugleich aber unklar bleibt, wie das Geschäftsmodell aussehen soll, mit dem die big tech-Unternehmen mittelfristig Gewinne generieren wollen – und wie denn für durchschnittliche Nutzer:innen genau der Anwendungsfall aussehen soll. Ein Anwendungsfall allerdings besteht in der Generierung von alltäglich benötigten Texten, nämlich von wohlformulierten Bewerbungsschreiben. Lädt man dazu allerdings den eigenen Lebenslauf hoch, füttert man nur wieder den Kuckuck. Und das ist nicht in unser aller Sinne: Datenschutz ist schließlich (auch) ein Gemeingut.

Mensch-Maschine-Wahrnehmung

Der Mensch sucht sich selbst in nicht-menschlichen Lebewesen und in unbelebten Artefakten. Affen, die „nächsten Verwandten“, oder Hunde, die „treuesten Begleiter“ sind für ersteres, Roboter sind für letzteres gute Beispiele: Eine menschenähnliche Gestaltung der Roboter-Körper und eine vermenschlichende sprachliche Rahmung ihrer Fähigkeiten unterstützt, so die Hypothese, die Anthropomorphisierung dieser Maschinen und in der Folge auch die Herausbildung von empathischem Verhalten gegenüber Robotern. Die Neigung zur Anthropomorphisierung variiert dabei von Mensch zu Mensch; es gibt „stable individual differences in the tendency to attribute human-like attributes to nonhuman agents“.

Large Language Models (LLMs) werden (bislang) nicht mit menschenähnlichen Körperformen assoziiert. Das heißt aber nicht, dass sie der menschlichen Neigung zur Anthropomorphisierung nicht unterliegen. Schon ein wohl formulierter Satz kann uns zu der fälschlichen Annahme verleiten, dass er von einem rationalen Agenten gesprochen wurde. LLMs sind mittlerweile in der Lage, menschliche Sprache hervorragend nachzubilden. Sie wurden auf sprachliche Regeln und Muster trainiert und beherrschen diese ausgezeichnet. Die Kenntnis statistischer Regelmäßigkeiten der Sprache ermöglicht aber kein „Verstehen“. Auch die Fähigkeit, Sprache adäquat im sozialen Kontext anzuwenden, ist bei LLMs noch lückenhaft ausgebildet. Dafür fehlt ihnen das notwendige Weltwissen, der sensorische Zugang zur Welt und jenes Wissen, das wir als „gesunden Menschenverstand“ beschreiben. Dass wir dennoch dazu neigen, den von generativen vortrainierten Sprachmodellen (generative pretrained transformers, GPTs) produzierten Text als menschliche Äußerungen zu verstehen, liegt zum einen daran, dass diese Sprachmodelle auf sehr großen Textmengen des 21. Jahrhunderts trainiert wurden und daher unseren zeitgenössischen Diskurs perfekt nachbilden können. Entspricht die Art und Weise, wie über Sprache Bedeutung hergestellt wird, unseren alltäglichen Gewohnheiten, dann kann es nicht überraschen, dass wir dem Produzenten eines gut gemachten Textes „Intelligenz“, „Intentionalität“ oder sogar „Identität“ zuschreiben. Insofern bestätigen LLMs die strukturalistischen Theorien der zweiten Hälfte des 20. Jahrhunderts, dass Sprache ein System ist, das den Rahmen dessen, was artikuliert und damit letzten Endes auch gedacht werden kann, festlegt und begrenzt. Und insofern scheinen LLMs auch Roland Barthes‘ These vom „Tod des Autors“ zu bekräftigen. Die unendliche Rekombination des vorhandenen Wortmaterials und die Ergänzung der wahrscheinlichsten Wörter und Sätze scheinen zu genügen, dass wir uns im Textoutput wiedererkennen.

Zum anderen unterstützt die spezifische Bauart von Chatbots die Anthropomorphisierung. ChatGPT etwa wurde auf zehntausenden von Frage-Antwort-Paaren trainiert. Das sogenannte „Instruction Fine-tuning“ sorgt dafür, dass das Modell Textsequenzen in einem bestimmten Format generiert. Das LLM interpretiert den Prompt als Instruktion, unterscheidet die Eingabe der Gesprächspartner:in oder Fragesteller:in von dem Text des Sprachmodells und zieht Rückschlüsse auf die menschlichen Teilnehmer:innen. Das hat zum einen zur Folge, dass das Sprachmodell in der Lage ist, den generierten Text an das menschliche Gegenüber anzupassen und Soziolekte zu imitieren, zum anderen entsteht beim Menschen die kognitive Illusion eines Dialogs. Das Interface solcher Apps wie ChatGPT unterstützt diese Illusion noch; es ist wie all die anderen Interfaces gestaltet, die für menschliche Konversationen benutzt werden. Wir Menschen folgen dann unseren Gewohnheiten und ergänzen im Dialog mit dem Chatbot jenen sozialen Kontext, der für eine Unterhaltung charakteristisch ist, und unterstellen der anderen Seite Intentionalität. ChatGPT schließlich wurde als fiktionale Figur trainiert, die Antworten in der Ich-Form gibt. Daher produziert das Sprachmodell Aussagen über sich selbst, etwa über sein ethisch-moralisches Verhalten, über seine Leistungsfähigkeit, Datenschutz und die verwendeten Trainingsdaten. Fragt ein/e NutzerIn nach unangemessenem Output, lehnt das Sprachmodell höflich ab. Diese Aussagen können daher am ehesten als Echo des vorgenommenen Trainings verstanden werden, als das, was OpenAI uns über diese Technologie weismachen möchte. Die Dialogform und die in der Ich-Form berichtende fiktionale Figur stellen die einzigen Möglichkeiten dar, wie OpenAI den Output des Sprachmodells kontrollieren kann.

Das alles lässt sich zusammengefasst „anthropomorphism by design“ nennen. Kein Wunder also, dass wir Menschen dazu neigen, auch einem körperlosen Sprachmodell menschliche Eigenschaften zuzuschreiben. Während wir den Umgang mit derartigen Chatbots erlernen, dürfen wir aber nicht der Illusion erliegen, es mit einem menschlichen Gegenüber zu tun zu haben. Empathische Aussagen oder ausformulierte Emotionen des Bots sind Simulationen, die äußerst problematisch werden können, wenn wir beispielsweise den Bot mit einer Therapeut:in verwechseln. Auch die Annahme, ein Sprachmodell könnte geeignet sein, Entscheidungen zu treffen und daher die Rolle von Rechtsanwält:innen, Ärzt:innen oder Lehrer:innen übernehmen, ist irreführend: Die Verantwortung für solche Entscheidungen übernehmen letzten Endes immer noch Menschen. Daher dürfen wir uns vom anthropomorphisierenden Design nicht täuschen lassen. Die Wahrnehmung, der Mensch habe etwas anderes als eine Maschine gegenüber, ist trügerisch: Da ist niemand.

Über die Tyrannei der Mehrheit

Large Language Models (LLMs) leisten, wenn sie Texte generieren, eine Vorhersage des statistisch wahrscheinlichsten Wortes. Aus der Tatsache, dass das vorhergesagte Wort oder der vorhergesagte Satz das wahrscheinlichste ist, lässt sich zum einen noch nicht schließen, ob er wahr oder falsch ist. Zum anderen führt die Vorhersage von Wahrscheinlichkeiten zu einer Bevorzugung der Mehrheitsmeinung. Wenn im Trainingsdatensatz die eine Wortkombination deutlich häufiger auftaucht als die andere, wird sie vom LLM bevorzugt; und auch, wenn die Annotator:innen ein bestimmtes Label häufiger vergeben als ein anderes, wird das häufiger vergebene Label bevorzugt und das der Minderheitenmeinung unterdrückt. Diese „Tyrannei der Mehrheit“ hat für mindestens zwei wichtige gesellschaftliche Felder Konsequenzen: Für die Wissenschaft und die Kultur.

Wenn wir uns vor Augen führen, wie Thomas Kuhn die „Struktur wissenschaftlicher Revolutionen“ und Pierre Bourdieu die Erneuerung kultureller Felder konzeptualisieren, wird deutlich, dass jedes neue wissenschaftliche Paradigma und jede künstlerische Avantgardebewegung mindestens zu Anfang eine Minderheitenmeinung darstellt. Es gibt eine dominante Mehrheitsmeinung, die Kuhn als paradigmatische „normal science“ und Bourdieu als „orthodoxe“ Kunstauffassung bezeichnet. Diese gesellschaftlichen Gruppen bilden in ihrem jeweiligen Feld den herrschenden Pol und werden in einem Wettbewerb von einer „revolutionären“ (Kuhn) oder „häretischen“ (Bourdieu) Position herausgefordert. Auf diese Entgegensetzung reagieren die Vertreter:innen der herrschenden Meinung häufig negativ: „Normal science, for example, often suppresses fundamental novelties because they are necessarily subversive of its basic commitments.“ (Kuhn, Structure, S.5). Was folgt, ist, soziologisch gesprochen, ein Kampf um Anerkennung, ein Ringen um die Zurückweisung eines älteren wissenschaftlichen oder künstlerischen Paradigmas und die Einführung eines neuen.

Das Kräftemessen zwischen den unterschiedlichen Gruppen von Wissenschaftler:innen oder Künstler:innen kann zu verschiedenen Ergebnissen führen. Das neue Paradigma löst beispielsweise das alte vollständig ab und nimmt selbst eine dominante Position im Feld ein. Das etwa geschah bei der Erforschung der Syphilis, als Anfang des 20. Jahrhunderts erstmals Krankheitserreger nachgewiesen werden konnten. Andere Möglichkeit: Zwei unterschiedliche wissenschaftliche Paradigmen (oder Kunstrichtungen) können nebeneinander koexistieren, so wie die Newton’sche und die Einstein’sche Mechanik; entscheidend ist hier, dass beide einen unterschiedlichen Bezugsrahmen haben, der sich wechselseitig ausschließt (so wie Wissenschaftler:innen häufig ja auch erst eine neue ‘Schule des Sehens’ herausbilden und neue Daten erheben müssen). Eine weitere Möglichkeit besteht darin, dass zwei unterschiedliche Paradigmen nebeneinander existieren, ohne dass sich die Mehrheitsverhältnisse ändern. Das ist etwa bei den unterschiedlichen Interpretationen der Quantenmechanik der Fall: Die stochastische oder Kopenhagener Interpretation der Quantenmechanik bildet die Mehrheitsmeinung, während die deterministische oder Bohmsche Theorie eine Minderheitenmeinung darstellt. Im Feld der Kunst kann man hier etwa an die Überwindung der Tonalität und die Entwicklung der Zwölftontechnik durch Avantgardisten wie Arnold Schönberg und Alban Berg denken. Obwohl diese Technik später aufgegriffen wurde, entwickelte sie sich nicht zum dominanten Verfahren und wurde nie so recht massentauglich (während die Tonalität bis heute für die Mehrheit der Konsument:innen entscheidend ist). Die Langlebigkeit überkommener wissenschaftlicher Paradigmen bzw. ihrer Vertreter  kommentierte Max Planck einmal ironisch mit den Worten: „Die Wissenschaft schreitet mit einer Beerdigung nach der anderen voran.

Die Art und Weise, wie Kuhn und Bourdieu die Erneuerungsprozesse in den Feldern Wissenschaft und Kultur konzeptualisieren, rücken vor allem die gesellschaftlichen Vorgänge in den Fokus, die mit wissenschaftlichen oder künstlerischen Revolutionen verbunden sind. Mit Blick auf LLMs und den mit einer künstlichen allgemeinen Intelligenz (AGI) verbundenen Hoffnungen ist das instruktiv: Derartige ‚Intelligenz‘ tendiert aufgrund ihrer Bauart zur Wiederholung der Mehrheitsmeinung und damit zur Repetition des dominanten Paradigmas (Feld der Wissenschaft) bzw. zum Gemeinplatz, zum Klischee, zur Banalität und zum Unauthentischen (Feld der Kunst). Das heißt nicht, dass die intelligenten Maschinen nicht dazu genutzt werden können, neue Paradigmen zu schaffen. ‚Von selbst‘ werden sie es aber nicht tun. Vielmehr wird deutlich, dass wir die scheinbar übermächtigen KIs im größeren Zusammenhang eines soziotechnischen Systems sehen müssen, in dem der Mensch als Agent nach wie vor eine zentrale Rolle spielt – auch dann, wenn er in der Minderheit ist.

Mensch-Maschine-Kreativität

An Sprachmodelle, die Texte auf der Grundlage von Wahrscheinlichkeiten generieren, nähern wir uns am besten mit einer gesunden Skepsis im Hinblick auf die Faktentreue und mit etwas Humor an. Jack Krawczyk, der bei Google für die Entwicklung des Chatbots „Bard“ verantwortlich ist, bekannte im März 2023 ganz offen: „Bard and ChatGPT are large language models, not knowledge models. They are great at generating human-sounding text, they are not good at ensuring their text is fact-based.“ Ein Sprachmodell mit einem ironischen Augenzwinkern „Bard“ zu nennen, trifft den Nagel auf den Kopf: Barden dichten, erzählen Geschichten und halten sich nicht unbedingt an die Wahrheit, wie wir seit Platon wissen.

Texte zu erstellen, insbesondere literarische Texte, war bislang Menschen vorbehalten. Large Language Models (LLMs) aber sind überraschend gut darin, literarische Stile und Genres zu identifizieren und zu replizieren. Wie dürfen wir uns also von nun an literarische Textproduktion vorstellen? Begriffe wie „Bewusstsein“, „Gedächtnis“, „Intentionalität“ und „Kreativität“ sind erstaunlich schlecht definiert, und zwar für Menschen ebenso wie für Maschinen. Im Hinblick auf letztere hat sich die britische Kognitionswissenschaftlerin Margaret A. Boden in ihrem Buch „The Creative Mind“ bereits mit den Unterschieden zwischen menschlicher und maschineller Kreativität beschäftigt – wobei sie unterstreicht, dass Maschinen eben nur zu einem bestimmten Grad kreativ zu sein scheinen. Sie unterscheidet drei Formen von Kreativität: a) Ungewohnte Kombinationen vertrauter Ideen herstellen; b) Explorative Kreativität; und c) Transformative Kreativität.

Aus bekannten Ideen unbekannte Kombinationen herzustellen ist sicherlich das, was LLMs beherrschen, denn das entspricht ihrer Bauart: Aus dem vorhandenen Datenmaterial die wahrscheinlichste Rekombination herstellen und dabei den in den Daten vorhandenen Mustern folgen. Es dürfte daher keine große Herausforderung für ein LLM mehr darstellen, eine kurze Geschichte in 99 verschiedenen Stilen zu produzieren und damit Raymond Queneau’s berühmte „Exercises de Style“ zu replizieren. Literarische Variationen wie Permutationen, Reimformen, Jargons, Erzählperspektiven, Soziolekte usf. dürften durch einen einzigen Prompt herstellbar sein. Die Formulierung “ein einziger Prompt” zeigt dabei die Unschärfe des Begriffs “Intention” auf: Es muss schon ein Mensch den Prompt eingeben und “intentional” handeln, alles weitere übernimmt die Maschine.

Die nach Boden zweite Form von Kreativität erforscht konzeptuelle Räume, die wir uns im Bereich der Literatur als etablierte Genres vorstellen können. Genres folgen Regeln, die den Raum umreißen, in dem die literarische Handlung vonstatten geht; der Soziologe Pierre Bourdieu hat sie als „Regeln der Kunst“ beschrieben. Nicht alles ist in jedem Genre möglich: Während im Krimi Tote nicht wieder auferstehen oder sich als lebende Leichen fortbewegen, ist dies in der Phantastik oder der Horrorliteratur durchaus möglich. LLMs sind in der Lage, solche Möglichkeitsräume zu identifizieren und die sie charakterisierenden Muster zu wiederholen. Gerade wenn es in den zugrundeliegenden Daten viele Beispiele für literarische Genres wie historische Romane, Fantasy und Liebesromane nebst charakteristischen Stilen und Topoi gibt, können LLMs Rekombinationen zuverlässig herstellen und so den konzeptuellen Raum explorieren. Da diese Räume sehr viele Möglichkeiten bieten, von denen nicht alle für menschliche Leser gleich attraktiv sind, können wir uns diese kombinatorischen Explorationen als Mensch-Maschine-Kollaborationen vorstellen: Ein Mensch überlegt sich ein Konzept für einen Roman und lässt die hier umrissene Handlung von der Maschine kapitelweise ausformulieren. Derartige Kollaborationen lassen sich dabei eher aus ökonomischer denn aus ästhetischer Perspektive kritisieren: Um den aktuellen Möglichkeitsraum zu kennen, müssen LLMs auch Zugriff auf Material haben, das unter Copyright steht. Handelt es sich um Systeme wie ChatGPT, deren Datengrundlage nicht offengelegt wird, kommt das einer Privatisierung von Kultur gleich, die einst öffentlich war. Und, um ein altes Argument anzuführen: Hier wird menschliche Arbeit durch eine Maschinerie ersetzt, die es den entsprechenden Firmen ermöglicht, den erzeugten Mehrwert abzuschöpfen.

Die dritte Form der Kreativität, die Margaret Boden beschreibt, zielt auf eine Transformation des konzeptuellen Raums ab. Hier werden die Regeln, die diesen Raum beschreiben, gesprengt und neue etabliert. Wir können beispielsweise an Marcel Duchamps „Fountain“ betiteltes Pissoir, an Picassos erstes kubistisches Gemälde „Les Demoiselles d’Avignon“ oder an Italo Calvinos „Le città invisibili“ denken. Um den konzeptuellen Raum umzugestalten, muss man ihn allerdings erst einmal kennen und die in ihm geltenden Regeln benennen können, um in einer Kollaboration mit einer Maschine ein solches transformatives Werk realisieren zu können. Ein LLM kann das nicht leisten, da solche Modelle ihre eigene Aktivität nicht reflektieren, nicht über Weltwissen verfügen und ihre Heuristik darauf ausgerichtet ist, Muster zu identifizieren, aber nicht darauf, neue zu erschaffen. Hier trennen sich menschliche und maschinelle Kreativität: Menschliche Kreativität verfügt über Weltwissen und eine (eventuell intuitive) Kenntnis der Regeln eines konzeptuellen Raums; in einer Bewegung der Verabschiedung von den bekannten Konzepten werden neue Lösungen gefunden, radikale Ideen entwickelt und neue Regeln etabliert. Transformative Kreativität ermöglicht es zwar Menschen, neue Werke in Kollaboration mit einer Maschine zu erstellen; die Intention aber, den bekannten Möglichkeitsraum zu verlassen, scheint dem Menschen (noch) vorbehalten zu sein.

It’s the statistics, stupid

„It’s the statistics, stupid“, könnte man formulieren, wenn es um den Umgang mit generativen vortrainierten Sprachmodellen (generative pretrained transformer, GPT) geht. Den müssen wir jedoch alle noch lernen, ein Jahr nach der Präsentation von ChatGPT. Statistische Zusammenhänge bilden den Schlüssel, um zu begreifen, wie stochastische Vorhersagemodelle funktionieren und was sie zu leisten imstande sind.

Einfach erklärt besteht maschinelles Lernen darin, dass einer Maschine Daten gezeigt werden, auf deren Grundlage sie lernt bzw. sich merkt, was mit was zusammenhängt. Diese Daten nennt man den Trainingsdatensatz. Hat die Maschine die Zusammenhänge gelernt, dann zeigt man ihr einen Testdatensatz, d.h. Daten, die sie noch nicht gesehen hat. Am Ergebnis lässt sich bemessen, wie gut eine Maschine die Zusammenhänge gelernt hat. Grundsätzlich gilt dabei: Aus möglichst vielen und repräsentativen Ausgangsdaten (d.h. Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere, ungesehene Daten anwenden zu können. Die Qualität eines solchen Modells hängt also immer davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Large Language Models (LLMs) werden darauf trainiert, Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben und die Illusion eines Dialogs zu erzeugen. Die Maschine bekommt dabei sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, etwa: „It’s the [mask], stupid“. Auf die Frage: „What is this election about?“ macht das Modell dann eine Vorhersage, welches Wort – basierend auf den Trainingsdaten – an der Stelle von [mask] am wahrscheinlichsten stehen würde, hier also „economy“. Im Prinzip könnte hier genauso gut „deficit“, „money“ oder eben „statistics“ stehen, aber „economy“ kommt mit Abstand am häufigsten in den Trainingsdaten vor und ist daher das wahrscheinlichste Wort. Das Sprachmodell kombiniert dabei Wörter, die im Trainingsdatensatz oft in ähnlichen Zusammenhängen auftauchen. Dasselbe trifft für ganze Sätze oder auch längere Texte zu.

Dass LLMs Wahrscheinlichkeiten vorhersagen, hat indes gravierende Konsequenzen. Beispielsweise sagt die Tatsache, dass der von einem Modell vorhergesagte Satz wahrscheinlich ist, nichts darüber aus, ob dieser Satz wahr oder falsch ist. Die erzeugten Texte können also auch falsche Aussagen wie etwa veraltete oder falsche Informationen oder Fiktionen beinhalten. Sprachmodelle wie ChatGPT lernen keine Muster, anhand derer der Wahrheitsgehalt einer Aussage bewertet werden kann. Daher gehört es zur Aufgabe der Menschen, die den Chatbot benutzen, die Glaubwürdigkeit bzw. den Wahrheitsgehalt der Aussage zu überprüfen und zu kontextualisieren. Diesen Umgang sollten wir alle noch lernen, ebenso wie wir es „damals“ gelernt haben, die Verlässlichkeit einer Quelle zu überprüfen, die als Ergebnis einer Google-Suche präsentiert wird. Für einige Lebensbereiche ist die Unterscheidung wahr/falsch zentral, beispielsweise für die Wissenschaft. Ein generatives Modell, das in der Lage ist, wissenschaftliche Texte zu produzieren, aber nicht zwischen wahr und falsch unterscheiden kann, muss daher zwangsläufig scheitern – so wie es bei dem von Meta präsentierten Modell „Galactica“ der Fall war, das immerhin auf Grundlage von 48 Millionen wissenschaftlichen Artikeln trainiert worden war. Folgerichtig wird so ein Modell auch Fragen nach guter wissenschaftlicher Praxis aufwerfen. Da Wissenschaft ganz wesentlich ein System von Referenzen ist, stellt das Faktum, dass generative Modelle wie ChatGPT Literaturnachweise im Zweifelsfall ‚erdichtet‘ (d.h. eine wahrscheinliche Folge von Wörtern erzeugt), ein echtes Problem dar. Es kann daher nicht überraschen, dass das Wort „halluzinieren“ vom Cambridge Dictionary zum Wort des Jahres 2023 gekürt worden ist.

Darüber hinaus gilt: Der Wahrheitsgehalt von Fakten ist abhängig vom Kontext. Das mag zunächst einmal merkwürdig klingen. Schon die banale Frage: „Was ist die Hauptstadt der Bundesrepublik Deutschland?“ aber zeigt, dass die Antwort unterschiedlich sein kann. Noch vor etwas mehr als 30 Jahren wäre „Bonn am Rhein“ richtig gewesen. Und die Antwort auf die Frage „What is this election about?“ würde heute vermutlich anders ausfallen als vor 30 Jahren (Spoilervorschlag: Oligarchie vs. Demokratie). Im Hinblick auf die Wissenschaft wird es noch komplexer: Zum wissenschaftlichen Erkenntnisfortschritt gehört es, dass Aussagen, die noch vor einigen Jahrzehnten als wahr und faktisch angesehen wurden, heute als überholt gelten. Auch für Programmiercode gilt, dass es Menschen benötigt, die den von einem generativen Modell erzeugten Code überprüfen. Das ist der Grund, warum eine der wichtigsten Plattformen für Softwareentwickler, Stackoverflow, bis heute keine Antworten zulässt, die von solchen Modellen erzeugt wurden, denn es besteht die realistische Gefahr, dass sie falsche oder irreführende Informationen bzw. schädlichen Code bereitstellen. LLMs können den Wahrheitsgehalt einer Aussage nicht überprüfen, weil sie nicht, wie Menschen, über Weltwissen verfügen und daher auch keinen Abgleich mit dem relevanten Kontext vornehmen können.

Jenseits von Wissenschaft und Softwareentwicklung besteht ein ernstzunehmendes Risiko von Sprachmodellen ganz generell in der Erzeugung von Falschinformationen. Werden solche Modelle dazu benutzt, um (sachlich falsche) Inhalte zu erzeugen, die über die sozialen Medien verbreitet werden oder die Kommentarspalten von Nachrichtenseiten füllen, kann das gravierende Konsequenzen haben – sie können die Polarisierung und das Misstrauen innerhalb einer Gesellschaft verstärken oder geteilte Grundüberzeugungen untergraben. Das kann erhebliche politische Konsequenzen haben: Im Jahr 2024 werden beispielsweise in den USA und in Indien neue Regierungen gewählt, und wir können davon ausgehen, dass diese Wahlkämpfe wesentlich durch die in den sozialen Medien bereitgestellten Inhalte entschieden werden. Is it the stupid statistics?

Über den Einsatz von ChatGPT in Kulturerbeeinrichtungen

Seit der Veröffentlichung des Dialogsystems ChatGPT im November 2022 hat die gesellschaftliche Debatte über Künstliche Intelligenz (KI) deutlich an Fahrt aufgenommen und auch Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen erreicht. Dabei geht es vor allem um die Einschätzung, wie leistungsfähig solche grossen Sprachmodelle (Large Language Models, LLMs) im Allgemeinen und Generative Pre-trained Transformers (GPTs) im Besonderen sind. Für den Kulturerbebereich zeigen sich dabei eine ganze Reihe möglicher Einsatzbereiche des Chatbot-Prototypen ChatGPT: Die Anfertigung von Textzusammenfassungen oder Beschreibungen von Kunstwerken, das Generieren von Metadaten, Schreiben von Computercode für einfache Aufgaben, Unterstützung bei der Sacherschließung oder Hilfe für Nutzer:innen beim Auffinden von Ressourcen auf den Webseiten der Kulturerbeeinrichtungen.

Zweifellos liegen die Stärken von ChatGPT in der Erzeugung von Text und damit verknüpften Aufgaben. Als „statistische Papageien“, wie diese Large Language Models in einem vieldiskutierten Paper von 2021 bezeichnet wurden, können diese Sprachmodelle auf stochastischer Basis vorhersagen, welches die nächsten Worte eines Textausschnitts sein werden. Der Anwendungsfall ChatGPT ist als textbasiertes Dialogsystem darauf trainiert worden, in jedem Fall Antworten zu geben. Diese Eigenschaft des Chatbots verweist direkt auf eine der zentralen Schwächen des Modells: Im Zweifelsfall werden schlicht unwahre Angaben gemacht, um den Dialog aufrechtzuerhalten. Da grosse Sprachmodelle nur Anwendungen künstlicher Intelligenz sind und über keinerlei Weltwissen verfügen, können sie per se nicht zwischen Fakten und Fiktion, sozialer Konstruktion und Unwahrheit unterscheiden. Die Tatsache, dass ChatGPT im Zweifelsfall „halluziniert“ (wie der gängige anthropomorphisierende Terminus lautet) und beispielsweise auch Literaturnachweise erfindet, beschädigt selbstverständlich die Verlässlichkeit des Systems – und verweist auf die grosse Stärke von Bibliotheken, zuverlässige Nachweise zur Verfügung zu stellen.

Andererseits besteht eine Stärke derartiger Systeme darin, dass sie Diskurse hervorragend nachbilden können und daher auch in der Lage sind, einzelne Texte oder grössere Textkorpora in herausragender Weise zu klassifizieren und inhaltlich zu beschreiben. Hier zeigt sich ein grosses Potential insbesondere für Bibliotheken: Bislang arbeiten digitale Assistenten, die bei der Verschlagwortung von Büchern unterstützen, mit statistischen Verfahren wie tf-idf oder auch mit Deep Learning. Solche Herangehensweisen könnten durch Topic Modeling ergänzt werden. Dieses Verfahren erzeugt eine Reihe von Begriffen, die stochastisch modelliert wurde und den Inhalt eines Werkes bzw. die in ihm verhandelten Themen („Topics“) beschreibt. Die Herausforderung für die Benutzer:innen lag bislang nun darin, dieser Wortansammlung durch eine Interpretation ein schlüssiges Label oder – im Falle von Bibliotheken – ein kontrolliertes Vokabular zuzuweisen. Genau dieses Labeling kann ChatGPT hervorragend, wie mehrere Forscher:innen bestätigt haben. Da somit die Verschlagwortung von Texten massiv verbessert und erleichtert werden kann, liegt hierin sicher einer der zukünftigen Anwendungsfälle für KI in Bibliotheken – und genau hieran wird im Teilprojekt 2 „KI-unterstützte Inhaltsanalyse und Sacherschließung“ des Projeks „Mensch.Maschine.Kultur“ gearbeitet. Verbesserungswürdig hingegen sind einfache Programmieraufgaben wie die Erstellung eines bibliographischen Nachweises in einem bestimmten Format oder die Transformation eines Nachweises von MARC.xml in JSON; derartige Aufgaben werden nicht immer zuverlässig ausgeführt, wie ein Experiment kürzlich ergab.

ChatGPT unterstreicht als eine der aktuell leistungsfähigsten textbasierten KI-Anwendungen den möglichen Nutzen solcher Modelle. Zugleich werden aber auch die Risiken deutlich, die mit dem Einsatz solcher Anwendungen einhergehen: Bislang sind ausschliesslich die US-amerikanischen Big Tech-Unternehmen in der Lage, derart leistungsfähige Modelle zu trainieren, bereitzustellen und später durch bestärkendes Lernen auf spezifische Aufgaben hin optimierte Modelle zu entwickeln – und zwar mit dem klaren Ziel der Monetarisierung. Darüber hinaus bringen generative KI-Systeme eine Reihe von ethischen Problemen mit sich, denn sie benötigen grosse Textmassen, die bislang aus dem Internet bezogen wurden und damit einem Ort, in dem nicht alle Menschen einander höflich und mit aller Etikette begegnen. So hat eine Studie festgestellt, dass Large Language Models Stereotype reproduzieren, beispielsweise indem sie die Begriffe „Muslime“ und „Gewalt“ miteinander assoziieren. Darüber hinaus müssen toxische Inhalte in den Sprachmodellen als solche gelabelt werden, und dies wird von schlecht bezahlten Menschen vorgenommen, was die ethische Fragwürdigkeit der Erstellung dieser Modelle unterstreicht.

Schliesslich ist hervorzuheben, dass diese Modelle fast ausschliesslich auf der Grundlage von im Internet verfügbarem Wortmaterial des 21. Jahrhunderts trainiert wurden. Demgegenüber wird im Teilprojekt 4 „Datenbereitstellung und Kuratierung für KI“ des Projekts „Mensch.Maschine.Kultur“ daran gearbeitet, kuratierte und historische Daten aus Bibliotheken für KI-Anwendungen aufzubereiten. Die Verfügbarkeit von Large Language Models verweist darüber hinaus auf ganz grundsätzliche Fragen: Die nämlich, welche Rolle das Kulturerbe der gesamten Menschheit in Zukunft spielen soll und welchen Einfluss Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen auf die Erstellung solcher Modelle haben können; und welche Auswirkungen die von grossen Sprachmodellen generierten Texte auf unsere gegenwärtige Kultur haben werden.