Schlagwortarchiv für: machine learning

Über Objektivität – und die Brücke zur Wahrheit

Die Statistik genießt hohes Ansehen. Zwar sagt der Volksmund „Traue keiner Statistik, die Du nicht selbst gefälscht hast“, sie gilt aber dennoch häufig als Musterbeispiel einer auf breiter Datengrundlage aufsattelnden Objektivität. Ins Extrem gesteigert wird diese Ansicht noch im Hinblick auf maschinelles Lernen: Machine learning-Modelle sind statistische Lerner. Ein jüngst publizierter Forschungsartikel kritisiert diese Auffassung: „the mythology surrounding ML presents it—and justifies its usage in said contexts over the status quo of human decision-making—as paradigmatically objective in the sense of being free from the influence of human values“ (Andrews et al. 2024).
Dass maschinelles Lernen als Extremfall von Objektivität angesehen wird, hat seinen Ursprung im 19. Jahrhundert. Damals wurden die Grundlagen unseres heutigen Verständnisses von Objektivität gelegt. Menschlicher (und fehlbarer) Subjektivität wurde mechanische Objektivität gegenübergestellt. Maschinen wurden damals die Freiheit von willentlichen Eingriffen zugesprochen, die als die gefährlichsten Aspekte der Subjektivität angesehen wurden (Daston / Galison 2007). So werden bis heute Maschinen – seien es Kameras, Sensoren oder elektronische Geräte, oder auch die Daten, die sie produzieren – zum Sinnbild für die Abschaffung des menschlichen Handelns und zur Verkörperung von Objektivität ohne Subjektivität. Diese Auffassungen halten sich hartnäckig, und es wird erklärungsbedürftig, warum der gesunde Menschenverstand Daten, der Statistik und maschinellem Lernen immer noch Objektivität und Unparteilichkeit zuschreibt.
Die Debatte des 19. Jahrhunderts hat heute ihren Wiedergänger in der Diskussion um Biases. Ganz offensichtlich verträgt sich die Tatsache, dass jeder Datensatz statistische Verzerrungen enthält, schlecht mit der Zuschreibung von Objektivität, die doch insbesondere großen Datensätzen innewohnen soll. Aus statistischer Sicht ist es so, dass ein großer Stichprobenumfang die Signifikanz erhöht; die Effektgröße wird wichtiger. Andererseits bedeutet „groß“ nicht „alles“; man muss sich vielmehr des von den Daten abgedeckten Universums bewusst sein. Statistische Schlussfolgerungen, d.h. Schlussfolgerungen aus Daten über die Grundgesamtheit, können nicht ohne weiteres gezogen werden, wenn die Datensätze nicht so angelegt sind, dass ihre Repräsentativität gewährleistet ist (Kitchin 2019). Ein Artikel aus dem Jahr 2022 hält im Hinblick auf statistische Verzerrungen fest: „Data bias has been defined as ‘a systematic distortion in the data’ that can be measured by ‘contrasting a working data sample with reference samples drawn from different sources or contexts.’ This definition encodes an important premise: that there is an absolute truth value in data and that bias is just a ‘distortion’ from that value. This key premise broadly motivates approaches to ‘debias’ data and ML systems.“ (Miceli et al. 2022). Was nach Objektivität und „absolutem Wahrheitswert“ klingt, weil es auf großen Datensätzen, auf Statistik und machine learning-Modellen beruht, ist aber nicht unbedingt korrekt, denn wenn das Modell die Realität schlecht abbildet, können die Schlussfolgerungen, die man aus den Ergebnissen zieht, falsch sein. Dies ist auch der Grund, warum Cathy O’Neil 2016 einen Algorithmus als „an opinion formalized in code“ bezeichnet hat – er bietet nicht einfach Objektivität, sondern arbeitet auf die Zwecke und Ziele hin, für die er geschrieben wurde.

Relieffragment mit Darstellung von Ruderern, Hatschepsut (Königin, Altes Ägypten, 18. Dynastie)

Relieffragment mit Darstellung von Ruderern, Hatschepsut (Königin) (Altes Ägypten, 18. Dynastie). Staatliche Museen zu Berlin, Ägyptisches Museum und Papyrussammlung. Public Domain Mark 1.0
Eine historische Visualisierung von Wissenschaftler:innen, die miteinander kommunizieren und ihre Standpunkte im Sinne einer über dem Individuum stehenden Gemeinschaft abstimmen?

Dass Wissenschaftler:innen – und die machine learning-Gemeinschaft insbesondere – dennoch am Begriff der Objektivität und am objektiven Charakter wissenschaftlichen Wissens festhalten, liegt in der Tatsache begründet, dass letzteres sozial konstruiert ist, da es sich zum Teil aus kollektiven Überzeugungen wissenschaftlicher Gemeinschaften ableitet (Fleck 1935/1980). Über die Tätigkeit der einzelnen Forscher:in hinaus zeigt die Einbettung der Forschungsergebnisse in einen breiteren wissenschaftlichen Diskurs, dass wissenschaftliche Forschung eine kollektive Tätigkeit ist. Vieles von dem, was als ‘Wissenschaft’ bezeichnet wird, beruht auf sozialen Praktiken und Verfahren der Zusprechung. Wie die Wissenschaftshistorikerin Naomi Oreskes 2019 festhielt, unterstützt die Heterogenität der wissenschaftlichen Gemeinschaft paradoxerweise die Stärke des erzielten Konsenses: „Objectivity is likely to be maximized when […] the community is sufficiently diverse that a broad range of views can be developed, heard, and appropriately considered.“ Das war offensichtlich auch Miceli et al. klar, als sie in der Debatte um Biases Position bezogen: „data never represents an absolute truth. Data, just like truth, is the product of subjective and asymmetrical social relations.“ Letztlich führen die Prozesse, die innerhalb solcher wissenschaftlicher Gemeinschaften ablaufen, zu dem, was als wissenschaftliche Wahrheit bezeichnet wird. Daten, Statistik, maschinelles Lernen und Objektivität sind in gesamtgesellschaftliche Diskurse eingebettet, und diese bilden letzten Endes die Brücke zur Wahrheit.

Offenheit, Effizienz und geschlossene Systeme

Das Konzept der Datenräume, das die Europäische Kommission verfolgt, ist nicht nur ein technisches; es impliziert auch eine politische Verfasstheit. Datenräume wie GAIA-X benötigen keine zentralisierte Verwaltung. Der Betrieb eines solchen Datenraumes kann im Rahmen einer Föderation erfolgen, die die Mittel zur Kontrolle der Datenintegrität und der Datenvertrauenswürdigkeit herstellt. Der Verbund, der den Datenraum betreibt, entspricht daher eher der Europäischen Union (d.h. einem Staatenverbund) als einer zentralistisch organisierten Demokratie. Und Vertrauenswürdigkeit ist nicht nur im Hinblick auf Daten und machine learning-Modelle etwas, was Kulturerbe-Einrichtungen auszeichnet. Solche Institutionen erfüllen ihre Aufgabe auf der Grundlage des Vertrauens, das die Menschen in sie setzen, ein Vertrauen, das über Jahrzehnte oder Jahrhunderte gewachsen und Ausdruck der Überzeugung der Menschen ist, dass diese renommierten und altehrwürdigen Institutionen die richtigen Entscheidungen treffen und beispielsweise die richtige Auswahl bei der Akquisition ihrer Objekte treffen.

Das politische Konzept der Datenräume steht damit in klarem Gegensatz zu den hierarchischen und undurchsichtigen Strukturen von big tech-Konzernen. Im Hinblick auf Daten und machine learning-Modelle ist bei den einschlägigen Konzernen (Alphabet, Meta, Amazon, Microsoft) seit den 2010er Jahren eine deutliche Zentralisierungsbewegung zu beobachten, vor allem im Hinblick auf Forschung und Entwicklung sowie die Bereitstellung von Infrastruktur. Eine Studie aus dem Jahr 2022 zu den Werten, die in der Forschung zu maschinellem Lernen zentral sind, hebt zwei Einsichten hervor: Zum einen nimmt die Präsenz der großen Tech-Konzerne in den 100 meistzitierten Studien, die im Rahmen der zwei bedeutendsten machine learning-Konferenzen publiziert wurden, massiv zu. „For example, in 2008/09, 24% of these top cited papers had corporate affiliated authors, and in 2018/19 this statistic more than doubled, to 55%. Moreover, of these corporations connected to influential papers, the presence of ‚big-tech‘ firms, such as Google and Microsoft, more than tripled from 21% to 66%.“ Damit sind die Tech-Firmen nahezu genauso häufig an der wichtigsten Forschung beteiligt wie die bedeutendsten Universitäten. Die Perspektivierung der Konsequenzen dieser Privatisierung der Forschung für die Aufteilung der Wissensproduktion in westlichen Gesellschaften wären eigene Studien wert. Zum anderen hebt die Studie von Birhane et al. einen Wert hervor, der in den untersuchten 100 Forschungsbeiträgen neben anderen immer wieder hervorgehoben wird: Effizienz. Das Lob der Effizienz ist in diesem Fall nicht neutral, denn es favorisiert diejenigen Institutionen, die in der Lage sind, stetig wachsende Datenmengen zu prozessieren und die dafür notwendigen Ressourcen zu beschaffen und zu betreiben. Mit anderen Worten: Die Hervorhebung eines technisch klingenden Werts wie Effizienz „facilitates and encourages the most powerful actors to scale up their computation to ever higher orders of magnitude, making their models even less accessible to those without resources to use them and decreasing the ability to compete with them.“

Scheintür des Sokarhotep, symbolisiert die nur scheinbare Offenheit der von Big Tech bereitgestellten KI-Anwendungen

Scheintür des Sokarhotep, Altes Reich, 5. Dynastie. Ägyptisches Museum und Papyrussammlung. CC BY-SA 4.0.
Die Scheintür symbolisiert die nur scheinbare Offenheit der von Big Tech bereitgestellten KI-Anwendungen

Damit ist bereits der zweite Aspekt angesprochen, die Verfügungsmacht über Infrastruktur. Zweifellos gibt es bereits jetzt einen „compute divide“ zwischen den big tech-Konzernen und beispielsweise den Elite-Universitäten. Forschung und Entwicklung im Bereich maschinellen Lernens ist aktuell in hohem Maße von der von einigen wenigen Akteuren bereitgestellten Infrastruktur abhängig. Dieser Sachverhalt hat auch Auswirkungen auf die offene Bereitstellung von Modellen. Wenn sich Offenheit als Frage des Zugangs zu Ressourcen darstellt, wird Umfang (scale) zu einem Problem für Offenheit: Wirklich offene KI-Systeme sind nicht möglich, wenn die Ressourcen, die benötigt werden, um sie von Grund auf herzustellen, und die für ihren Einsatz in großem Maßstab erforderlich sind, geschlossen bleiben, weil sie nur denjenigen zur Verfügung stehen, die über diese signifikanten Ressourcen verfügen. Und das sind fast immer Konzerne. Eine jüngst veröffentlichte Studie zur Machtkonzentration und politischen Ökonomie von offener KI kommt daher zu dem Schluss, dass open source und Zentralisierung einander ausschließen: „only a few large tech corporations can create and deploy large AI systems at scale, from start to finish – a far cry from the decentralized and modifiable infrastructure that once animated the dream of the free/open source software movement“. Ein Firmenname wie „OpenAI“ wird damit zum Oxymoron.

Vor diesem Hintergrund wird deutlich, dass die europäische Konzeption von Datenräumen eine Gegenbewegung zu den monopolistischen Strukturen der Tech-Konzerne darstellt. Die Offenheit, Datensouveränität und die Vertrauenswürdigkeit, die diese Datenräume repräsentieren, werden zwar nicht die Möglichkeit eröffnen, Infrastrukturen aufzubauen, die es mit denen der big tech-Unternehmen aufnehmen können. Sie werden es aber ermöglichen, spezifische Modelle mit klar definierten Aufgabenstellungen zu entwickeln, die effizienter als die von den Tech-Konzernen entwickelten Allzweckanwendungen arbeiten. So könnte der für das Feld maschinellen Lernens zentrale Wert der Effizienz neu codiert werden.

Hungrige Magie

„Any sufficiently advanced technology is indistinguishable from magic“, wußte schon Arthur C. Clarke, und es gehört zum Zauber neuer Technologien, dass ihre Kehrseiten systematisch beschwiegen werden. So ist es auch mit dem Energieverbrauch von großen Sprachmodellen (LLMs): Wie beim Schnitzel, das auf dem Teller der Verbraucher:innen landet und den Zusammenhang zu den Realitäten der Massentierhaltung vergessen macht, ist es auch bei den Wunderwerken künstlicher Intelligenz. Angaben über die zur Erstellung solcher Produkte wie ChatGPT erforderliche Rechenleistung und die verwendeten big data werden nicht gemacht, sei es, um Datenschutz- und urheberrechtliche Probleme nicht allzu offenbar werden zu lassen, sei es, um den Energiehunger und den CO2-Ausstoß beim Training dieser Modelle und ihrem Betrieb nicht quantifizieren zu müssen. Eine seriöse Zeitung wie die Zeit schätzte im März 2023: „Für den Betrieb von ChatGPT fallen […] derzeit Kosten in Höhe von 100.000 bis 700.000 Dollar am Tag an“ und gab „1.287 Gigawattstunden Strom“ oder „Emissionen von geschätzt 502 Tonnen CO2“ für das Training von GPT-3 an (Art. “Hidden Energie”, in: Die Zeit Nr. 14 vom 30.03.2023, S.52). Vor diesem Hintergrund kann nicht verwundern, dass sich nach Angaben der International Energy Authority der Stromverbrauch der big tech-Unternehmen Amazon, Microsoft, Google und Meta zwischen 2017 und 2021 auf 72 TWh verdoppelt hat; diese vier Unternehmen sind zugleich die weltweit größten Anbieter kommerziell verfügbarer Cloud-Rechenkapazität.

Vor kurzem wurde nun von Sasha Luccioni, Yacine Jernite und Emma Strubell die erste systematische Studie zum Energieverbrauch und CO2-Ausstoß verschiedener machine learning-Modelle während der Inferenz-Phase vorgelegt. Inferenz meint hier den Betrieb der Modelle, d.h. den Zeitraum des Einsatzes nach dem Training und Finetuning der Modelle. Inferenz macht etwa 80 bis 90 Prozent der Kosten maschinellen Lernens aus, auf einer Cloud-Computing-Plattform wie Amazon Web Services (AWS) nach Angaben des Betreibers etwa 90 Prozent. Die Studie von Luccioni et al. unterstreicht dabei die Unterschiede zwischen den verschiedenen machine learning-Anwendungen: Die Strom- und CO2-Intensität ist bei textbasierten Anwendungen massiv geringer als bei bildbasierten Aufgaben; ebenso ist sie bei diskriminativen Aufgabenstellung massiv geringer als bei generativen, dazu gehören die generative pretrained transformers, GPTs. Die Unterschiede zwischen den verschiedenen Modellen sind dabei beträchtlich: „Das Aufladen eines durchschnittlichen Smartphones erfordert 0,012 kWh Energie, was bedeutet, dass das effizienteste Modell zur Texterzeugung für 1.000 Inferenzen so viel Energie verbraucht wie 16 % einer vollen Smartphone-Ladung, während das am wenigsten effiziente Modell zur Bilderzeugung so viel Energie verbraucht wie 950 Smartphone-Ladungen (11,49 kWh) oder fast eine Ladung pro Bilderzeugung.“ Je größer das Modell ist, desto schneller wird während der Inferenz-Phase genauso viel Strom verbraucht bzw. CO2 ausgestoßen wie während der Trainingsphase.

Da ‚Allzweckanwendungen‘ für dieselbe Aufgabenstellung mehr Energie verbrauchen als Modelle, die für einen spezifischen Zweck trainiert wurden, weisen Luccioni et al. auf mehrere Zielkonflikte hin: Zum einen auf den Zielkonflikt zwischen Modellgröße vs. Stromverbrauch, denn der Nutzen von multi purpose-Modellen muss gegen ihre Stromkosten und die CO2-Emissionen abgewogen werden. Zum anderen auf den Zielkonflikt zwischen Fehlerrate/Effizienz und Stromverbrauch über die verschiedenen Modelle hinweg, denn je geringer die Fehlerrate bzw. je höher die Effizienz eines Modells, desto geringer ist auch der Stromverbrauch spezifischer Modelle, während hingegen multi purpose-Modelle zwar viele verschiedene Aufgabenstellungen erfüllen können, hierbei jedoch eine höhere Fehlerrate und einen höheren Stromverbrauch aufweisen. Diese empirisch belegten Befunde stellen nach Ansicht der Autorinnen beispielsweise in Frage, ob es angesichts des Energiebedarfs solcher multi purpose-Modelle wie Bard und Bing wirklich notwendig ist, diese zu betreiben, wenn sie in Kontexten wie Websuche und Navigation eingesetzt werden, d.h. in Situationen, in denen die Aufgabenstellungen klar definiert sind.

Der Energiehunger großer Allzweck-Modelle zeigt den führenden Unternehmer:innen und Investor:innen der westlichen big tech-Konzerne nicht etwa die „Grenzen des Wachstums“ auf, wie sie der Club of Rome vor über 50 Jahren benannte. Im Gegenteil, CEOs wie Jeff Bezos, zu dessen Imperium auch die größte Cloud-Computing-Plattform AWS gehört, fürchten eher die Stagnation: „We will have to stop growing, which I think is a very bad future.“ Visionen wie das Metaverse sind im Hinblick auf den Ressourcenverbrauch und die Emissionen äußerst kostspielig, und man darf mit Recht fragen, ob KI-Anwendungen in der Zukunft wirklich der gesamten Menschheit oder nur denjenigen Firmen oder Einzelpersonen, die es sich leisten können, zur Verfügung stehen werden. Nichts von alledem ist auch nur annähernd nachhaltig. Angesichts des wachsenden Stromverbrauchs der westlichen big tech-Unternehmen und der Tatsache, dass bereits jetzt die Kerninfrastruktur für die Entwicklung von KI-Produkten durch einige wenige Akteure zentralisiert ist, bleibt derzeit unklar, wohin die Entwicklung ‚magischer‘ KI-Anwendungen führen wird. Die Wissenschaftlerin Kate Crawford hat dazu in ihrem Buch „Atlas of AI“ eine eigene Antwort gegeben: Ins All, denn dort gibt es die Ressourcen, die diese Konzerne benötigen.

Den Kuckuck füttern

Large Language Models (LLMs) kombinieren Wörter, die im Trainingsdatensatz häufig in ähnlichen Zusammenhängen auftauchen; auf dieser Grundlage sagen sie das wahrscheinlichste Wort bzw. den wahrscheinlichsten Satz vorher. Je größer der Trainingsdatensatz ist, desto mehr Kombinationsmöglichkeiten gibt es, und desto ‚kreativer‘ wirkt das Modell. Die schiere Größe von Modellen wie GPT-4 stellt aber bereits einen schwer einholbaren Wettbewerbsvorteil dar: Es gibt nur eine Handvoll von Unternehmen weltweit, die exorbitante Rechenleistung, Verfügung über big data und enorme Marktreichweite miteinander kombinieren können, um ein derartiges Produkt herstellen zu können. Am aktuellen Konkurrenzkampf sind keine Forschungseinrichtungen beteiligt, wohl aber die big tech-Unternehmen Microsoft, Meta und Google. Wenige Akteure und wenige Modelle bedeuten allerdings auch einen „Wettlauf nach unten, was Sicherheit und Ethik betrifft“, denn die Verwendung von big data hat im Hinblick auf LLMs auch zumeist zur Folge, dass die Trainingsdaten sensible und vertrauliche Informationen sowie urheberrechtlich geschütztes Material enthalten. In zahlreichen Gerichtsverfahren wird den Tech-Giganten vorgeworfen, die Daten von Millionen von Nutzer:innen ohne deren Zustimmung im Netz eingesammelt und gegen das Urheberrecht zu verstoßen, um KI-Modelle zu trainieren.

Die Nutzer:innen des Internets haben also bereits dazu beigetragen, das Kuckuckskind zu füttern. Google machte diese Tatsache auf indirekte Weise dadurch bekannt, dass es im Juni 2023 seine Datenschutzerklärung aktualisierte: „wir nutzen Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen weiterzuentwickeln, die diese grundlegenden Technologien nutzen – wie Google Übersetzer, Bard und Cloud AI.“ Weniger bekannt ist jedoch die Tatsache, dass die großen Tech-Unternehmen ihre Modelle wie Bard auch damit trainieren, was ihnen die Nutzer:innen anvertrauen. Mit anderen Worten: Alles, was man einem Chatbot erzählt, kann wiederum als Trainingsmaterial verwendet werden. In Googles eigenen Worten klingt das dann so: „Wir nutzen Ihre Interaktionen mit KI-Modellen und Technologien wie Bard, um diese Modelle zu entwickeln, zu trainieren, zu optimieren und zu verbessern, damit sie besser auf Ihre Anfragen reagieren.“ Eine Konsequenz aus der Bauart von LLMs aber ist, dass sich der Output generativer Modelle nicht kontrollieren lässt; es gibt dazu bei den großen Modellen schlicht zu viele Möglichkeiten. Wenn das LLM auf privaten oder vertraulichen Daten trainiert wurde und wird, kann das dazu führen, dass diese Daten offengelegt werden und vertrauliche Informationen preisgegeben werden. Daher sollten bereits die Trainingsdaten den Datenschutzbestimmungen entsprechen, und daher wird immer wieder Transparenz im Hinblick auf Trainingsdaten gefordert.

Konsequenterweise warnt Google in seinen Datenschutzbestimmungen zu Bard die Nutzer:innen des Modells davor, dieses mit sensitiven Daten zu füttern: „Geben Sie in Ihren Unterhaltungen mit Bard keine vertraulichen Informationen und keine Daten an, die Prüfer nicht sehen sollen“. Das ist insofern interessant, als der KI-Hype mit solchen Begriffen wie „disruption“ befeuert wird, zugleich aber unklar bleibt, wie das Geschäftsmodell aussehen soll, mit dem die big tech-Unternehmen mittelfristig Gewinne generieren wollen – und wie denn für durchschnittliche Nutzer:innen genau der Anwendungsfall aussehen soll. Ein Anwendungsfall allerdings besteht in der Generierung von alltäglich benötigten Texten, nämlich von wohlformulierten Bewerbungsschreiben. Lädt man dazu allerdings den eigenen Lebenslauf hoch, füttert man nur wieder den Kuckuck. Und das ist nicht in unser aller Sinne: Datenschutz ist schließlich (auch) ein Gemeingut.

Mensch-Maschine-Wahrnehmung

Der Mensch sucht sich selbst in nicht-menschlichen Lebewesen und in unbelebten Artefakten. Affen, die „nächsten Verwandten“, oder Hunde, die „treuesten Begleiter“ sind für ersteres, Roboter sind für letzteres gute Beispiele: Eine menschenähnliche Gestaltung der Roboter-Körper und eine vermenschlichende sprachliche Rahmung ihrer Fähigkeiten unterstützt, so die Hypothese, die Anthropomorphisierung dieser Maschinen und in der Folge auch die Herausbildung von empathischem Verhalten gegenüber Robotern. Die Neigung zur Anthropomorphisierung variiert dabei von Mensch zu Mensch; es gibt „stable individual differences in the tendency to attribute human-like attributes to nonhuman agents“.

Large Language Models (LLMs) werden (bislang) nicht mit menschenähnlichen Körperformen assoziiert. Das heißt aber nicht, dass sie der menschlichen Neigung zur Anthropomorphisierung nicht unterliegen. Schon ein wohl formulierter Satz kann uns zu der fälschlichen Annahme verleiten, dass er von einem rationalen Agenten gesprochen wurde. LLMs sind mittlerweile in der Lage, menschliche Sprache hervorragend nachzubilden. Sie wurden auf sprachliche Regeln und Muster trainiert und beherrschen diese ausgezeichnet. Die Kenntnis statistischer Regelmäßigkeiten der Sprache ermöglicht aber kein „Verstehen“. Auch die Fähigkeit, Sprache adäquat im sozialen Kontext anzuwenden, ist bei LLMs noch lückenhaft ausgebildet. Dafür fehlt ihnen das notwendige Weltwissen, der sensorische Zugang zur Welt und jenes Wissen, das wir als „gesunden Menschenverstand“ beschreiben. Dass wir dennoch dazu neigen, den von generativen vortrainierten Sprachmodellen (generative pretrained transformers, GPTs) produzierten Text als menschliche Äußerungen zu verstehen, liegt zum einen daran, dass diese Sprachmodelle auf sehr großen Textmengen des 21. Jahrhunderts trainiert wurden und daher unseren zeitgenössischen Diskurs perfekt nachbilden können. Entspricht die Art und Weise, wie über Sprache Bedeutung hergestellt wird, unseren alltäglichen Gewohnheiten, dann kann es nicht überraschen, dass wir dem Produzenten eines gut gemachten Textes „Intelligenz“, „Intentionalität“ oder sogar „Identität“ zuschreiben. Insofern bestätigen LLMs die strukturalistischen Theorien der zweiten Hälfte des 20. Jahrhunderts, dass Sprache ein System ist, das den Rahmen dessen, was artikuliert und damit letzten Endes auch gedacht werden kann, festlegt und begrenzt. Und insofern scheinen LLMs auch Roland Barthes‘ These vom „Tod des Autors“ zu bekräftigen. Die unendliche Rekombination des vorhandenen Wortmaterials und die Ergänzung der wahrscheinlichsten Wörter und Sätze scheinen zu genügen, dass wir uns im Textoutput wiedererkennen.

Zum anderen unterstützt die spezifische Bauart von Chatbots die Anthropomorphisierung. ChatGPT etwa wurde auf zehntausenden von Frage-Antwort-Paaren trainiert. Das sogenannte „Instruction Fine-tuning“ sorgt dafür, dass das Modell Textsequenzen in einem bestimmten Format generiert. Das LLM interpretiert den Prompt als Instruktion, unterscheidet die Eingabe der Gesprächspartner:in oder Fragesteller:in von dem Text des Sprachmodells und zieht Rückschlüsse auf die menschlichen Teilnehmer:innen. Das hat zum einen zur Folge, dass das Sprachmodell in der Lage ist, den generierten Text an das menschliche Gegenüber anzupassen und Soziolekte zu imitieren, zum anderen entsteht beim Menschen die kognitive Illusion eines Dialogs. Das Interface solcher Apps wie ChatGPT unterstützt diese Illusion noch; es ist wie all die anderen Interfaces gestaltet, die für menschliche Konversationen benutzt werden. Wir Menschen folgen dann unseren Gewohnheiten und ergänzen im Dialog mit dem Chatbot jenen sozialen Kontext, der für eine Unterhaltung charakteristisch ist, und unterstellen der anderen Seite Intentionalität. ChatGPT schließlich wurde als fiktionale Figur trainiert, die Antworten in der Ich-Form gibt. Daher produziert das Sprachmodell Aussagen über sich selbst, etwa über sein ethisch-moralisches Verhalten, über seine Leistungsfähigkeit, Datenschutz und die verwendeten Trainingsdaten. Fragt ein/e NutzerIn nach unangemessenem Output, lehnt das Sprachmodell höflich ab. Diese Aussagen können daher am ehesten als Echo des vorgenommenen Trainings verstanden werden, als das, was OpenAI uns über diese Technologie weismachen möchte. Die Dialogform und die in der Ich-Form berichtende fiktionale Figur stellen die einzigen Möglichkeiten dar, wie OpenAI den Output des Sprachmodells kontrollieren kann.

Das alles lässt sich zusammengefasst „anthropomorphism by design“ nennen. Kein Wunder also, dass wir Menschen dazu neigen, auch einem körperlosen Sprachmodell menschliche Eigenschaften zuzuschreiben. Während wir den Umgang mit derartigen Chatbots erlernen, dürfen wir aber nicht der Illusion erliegen, es mit einem menschlichen Gegenüber zu tun zu haben. Empathische Aussagen oder ausformulierte Emotionen des Bots sind Simulationen, die äußerst problematisch werden können, wenn wir beispielsweise den Bot mit einer Therapeut:in verwechseln. Auch die Annahme, ein Sprachmodell könnte geeignet sein, Entscheidungen zu treffen und daher die Rolle von Rechtsanwält:innen, Ärzt:innen oder Lehrer:innen übernehmen, ist irreführend: Die Verantwortung für solche Entscheidungen übernehmen letzten Endes immer noch Menschen. Daher dürfen wir uns vom anthropomorphisierenden Design nicht täuschen lassen. Die Wahrnehmung, der Mensch habe etwas anderes als eine Maschine gegenüber, ist trügerisch: Da ist niemand.

It’s the statistics, stupid

„It’s the statistics, stupid“, könnte man formulieren, wenn es um den Umgang mit generativen vortrainierten Sprachmodellen (generative pretrained transformer, GPT) geht. Den müssen wir jedoch alle noch lernen, ein Jahr nach der Präsentation von ChatGPT. Statistische Zusammenhänge bilden den Schlüssel, um zu begreifen, wie stochastische Vorhersagemodelle funktionieren und was sie zu leisten imstande sind.

Einfach erklärt besteht maschinelles Lernen darin, dass einer Maschine Daten gezeigt werden, auf deren Grundlage sie lernt bzw. sich merkt, was mit was zusammenhängt. Diese Daten nennt man den Trainingsdatensatz. Hat die Maschine die Zusammenhänge gelernt, dann zeigt man ihr einen Testdatensatz, d.h. Daten, die sie noch nicht gesehen hat. Am Ergebnis lässt sich bemessen, wie gut eine Maschine die Zusammenhänge gelernt hat. Grundsätzlich gilt dabei: Aus möglichst vielen und repräsentativen Ausgangsdaten (d.h. Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere, ungesehene Daten anwenden zu können. Die Qualität eines solchen Modells hängt also immer davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Large Language Models (LLMs) werden darauf trainiert, Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben und die Illusion eines Dialogs zu erzeugen. Die Maschine bekommt dabei sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, etwa: „It’s the [mask], stupid“. Auf die Frage: „What is this election about?“ macht das Modell dann eine Vorhersage, welches Wort – basierend auf den Trainingsdaten – an der Stelle von [mask] am wahrscheinlichsten stehen würde, hier also „economy“. Im Prinzip könnte hier genauso gut „deficit“, „money“ oder eben „statistics“ stehen, aber „economy“ kommt mit Abstand am häufigsten in den Trainingsdaten vor und ist daher das wahrscheinlichste Wort. Das Sprachmodell kombiniert dabei Wörter, die im Trainingsdatensatz oft in ähnlichen Zusammenhängen auftauchen. Dasselbe trifft für ganze Sätze oder auch längere Texte zu.

Dass LLMs Wahrscheinlichkeiten vorhersagen, hat indes gravierende Konsequenzen. Beispielsweise sagt die Tatsache, dass der von einem Modell vorhergesagte Satz wahrscheinlich ist, nichts darüber aus, ob dieser Satz wahr oder falsch ist. Die erzeugten Texte können also auch falsche Aussagen wie etwa veraltete oder falsche Informationen oder Fiktionen beinhalten. Sprachmodelle wie ChatGPT lernen keine Muster, anhand derer der Wahrheitsgehalt einer Aussage bewertet werden kann. Daher gehört es zur Aufgabe der Menschen, die den Chatbot benutzen, die Glaubwürdigkeit bzw. den Wahrheitsgehalt der Aussage zu überprüfen und zu kontextualisieren. Diesen Umgang sollten wir alle noch lernen, ebenso wie wir es „damals“ gelernt haben, die Verlässlichkeit einer Quelle zu überprüfen, die als Ergebnis einer Google-Suche präsentiert wird. Für einige Lebensbereiche ist die Unterscheidung wahr/falsch zentral, beispielsweise für die Wissenschaft. Ein generatives Modell, das in der Lage ist, wissenschaftliche Texte zu produzieren, aber nicht zwischen wahr und falsch unterscheiden kann, muss daher zwangsläufig scheitern – so wie es bei dem von Meta präsentierten Modell „Galactica“ der Fall war, das immerhin auf Grundlage von 48 Millionen wissenschaftlichen Artikeln trainiert worden war. Folgerichtig wird so ein Modell auch Fragen nach guter wissenschaftlicher Praxis aufwerfen. Da Wissenschaft ganz wesentlich ein System von Referenzen ist, stellt das Faktum, dass generative Modelle wie ChatGPT Literaturnachweise im Zweifelsfall ‚erdichtet‘ (d.h. eine wahrscheinliche Folge von Wörtern erzeugt), ein echtes Problem dar. Es kann daher nicht überraschen, dass das Wort „halluzinieren“ vom Cambridge Dictionary zum Wort des Jahres 2023 gekürt worden ist.

Darüber hinaus gilt: Der Wahrheitsgehalt von Fakten ist abhängig vom Kontext. Das mag zunächst einmal merkwürdig klingen. Schon die banale Frage: „Was ist die Hauptstadt der Bundesrepublik Deutschland?“ aber zeigt, dass die Antwort unterschiedlich sein kann. Noch vor etwas mehr als 30 Jahren wäre „Bonn am Rhein“ richtig gewesen. Und die Antwort auf die Frage „What is this election about?“ würde heute vermutlich anders ausfallen als vor 30 Jahren (Spoilervorschlag: Oligarchie vs. Demokratie). Im Hinblick auf die Wissenschaft wird es noch komplexer: Zum wissenschaftlichen Erkenntnisfortschritt gehört es, dass Aussagen, die noch vor einigen Jahrzehnten als wahr und faktisch angesehen wurden, heute als überholt gelten. Auch für Programmiercode gilt, dass es Menschen benötigt, die den von einem generativen Modell erzeugten Code überprüfen. Das ist der Grund, warum eine der wichtigsten Plattformen für Softwareentwickler, Stackoverflow, bis heute keine Antworten zulässt, die von solchen Modellen erzeugt wurden, denn es besteht die realistische Gefahr, dass sie falsche oder irreführende Informationen bzw. schädlichen Code bereitstellen. LLMs können den Wahrheitsgehalt einer Aussage nicht überprüfen, weil sie nicht, wie Menschen, über Weltwissen verfügen und daher auch keinen Abgleich mit dem relevanten Kontext vornehmen können.

Jenseits von Wissenschaft und Softwareentwicklung besteht ein ernstzunehmendes Risiko von Sprachmodellen ganz generell in der Erzeugung von Falschinformationen. Werden solche Modelle dazu benutzt, um (sachlich falsche) Inhalte zu erzeugen, die über die sozialen Medien verbreitet werden oder die Kommentarspalten von Nachrichtenseiten füllen, kann das gravierende Konsequenzen haben – sie können die Polarisierung und das Misstrauen innerhalb einer Gesellschaft verstärken oder geteilte Grundüberzeugungen untergraben. Das kann erhebliche politische Konsequenzen haben: Im Jahr 2024 werden beispielsweise in den USA und in Indien neue Regierungen gewählt, und wir können davon ausgehen, dass diese Wahlkämpfe wesentlich durch die in den sozialen Medien bereitgestellten Inhalte entschieden werden. Is it the stupid statistics?