Schlagwortarchiv für: machine learning

Hungrige Magie

„Any sufficiently advanced technology is indistinguishable from magic“, wußte schon Arthur C. Clarke, und es gehört zum Zauber neuer Technologien, dass ihre Kehrseiten systematisch beschwiegen werden. So ist es auch mit dem Energieverbrauch von großen Sprachmodellen (LLMs): Wie beim Schnitzel, das auf dem Teller der Verbraucher:innen landet und den Zusammenhang zu den Realitäten der Massentierhaltung vergessen macht, ist es auch bei den Wunderwerken künstlicher Intelligenz. Angaben über die zur Erstellung solcher Produkte wie ChatGPT erforderliche Rechenleistung und die verwendeten big data werden nicht gemacht, sei es, um Datenschutz- und urheberrechtliche Probleme nicht allzu offenbar werden zu lassen, sei es, um den Energiehunger und den CO2-Ausstoß beim Training dieser Modelle und ihrem Betrieb nicht quantifizieren zu müssen. Eine seriöse Zeitung wie die Zeit schätzte im März 2023: „Für den Betrieb von ChatGPT fallen […] derzeit Kosten in Höhe von 100.000 bis 700.000 Dollar am Tag an“ und gab „1.287 Gigawattstunden Strom“ oder „Emissionen von geschätzt 502 Tonnen CO2“ für das Training von GPT-3 an (Art. “Hidden Energie”, in: Die Zeit Nr. 14 vom 30.03.2023, S.52). Vor diesem Hintergrund kann nicht verwundern, dass sich nach Angaben der International Energy Authority der Stromverbrauch der big tech-Unternehmen Amazon, Microsoft, Google und Meta zwischen 2017 und 2021 auf 72 TWh verdoppelt hat; diese vier Unternehmen sind zugleich die weltweit größten Anbieter kommerziell verfügbarer Cloud-Rechenkapazität.

Vor kurzem wurde nun von Sasha Luccioni, Yacine Jernite und Emma Strubell die erste systematische Studie zum Energieverbrauch und CO2-Ausstoß verschiedener machine learning-Modelle während der Inferenz-Phase vorgelegt. Inferenz meint hier den Betrieb der Modelle, d.h. den Zeitraum des Einsatzes nach dem Training und Finetuning der Modelle. Inferenz macht etwa 80 bis 90 Prozent der Kosten maschinellen Lernens aus, auf einer Cloud-Computing-Plattform wie Amazon Web Services (AWS) nach Angaben des Betreibers etwa 90 Prozent. Die Studie von Luccioni et al. unterstreicht dabei die Unterschiede zwischen den verschiedenen machine learning-Anwendungen: Die Strom- und CO2-Intensität ist bei textbasierten Anwendungen massiv geringer als bei bildbasierten Aufgaben; ebenso ist sie bei diskriminativen Aufgabenstellung massiv geringer als bei generativen, dazu gehören die generative pretrained transformers, GPTs. Die Unterschiede zwischen den verschiedenen Modellen sind dabei beträchtlich: „Das Aufladen eines durchschnittlichen Smartphones erfordert 0,012 kWh Energie, was bedeutet, dass das effizienteste Modell zur Texterzeugung für 1.000 Inferenzen so viel Energie verbraucht wie 16 % einer vollen Smartphone-Ladung, während das am wenigsten effiziente Modell zur Bilderzeugung so viel Energie verbraucht wie 950 Smartphone-Ladungen (11,49 kWh) oder fast eine Ladung pro Bilderzeugung.“ Je größer das Modell ist, desto schneller wird während der Inferenz-Phase genauso viel Strom verbraucht bzw. CO2 ausgestoßen wie während der Trainingsphase.

Da ‚Allzweckanwendungen‘ für dieselbe Aufgabenstellung mehr Energie verbrauchen als Modelle, die für einen spezifischen Zweck trainiert wurden, weisen Luccioni et al. auf mehrere Zielkonflikte hin: Zum einen auf den Zielkonflikt zwischen Modellgröße vs. Stromverbrauch, denn der Nutzen von multi purpose-Modellen muss gegen ihre Stromkosten und die CO2-Emissionen abgewogen werden. Zum anderen auf den Zielkonflikt zwischen Fehlerrate/Effizienz und Stromverbrauch über die verschiedenen Modelle hinweg, denn je geringer die Fehlerrate bzw. je höher die Effizienz eines Modells, desto geringer ist auch der Stromverbrauch spezifischer Modelle, während hingegen multi purpose-Modelle zwar viele verschiedene Aufgabenstellungen erfüllen können, hierbei jedoch eine höhere Fehlerrate und einen höheren Stromverbrauch aufweisen. Diese empirisch belegten Befunde stellen nach Ansicht der Autorinnen beispielsweise in Frage, ob es angesichts des Energiebedarfs solcher multi purpose-Modelle wie Bard und Bing wirklich notwendig ist, diese zu betreiben, wenn sie in Kontexten wie Websuche und Navigation eingesetzt werden, d.h. in Situationen, in denen die Aufgabenstellungen klar definiert sind.

Der Energiehunger großer Allzweck-Modelle zeigt den führenden Unternehmer:innen und Investor:innen der westlichen big tech-Konzerne nicht etwa die „Grenzen des Wachstums“ auf, wie sie der Club of Rome vor über 50 Jahren benannte. Im Gegenteil, CEOs wie Jeff Bezos, zu dessen Imperium auch die größte Cloud-Computing-Plattform AWS gehört, fürchten eher die Stagnation: „We will have to stop growing, which I think is a very bad future.“ Visionen wie das Metaverse sind im Hinblick auf den Ressourcenverbrauch und die Emissionen äußerst kostspielig, und man darf mit Recht fragen, ob KI-Anwendungen in der Zukunft wirklich der gesamten Menschheit oder nur denjenigen Firmen oder Einzelpersonen, die es sich leisten können, zur Verfügung stehen werden. Nichts von alledem ist auch nur annähernd nachhaltig. Angesichts des wachsenden Stromverbrauchs der westlichen big tech-Unternehmen und der Tatsache, dass bereits jetzt die Kerninfrastruktur für die Entwicklung von KI-Produkten durch einige wenige Akteure zentralisiert ist, bleibt derzeit unklar, wohin die Entwicklung ‚magischer‘ KI-Anwendungen führen wird. Die Wissenschaftlerin Kate Crawford hat dazu in ihrem Buch „Atlas of AI“ eine eigene Antwort gegeben: Ins All, denn dort gibt es die Ressourcen, die diese Konzerne benötigen.

Den Kuckuck füttern

Large Language Models (LLMs) kombinieren Wörter, die im Trainingsdatensatz häufig in ähnlichen Zusammenhängen auftauchen; auf dieser Grundlage sagen sie das wahrscheinlichste Wort bzw. den wahrscheinlichsten Satz vorher. Je größer der Trainingsdatensatz ist, desto mehr Kombinationsmöglichkeiten gibt es, und desto ‚kreativer‘ wirkt das Modell. Die schiere Größe von Modellen wie GPT-4 stellt aber bereits einen schwer einholbaren Wettbewerbsvorteil dar: Es gibt nur eine Handvoll von Unternehmen weltweit, die exorbitante Rechenleistung, Verfügung über big data und enorme Marktreichweite miteinander kombinieren können, um ein derartiges Produkt herstellen zu können. Am aktuellen Konkurrenzkampf sind keine Forschungseinrichtungen beteiligt, wohl aber die big tech-Unternehmen Microsoft, Meta und Google. Wenige Akteure und wenige Modelle bedeuten allerdings auch einen „Wettlauf nach unten, was Sicherheit und Ethik betrifft“, denn die Verwendung von big data hat im Hinblick auf LLMs auch zumeist zur Folge, dass die Trainingsdaten sensible und vertrauliche Informationen sowie urheberrechtlich geschütztes Material enthalten. In zahlreichen Gerichtsverfahren wird den Tech-Giganten vorgeworfen, die Daten von Millionen von Nutzer:innen ohne deren Zustimmung im Netz eingesammelt und gegen das Urheberrecht zu verstoßen, um KI-Modelle zu trainieren.

Die Nutzer:innen des Internets haben also bereits dazu beigetragen, das Kuckuckskind zu füttern. Google machte diese Tatsache auf indirekte Weise dadurch bekannt, dass es im Juni 2023 seine Datenschutzerklärung aktualisierte: „wir nutzen Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen weiterzuentwickeln, die diese grundlegenden Technologien nutzen – wie Google Übersetzer, Bard und Cloud AI.“ Weniger bekannt ist jedoch die Tatsache, dass die großen Tech-Unternehmen ihre Modelle wie Bard auch damit trainieren, was ihnen die Nutzer:innen anvertrauen. Mit anderen Worten: Alles, was man einem Chatbot erzählt, kann wiederum als Trainingsmaterial verwendet werden. In Googles eigenen Worten klingt das dann so: „Wir nutzen Ihre Interaktionen mit KI-Modellen und Technologien wie Bard, um diese Modelle zu entwickeln, zu trainieren, zu optimieren und zu verbessern, damit sie besser auf Ihre Anfragen reagieren.“ Eine Konsequenz aus der Bauart von LLMs aber ist, dass sich der Output generativer Modelle nicht kontrollieren lässt; es gibt dazu bei den großen Modellen schlicht zu viele Möglichkeiten. Wenn das LLM auf privaten oder vertraulichen Daten trainiert wurde und wird, kann das dazu führen, dass diese Daten offengelegt werden und vertrauliche Informationen preisgegeben werden. Daher sollten bereits die Trainingsdaten den Datenschutzbestimmungen entsprechen, und daher wird immer wieder Transparenz im Hinblick auf Trainingsdaten gefordert.

Konsequenterweise warnt Google in seinen Datenschutzbestimmungen zu Bard die Nutzer:innen des Modells davor, dieses mit sensitiven Daten zu füttern: „Geben Sie in Ihren Unterhaltungen mit Bard keine vertraulichen Informationen und keine Daten an, die Prüfer nicht sehen sollen“. Das ist insofern interessant, als der KI-Hype mit solchen Begriffen wie „disruption“ befeuert wird, zugleich aber unklar bleibt, wie das Geschäftsmodell aussehen soll, mit dem die big tech-Unternehmen mittelfristig Gewinne generieren wollen – und wie denn für durchschnittliche Nutzer:innen genau der Anwendungsfall aussehen soll. Ein Anwendungsfall allerdings besteht in der Generierung von alltäglich benötigten Texten, nämlich von wohlformulierten Bewerbungsschreiben. Lädt man dazu allerdings den eigenen Lebenslauf hoch, füttert man nur wieder den Kuckuck. Und das ist nicht in unser aller Sinne: Datenschutz ist schließlich (auch) ein Gemeingut.

Mensch-Maschine-Wahrnehmung

Der Mensch sucht sich selbst in nicht-menschlichen Lebewesen und in unbelebten Artefakten. Affen, die „nächsten Verwandten“, oder Hunde, die „treuesten Begleiter“ sind für ersteres, Roboter sind für letzteres gute Beispiele: Eine menschenähnliche Gestaltung der Roboter-Körper und eine vermenschlichende sprachliche Rahmung ihrer Fähigkeiten unterstützt, so die Hypothese, die Anthropomorphisierung dieser Maschinen und in der Folge auch die Herausbildung von empathischem Verhalten gegenüber Robotern. Die Neigung zur Anthropomorphisierung variiert dabei von Mensch zu Mensch; es gibt „stable individual differences in the tendency to attribute human-like attributes to nonhuman agents“.

Large Language Models (LLMs) werden (bislang) nicht mit menschenähnlichen Körperformen assoziiert. Das heißt aber nicht, dass sie der menschlichen Neigung zur Anthropomorphisierung nicht unterliegen. Schon ein wohl formulierter Satz kann uns zu der fälschlichen Annahme verleiten, dass er von einem rationalen Agenten gesprochen wurde. LLMs sind mittlerweile in der Lage, menschliche Sprache hervorragend nachzubilden. Sie wurden auf sprachliche Regeln und Muster trainiert und beherrschen diese ausgezeichnet. Die Kenntnis statistischer Regelmäßigkeiten der Sprache ermöglicht aber kein „Verstehen“. Auch die Fähigkeit, Sprache adäquat im sozialen Kontext anzuwenden, ist bei LLMs noch lückenhaft ausgebildet. Dafür fehlt ihnen das notwendige Weltwissen, der sensorische Zugang zur Welt und jenes Wissen, das wir als „gesunden Menschenverstand“ beschreiben. Dass wir dennoch dazu neigen, den von generativen vortrainierten Sprachmodellen (generative pretrained transformers, GPTs) produzierten Text als menschliche Äußerungen zu verstehen, liegt zum einen daran, dass diese Sprachmodelle auf sehr großen Textmengen des 21. Jahrhunderts trainiert wurden und daher unseren zeitgenössischen Diskurs perfekt nachbilden können. Entspricht die Art und Weise, wie über Sprache Bedeutung hergestellt wird, unseren alltäglichen Gewohnheiten, dann kann es nicht überraschen, dass wir dem Produzenten eines gut gemachten Textes „Intelligenz“, „Intentionalität“ oder sogar „Identität“ zuschreiben. Insofern bestätigen LLMs die strukturalistischen Theorien der zweiten Hälfte des 20. Jahrhunderts, dass Sprache ein System ist, das den Rahmen dessen, was artikuliert und damit letzten Endes auch gedacht werden kann, festlegt und begrenzt. Und insofern scheinen LLMs auch Roland Barthes‘ These vom „Tod des Autors“ zu bekräftigen. Die unendliche Rekombination des vorhandenen Wortmaterials und die Ergänzung der wahrscheinlichsten Wörter und Sätze scheinen zu genügen, dass wir uns im Textoutput wiedererkennen.

Zum anderen unterstützt die spezifische Bauart von Chatbots die Anthropomorphisierung. ChatGPT etwa wurde auf zehntausenden von Frage-Antwort-Paaren trainiert. Das sogenannte „Instruction Fine-tuning“ sorgt dafür, dass das Modell Textsequenzen in einem bestimmten Format generiert. Das LLM interpretiert den Prompt als Instruktion, unterscheidet die Eingabe der Gesprächspartner:in oder Fragesteller:in von dem Text des Sprachmodells und zieht Rückschlüsse auf die menschlichen Teilnehmer:innen. Das hat zum einen zur Folge, dass das Sprachmodell in der Lage ist, den generierten Text an das menschliche Gegenüber anzupassen und Soziolekte zu imitieren, zum anderen entsteht beim Menschen die kognitive Illusion eines Dialogs. Das Interface solcher Apps wie ChatGPT unterstützt diese Illusion noch; es ist wie all die anderen Interfaces gestaltet, die für menschliche Konversationen benutzt werden. Wir Menschen folgen dann unseren Gewohnheiten und ergänzen im Dialog mit dem Chatbot jenen sozialen Kontext, der für eine Unterhaltung charakteristisch ist, und unterstellen der anderen Seite Intentionalität. ChatGPT schließlich wurde als fiktionale Figur trainiert, die Antworten in der Ich-Form gibt. Daher produziert das Sprachmodell Aussagen über sich selbst, etwa über sein ethisch-moralisches Verhalten, über seine Leistungsfähigkeit, Datenschutz und die verwendeten Trainingsdaten. Fragt ein/e NutzerIn nach unangemessenem Output, lehnt das Sprachmodell höflich ab. Diese Aussagen können daher am ehesten als Echo des vorgenommenen Trainings verstanden werden, als das, was OpenAI uns über diese Technologie weismachen möchte. Die Dialogform und die in der Ich-Form berichtende fiktionale Figur stellen die einzigen Möglichkeiten dar, wie OpenAI den Output des Sprachmodells kontrollieren kann.

Das alles lässt sich zusammengefasst „anthropomorphism by design“ nennen. Kein Wunder also, dass wir Menschen dazu neigen, auch einem körperlosen Sprachmodell menschliche Eigenschaften zuzuschreiben. Während wir den Umgang mit derartigen Chatbots erlernen, dürfen wir aber nicht der Illusion erliegen, es mit einem menschlichen Gegenüber zu tun zu haben. Empathische Aussagen oder ausformulierte Emotionen des Bots sind Simulationen, die äußerst problematisch werden können, wenn wir beispielsweise den Bot mit einer Therapeut:in verwechseln. Auch die Annahme, ein Sprachmodell könnte geeignet sein, Entscheidungen zu treffen und daher die Rolle von Rechtsanwält:innen, Ärzt:innen oder Lehrer:innen übernehmen, ist irreführend: Die Verantwortung für solche Entscheidungen übernehmen letzten Endes immer noch Menschen. Daher dürfen wir uns vom anthropomorphisierenden Design nicht täuschen lassen. Die Wahrnehmung, der Mensch habe etwas anderes als eine Maschine gegenüber, ist trügerisch: Da ist niemand.

It’s the statistics, stupid

„It’s the statistics, stupid“, könnte man formulieren, wenn es um den Umgang mit generativen vortrainierten Sprachmodellen (generative pretrained transformer, GPT) geht. Den müssen wir jedoch alle noch lernen, ein Jahr nach der Präsentation von ChatGPT. Statistische Zusammenhänge bilden den Schlüssel, um zu begreifen, wie stochastische Vorhersagemodelle funktionieren und was sie zu leisten imstande sind.

Einfach erklärt besteht maschinelles Lernen darin, dass einer Maschine Daten gezeigt werden, auf deren Grundlage sie lernt bzw. sich merkt, was mit was zusammenhängt. Diese Daten nennt man den Trainingsdatensatz. Hat die Maschine die Zusammenhänge gelernt, dann zeigt man ihr einen Testdatensatz, d.h. Daten, die sie noch nicht gesehen hat. Am Ergebnis lässt sich bemessen, wie gut eine Maschine die Zusammenhänge gelernt hat. Grundsätzlich gilt dabei: Aus möglichst vielen und repräsentativen Ausgangsdaten (d.h. Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere, ungesehene Daten anwenden zu können. Die Qualität eines solchen Modells hängt also immer davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Large Language Models (LLMs) werden darauf trainiert, Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben und die Illusion eines Dialogs zu erzeugen. Die Maschine bekommt dabei sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, etwa: „It’s the [mask], stupid“. Auf die Frage: „What is this election about?“ macht das Modell dann eine Vorhersage, welches Wort – basierend auf den Trainingsdaten – an der Stelle von [mask] am wahrscheinlichsten stehen würde, hier also „economy“. Im Prinzip könnte hier genauso gut „deficit“, „money“ oder eben „statistics“ stehen, aber „economy“ kommt mit Abstand am häufigsten in den Trainingsdaten vor und ist daher das wahrscheinlichste Wort. Das Sprachmodell kombiniert dabei Wörter, die im Trainingsdatensatz oft in ähnlichen Zusammenhängen auftauchen. Dasselbe trifft für ganze Sätze oder auch längere Texte zu.

Dass LLMs Wahrscheinlichkeiten vorhersagen, hat indes gravierende Konsequenzen. Beispielsweise sagt die Tatsache, dass der von einem Modell vorhergesagte Satz wahrscheinlich ist, nichts darüber aus, ob dieser Satz wahr oder falsch ist. Die erzeugten Texte können also auch falsche Aussagen wie etwa veraltete oder falsche Informationen oder Fiktionen beinhalten. Sprachmodelle wie ChatGPT lernen keine Muster, anhand derer der Wahrheitsgehalt einer Aussage bewertet werden kann. Daher gehört es zur Aufgabe der Menschen, die den Chatbot benutzen, die Glaubwürdigkeit bzw. den Wahrheitsgehalt der Aussage zu überprüfen und zu kontextualisieren. Diesen Umgang sollten wir alle noch lernen, ebenso wie wir es „damals“ gelernt haben, die Verlässlichkeit einer Quelle zu überprüfen, die als Ergebnis einer Google-Suche präsentiert wird. Für einige Lebensbereiche ist die Unterscheidung wahr/falsch zentral, beispielsweise für die Wissenschaft. Ein generatives Modell, das in der Lage ist, wissenschaftliche Texte zu produzieren, aber nicht zwischen wahr und falsch unterscheiden kann, muss daher zwangsläufig scheitern – so wie es bei dem von Meta präsentierten Modell „Galactica“ der Fall war, das immerhin auf Grundlage von 48 Millionen wissenschaftlichen Artikeln trainiert worden war. Folgerichtig wird so ein Modell auch Fragen nach guter wissenschaftlicher Praxis aufwerfen. Da Wissenschaft ganz wesentlich ein System von Referenzen ist, stellt das Faktum, dass generative Modelle wie ChatGPT Literaturnachweise im Zweifelsfall ‚erdichtet‘ (d.h. eine wahrscheinliche Folge von Wörtern erzeugt), ein echtes Problem dar. Es kann daher nicht überraschen, dass das Wort „halluzinieren“ vom Cambridge Dictionary zum Wort des Jahres 2023 gekürt worden ist.

Darüber hinaus gilt: Der Wahrheitsgehalt von Fakten ist abhängig vom Kontext. Das mag zunächst einmal merkwürdig klingen. Schon die banale Frage: „Was ist die Hauptstadt der Bundesrepublik Deutschland?“ aber zeigt, dass die Antwort unterschiedlich sein kann. Noch vor etwas mehr als 30 Jahren wäre „Bonn am Rhein“ richtig gewesen. Und die Antwort auf die Frage „What is this election about?“ würde heute vermutlich anders ausfallen als vor 30 Jahren (Spoilervorschlag: Oligarchie vs. Demokratie). Im Hinblick auf die Wissenschaft wird es noch komplexer: Zum wissenschaftlichen Erkenntnisfortschritt gehört es, dass Aussagen, die noch vor einigen Jahrzehnten als wahr und faktisch angesehen wurden, heute als überholt gelten. Auch für Programmiercode gilt, dass es Menschen benötigt, die den von einem generativen Modell erzeugten Code überprüfen. Das ist der Grund, warum eine der wichtigsten Plattformen für Softwareentwickler, Stackoverflow, bis heute keine Antworten zulässt, die von solchen Modellen erzeugt wurden, denn es besteht die realistische Gefahr, dass sie falsche oder irreführende Informationen bzw. schädlichen Code bereitstellen. LLMs können den Wahrheitsgehalt einer Aussage nicht überprüfen, weil sie nicht, wie Menschen, über Weltwissen verfügen und daher auch keinen Abgleich mit dem relevanten Kontext vornehmen können.

Jenseits von Wissenschaft und Softwareentwicklung besteht ein ernstzunehmendes Risiko von Sprachmodellen ganz generell in der Erzeugung von Falschinformationen. Werden solche Modelle dazu benutzt, um (sachlich falsche) Inhalte zu erzeugen, die über die sozialen Medien verbreitet werden oder die Kommentarspalten von Nachrichtenseiten füllen, kann das gravierende Konsequenzen haben – sie können die Polarisierung und das Misstrauen innerhalb einer Gesellschaft verstärken oder geteilte Grundüberzeugungen untergraben. Das kann erhebliche politische Konsequenzen haben: Im Jahr 2024 werden beispielsweise in den USA und in Indien neue Regierungen gewählt, und wir können davon ausgehen, dass diese Wahlkämpfe wesentlich durch die in den sozialen Medien bereitgestellten Inhalte entschieden werden. Is it the stupid statistics?