Hungrige Magie
„Any sufficiently advanced technology is indistinguishable from magic“, wußte schon Arthur C. Clarke, und es gehört zum Zauber neuer Technologien, dass ihre Kehrseiten systematisch beschwiegen werden. So ist es auch mit dem Energieverbrauch von großen Sprachmodellen (LLMs): Wie beim Schnitzel, das auf dem Teller der Verbraucher:innen landet und den Zusammenhang zu den Realitäten der Massentierhaltung vergessen macht, ist es auch bei den Wunderwerken künstlicher Intelligenz. Angaben über die zur Erstellung solcher Produkte wie ChatGPT erforderliche Rechenleistung und die verwendeten big data werden nicht gemacht, sei es, um Datenschutz- und urheberrechtliche Probleme nicht allzu offenbar werden zu lassen, sei es, um den Energiehunger und den CO2-Ausstoß beim Training dieser Modelle und ihrem Betrieb nicht quantifizieren zu müssen. Eine seriöse Zeitung wie die Zeit schätzte im März 2023: „Für den Betrieb von ChatGPT fallen […] derzeit Kosten in Höhe von 100.000 bis 700.000 Dollar am Tag an“ und gab „1.287 Gigawattstunden Strom“ oder „Emissionen von geschätzt 502 Tonnen CO2“ für das Training von GPT-3 an (Art. “Hidden Energie”, in: Die Zeit Nr. 14 vom 30.03.2023, S.52). Vor diesem Hintergrund kann nicht verwundern, dass sich nach Angaben der International Energy Authority der Stromverbrauch der big tech-Unternehmen Amazon, Microsoft, Google und Meta zwischen 2017 und 2021 auf 72 TWh verdoppelt hat; diese vier Unternehmen sind zugleich die weltweit größten Anbieter kommerziell verfügbarer Cloud-Rechenkapazität.
Vor kurzem wurde nun von Sasha Luccioni, Yacine Jernite und Emma Strubell die erste systematische Studie zum Energieverbrauch und CO2-Ausstoß verschiedener machine learning-Modelle während der Inferenz-Phase vorgelegt. Inferenz meint hier den Betrieb der Modelle, d.h. den Zeitraum des Einsatzes nach dem Training und Finetuning der Modelle. Inferenz macht etwa 80 bis 90 Prozent der Kosten maschinellen Lernens aus, auf einer Cloud-Computing-Plattform wie Amazon Web Services (AWS) nach Angaben des Betreibers etwa 90 Prozent. Die Studie von Luccioni et al. unterstreicht dabei die Unterschiede zwischen den verschiedenen machine learning-Anwendungen: Die Strom- und CO2-Intensität ist bei textbasierten Anwendungen massiv geringer als bei bildbasierten Aufgaben; ebenso ist sie bei diskriminativen Aufgabenstellung massiv geringer als bei generativen, dazu gehören die generative pretrained transformers, GPTs. Die Unterschiede zwischen den verschiedenen Modellen sind dabei beträchtlich: „Das Aufladen eines durchschnittlichen Smartphones erfordert 0,012 kWh Energie, was bedeutet, dass das effizienteste Modell zur Texterzeugung für 1.000 Inferenzen so viel Energie verbraucht wie 16 % einer vollen Smartphone-Ladung, während das am wenigsten effiziente Modell zur Bilderzeugung so viel Energie verbraucht wie 950 Smartphone-Ladungen (11,49 kWh) oder fast eine Ladung pro Bilderzeugung.“ Je größer das Modell ist, desto schneller wird während der Inferenz-Phase genauso viel Strom verbraucht bzw. CO2 ausgestoßen wie während der Trainingsphase.
Da ‚Allzweckanwendungen‘ für dieselbe Aufgabenstellung mehr Energie verbrauchen als Modelle, die für einen spezifischen Zweck trainiert wurden, weisen Luccioni et al. auf mehrere Zielkonflikte hin: Zum einen auf den Zielkonflikt zwischen Modellgröße vs. Stromverbrauch, denn der Nutzen von multi purpose-Modellen muss gegen ihre Stromkosten und die CO2-Emissionen abgewogen werden. Zum anderen auf den Zielkonflikt zwischen Fehlerrate/Effizienz und Stromverbrauch über die verschiedenen Modelle hinweg, denn je geringer die Fehlerrate bzw. je höher die Effizienz eines Modells, desto geringer ist auch der Stromverbrauch spezifischer Modelle, während hingegen multi purpose-Modelle zwar viele verschiedene Aufgabenstellungen erfüllen können, hierbei jedoch eine höhere Fehlerrate und einen höheren Stromverbrauch aufweisen. Diese empirisch belegten Befunde stellen nach Ansicht der Autorinnen beispielsweise in Frage, ob es angesichts des Energiebedarfs solcher multi purpose-Modelle wie Bard und Bing wirklich notwendig ist, diese zu betreiben, wenn sie in Kontexten wie Websuche und Navigation eingesetzt werden, d.h. in Situationen, in denen die Aufgabenstellungen klar definiert sind.
Der Energiehunger großer Allzweck-Modelle zeigt den führenden Unternehmer:innen und Investor:innen der westlichen big tech-Konzerne nicht etwa die „Grenzen des Wachstums“ auf, wie sie der Club of Rome vor über 50 Jahren benannte. Im Gegenteil, CEOs wie Jeff Bezos, zu dessen Imperium auch die größte Cloud-Computing-Plattform AWS gehört, fürchten eher die Stagnation: „We will have to stop growing, which I think is a very bad future.“ Visionen wie das Metaverse sind im Hinblick auf den Ressourcenverbrauch und die Emissionen äußerst kostspielig, und man darf mit Recht fragen, ob KI-Anwendungen in der Zukunft wirklich der gesamten Menschheit oder nur denjenigen Firmen oder Einzelpersonen, die es sich leisten können, zur Verfügung stehen werden. Nichts von alledem ist auch nur annähernd nachhaltig. Angesichts des wachsenden Stromverbrauchs der westlichen big tech-Unternehmen und der Tatsache, dass bereits jetzt die Kerninfrastruktur für die Entwicklung von KI-Produkten durch einige wenige Akteure zentralisiert ist, bleibt derzeit unklar, wohin die Entwicklung ‚magischer‘ KI-Anwendungen führen wird. Die Wissenschaftlerin Kate Crawford hat dazu in ihrem Buch „Atlas of AI“ eine eigene Antwort gegeben: Ins All, denn dort gibt es die Ressourcen, die diese Konzerne benötigen.