It’s the statistics, stupid

„It’s the statistics, stupid“, könnte man formulieren, wenn es um den Umgang mit generativen vortrainierten Sprachmodellen (generative pretrained transformer, GPT) geht. Den müssen wir jedoch alle noch lernen, ein Jahr nach der Präsentation von ChatGPT. Statistische Zusammenhänge bilden den Schlüssel, um zu begreifen, wie stochastische Vorhersagemodelle funktionieren und was sie zu leisten imstande sind.

Einfach erklärt besteht maschinelles Lernen darin, dass einer Maschine Daten gezeigt werden, auf deren Grundlage sie lernt bzw. sich merkt, was mit was zusammenhängt. Diese Daten nennt man den Trainingsdatensatz. Hat die Maschine die Zusammenhänge gelernt, dann zeigt man ihr einen Testdatensatz, d.h. Daten, die sie noch nicht gesehen hat. Am Ergebnis lässt sich bemessen, wie gut eine Maschine die Zusammenhänge gelernt hat. Grundsätzlich gilt dabei: Aus möglichst vielen und repräsentativen Ausgangsdaten (d.h. Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere, ungesehene Daten anwenden zu können. Die Qualität eines solchen Modells hängt also immer davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Large Language Models (LLMs) werden darauf trainiert, Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben und die Illusion eines Dialogs zu erzeugen. Die Maschine bekommt dabei sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, etwa: „It’s the [mask], stupid“. Auf die Frage: „What is this election about?“ macht das Modell dann eine Vorhersage, welches Wort – basierend auf den Trainingsdaten – an der Stelle von [mask] am wahrscheinlichsten stehen würde, hier also „economy“. Im Prinzip könnte hier genauso gut „deficit“, „money“ oder eben „statistics“ stehen, aber „economy“ kommt mit Abstand am häufigsten in den Trainingsdaten vor und ist daher das wahrscheinlichste Wort. Das Sprachmodell kombiniert dabei Wörter, die im Trainingsdatensatz oft in ähnlichen Zusammenhängen auftauchen. Dasselbe trifft für ganze Sätze oder auch längere Texte zu.

Dass LLMs Wahrscheinlichkeiten vorhersagen, hat indes gravierende Konsequenzen. Beispielsweise sagt die Tatsache, dass der von einem Modell vorhergesagte Satz wahrscheinlich ist, nichts darüber aus, ob dieser Satz wahr oder falsch ist. Die erzeugten Texte können also auch falsche Aussagen wie etwa veraltete oder falsche Informationen oder Fiktionen beinhalten. Sprachmodelle wie ChatGPT lernen keine Muster, anhand derer der Wahrheitsgehalt einer Aussage bewertet werden kann. Daher gehört es zur Aufgabe der Menschen, die den Chatbot benutzen, die Glaubwürdigkeit bzw. den Wahrheitsgehalt der Aussage zu überprüfen und zu kontextualisieren. Diesen Umgang sollten wir alle noch lernen, ebenso wie wir es „damals“ gelernt haben, die Verlässlichkeit einer Quelle zu überprüfen, die als Ergebnis einer Google-Suche präsentiert wird. Für einige Lebensbereiche ist die Unterscheidung wahr/falsch zentral, beispielsweise für die Wissenschaft. Ein generatives Modell, das in der Lage ist, wissenschaftliche Texte zu produzieren, aber nicht zwischen wahr und falsch unterscheiden kann, muss daher zwangsläufig scheitern – so wie es bei dem von Meta präsentierten Modell „Galactica“ der Fall war, das immerhin auf Grundlage von 48 Millionen wissenschaftlichen Artikeln trainiert worden war. Folgerichtig wird so ein Modell auch Fragen nach guter wissenschaftlicher Praxis aufwerfen. Da Wissenschaft ganz wesentlich ein System von Referenzen ist, stellt das Faktum, dass generative Modelle wie ChatGPT Literaturnachweise im Zweifelsfall ‚erdichtet‘ (d.h. eine wahrscheinliche Folge von Wörtern erzeugt), ein echtes Problem dar. Es kann daher nicht überraschen, dass das Wort „halluzinieren“ vom Cambridge Dictionary zum Wort des Jahres 2023 gekürt worden ist.

Darüber hinaus gilt: Der Wahrheitsgehalt von Fakten ist abhängig vom Kontext. Das mag zunächst einmal merkwürdig klingen. Schon die banale Frage: „Was ist die Hauptstadt der Bundesrepublik Deutschland?“ aber zeigt, dass die Antwort unterschiedlich sein kann. Noch vor etwas mehr als 30 Jahren wäre „Bonn am Rhein“ richtig gewesen. Und die Antwort auf die Frage „What is this election about?“ würde heute vermutlich anders ausfallen als vor 30 Jahren (Spoilervorschlag: Oligarchie vs. Demokratie). Im Hinblick auf die Wissenschaft wird es noch komplexer: Zum wissenschaftlichen Erkenntnisfortschritt gehört es, dass Aussagen, die noch vor einigen Jahrzehnten als wahr und faktisch angesehen wurden, heute als überholt gelten. Auch für Programmiercode gilt, dass es Menschen benötigt, die den von einem generativen Modell erzeugten Code überprüfen. Das ist der Grund, warum eine der wichtigsten Plattformen für Softwareentwickler, Stackoverflow, bis heute keine Antworten zulässt, die von solchen Modellen erzeugt wurden, denn es besteht die realistische Gefahr, dass sie falsche oder irreführende Informationen bzw. schädlichen Code bereitstellen. LLMs können den Wahrheitsgehalt einer Aussage nicht überprüfen, weil sie nicht, wie Menschen, über Weltwissen verfügen und daher auch keinen Abgleich mit dem relevanten Kontext vornehmen können.

Jenseits von Wissenschaft und Softwareentwicklung besteht ein ernstzunehmendes Risiko von Sprachmodellen ganz generell in der Erzeugung von Falschinformationen. Werden solche Modelle dazu benutzt, um (sachlich falsche) Inhalte zu erzeugen, die über die sozialen Medien verbreitet werden oder die Kommentarspalten von Nachrichtenseiten füllen, kann das gravierende Konsequenzen haben – sie können die Polarisierung und das Misstrauen innerhalb einer Gesellschaft verstärken oder geteilte Grundüberzeugungen untergraben. Das kann erhebliche politische Konsequenzen haben: Im Jahr 2024 werden beispielsweise in den USA und in Indien neue Regierungen gewählt, und wir können davon ausgehen, dass diese Wahlkämpfe wesentlich durch die in den sozialen Medien bereitgestellten Inhalte entschieden werden. Is it the stupid statistics?

0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert