Schlagwortarchiv für: Large Language Models

It’s the statistics, stupid

„It’s the statistics, stupid“, könnte man formulieren, wenn es um den Umgang mit generativen vortrainierten Sprachmodellen (generative pretrained transformer, GPT) geht. Den müssen wir jedoch alle noch lernen, ein Jahr nach der Präsentation von ChatGPT. Statistische Zusammenhänge bilden den Schlüssel, um zu begreifen, wie stochastische Vorhersagemodelle funktionieren und was sie zu leisten imstande sind.

Einfach erklärt besteht maschinelles Lernen darin, dass einer Maschine Daten gezeigt werden, auf deren Grundlage sie lernt bzw. sich merkt, was mit was zusammenhängt. Diese Daten nennt man den Trainingsdatensatz. Hat die Maschine die Zusammenhänge gelernt, dann zeigt man ihr einen Testdatensatz, d.h. Daten, die sie noch nicht gesehen hat. Am Ergebnis lässt sich bemessen, wie gut eine Maschine die Zusammenhänge gelernt hat. Grundsätzlich gilt dabei: Aus möglichst vielen und repräsentativen Ausgangsdaten (d.h. Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere, ungesehene Daten anwenden zu können. Die Qualität eines solchen Modells hängt also immer davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Large Language Models (LLMs) werden darauf trainiert, Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben und die Illusion eines Dialogs zu erzeugen. Die Maschine bekommt dabei sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, etwa: „It’s the [mask], stupid“. Auf die Frage: „What is this election about?“ macht das Modell dann eine Vorhersage, welches Wort – basierend auf den Trainingsdaten – an der Stelle von [mask] am wahrscheinlichsten stehen würde, hier also „economy“. Im Prinzip könnte hier genauso gut „deficit“, „money“ oder eben „statistics“ stehen, aber „economy“ kommt mit Abstand am häufigsten in den Trainingsdaten vor und ist daher das wahrscheinlichste Wort. Das Sprachmodell kombiniert dabei Wörter, die im Trainingsdatensatz oft in ähnlichen Zusammenhängen auftauchen. Dasselbe trifft für ganze Sätze oder auch längere Texte zu.

Dass LLMs Wahrscheinlichkeiten vorhersagen, hat indes gravierende Konsequenzen. Beispielsweise sagt die Tatsache, dass der von einem Modell vorhergesagte Satz wahrscheinlich ist, nichts darüber aus, ob dieser Satz wahr oder falsch ist. Die erzeugten Texte können also auch falsche Aussagen wie etwa veraltete oder falsche Informationen oder Fiktionen beinhalten. Sprachmodelle wie ChatGPT lernen keine Muster, anhand derer der Wahrheitsgehalt einer Aussage bewertet werden kann. Daher gehört es zur Aufgabe der Menschen, die den Chatbot benutzen, die Glaubwürdigkeit bzw. den Wahrheitsgehalt der Aussage zu überprüfen und zu kontextualisieren. Diesen Umgang sollten wir alle noch lernen, ebenso wie wir es „damals“ gelernt haben, die Verlässlichkeit einer Quelle zu überprüfen, die als Ergebnis einer Google-Suche präsentiert wird. Für einige Lebensbereiche ist die Unterscheidung wahr/falsch zentral, beispielsweise für die Wissenschaft. Ein generatives Modell, das in der Lage ist, wissenschaftliche Texte zu produzieren, aber nicht zwischen wahr und falsch unterscheiden kann, muss daher zwangsläufig scheitern – so wie es bei dem von Meta präsentierten Modell „Galactica“ der Fall war, das immerhin auf Grundlage von 48 Millionen wissenschaftlichen Artikeln trainiert worden war. Folgerichtig wird so ein Modell auch Fragen nach guter wissenschaftlicher Praxis aufwerfen. Da Wissenschaft ganz wesentlich ein System von Referenzen ist, stellt das Faktum, dass generative Modelle wie ChatGPT Literaturnachweise im Zweifelsfall ‚erdichtet‘ (d.h. eine wahrscheinliche Folge von Wörtern erzeugt), ein echtes Problem dar. Es kann daher nicht überraschen, dass das Wort „halluzinieren“ vom Cambridge Dictionary zum Wort des Jahres 2023 gekürt worden ist.

Darüber hinaus gilt: Der Wahrheitsgehalt von Fakten ist abhängig vom Kontext. Das mag zunächst einmal merkwürdig klingen. Schon die banale Frage: „Was ist die Hauptstadt der Bundesrepublik Deutschland?“ aber zeigt, dass die Antwort unterschiedlich sein kann. Noch vor etwas mehr als 30 Jahren wäre „Bonn am Rhein“ richtig gewesen. Und die Antwort auf die Frage „What is this election about?“ würde heute vermutlich anders ausfallen als vor 30 Jahren (Spoilervorschlag: Oligarchie vs. Demokratie). Im Hinblick auf die Wissenschaft wird es noch komplexer: Zum wissenschaftlichen Erkenntnisfortschritt gehört es, dass Aussagen, die noch vor einigen Jahrzehnten als wahr und faktisch angesehen wurden, heute als überholt gelten. Auch für Programmiercode gilt, dass es Menschen benötigt, die den von einem generativen Modell erzeugten Code überprüfen. Das ist der Grund, warum eine der wichtigsten Plattformen für Softwareentwickler, Stackoverflow, bis heute keine Antworten zulässt, die von solchen Modellen erzeugt wurden, denn es besteht die realistische Gefahr, dass sie falsche oder irreführende Informationen bzw. schädlichen Code bereitstellen. LLMs können den Wahrheitsgehalt einer Aussage nicht überprüfen, weil sie nicht, wie Menschen, über Weltwissen verfügen und daher auch keinen Abgleich mit dem relevanten Kontext vornehmen können.

Jenseits von Wissenschaft und Softwareentwicklung besteht ein ernstzunehmendes Risiko von Sprachmodellen ganz generell in der Erzeugung von Falschinformationen. Werden solche Modelle dazu benutzt, um (sachlich falsche) Inhalte zu erzeugen, die über die sozialen Medien verbreitet werden oder die Kommentarspalten von Nachrichtenseiten füllen, kann das gravierende Konsequenzen haben – sie können die Polarisierung und das Misstrauen innerhalb einer Gesellschaft verstärken oder geteilte Grundüberzeugungen untergraben. Das kann erhebliche politische Konsequenzen haben: Im Jahr 2024 werden beispielsweise in den USA und in Indien neue Regierungen gewählt, und wir können davon ausgehen, dass diese Wahlkämpfe wesentlich durch die in den sozialen Medien bereitgestellten Inhalte entschieden werden. Is it the stupid statistics?

Über die Verwendung von Lizenzen in Zeiten von großen Sprachmodellen

An sich könnte ja alles ganz einfach sein: Kulturerbeeinrichtungen und andere öffentliche Stellen bieten qualitativ hochwertige Daten in großem Umfang an, und das möglichst unter einer permissiven Lizenz wie etwa CC0 oder Public Domain Mark 1.0. Das entspricht der Ausgangsidee: Kulturerbeeinrichtungen werden aus Steuermitteln finanziert, daher sollen ihre Dienstleistungen und Produkte auch allen zugutekommen; im Fall von Daten sollen Innovation, Forschung und natürlich auch private Nutzung ermöglicht werden.

Nun leben wir in Zeiten großer Sprachmodelle und exploitativer Praktiken insbesondere US-amerikanischer Big Tech-Unternehmen. Hier werden in großem Stil Daten aus dem Internet abgesaugt und in großen proprietären Sprachmodellen verarbeitet. Diese Unternehmen sind nicht nur die Innovationstreiber, sondern heben sich z.B. von Forschungseinrichtungen dadurch ab, dass sie über speziell aufbereitete Trainingsdatensätze ebenso verfügen wie über eine exzeptionelle Rechenleistung und die bestbezahltesten Stellen für Entwickler:innen von Algorithmen; dies alles sind teure Zutaten für ein Erfolgsrezept bei kleiner Konkurrenz.

Eine der Schwächen von ChatGPT – und vermutlich auch von GPT-4 – liegt in der mangelnden Verlässlichkeit. Diese Schwäche resultiert aus dem Unvermögen von rein stochastischen  Sprachmodellen, zwischen Fakten und Fiktion zu unterscheiden; aber auch an einem Mangel an Daten. Gerade im Hinblick auf „halluzinierte“ Literaturnachweise sind bibliographische Daten aus Bibliotheken für die Erstellung großer Sprachmodelle sehr attraktiv. Ein weiteres Problem besteht im Mangel an qualitativ hochwertigen Textdaten. Einer jüngst publizierten Studie zufolge werden hochqualitative Textdaten noch vor dem Jahr 2026 erschöpft sein; das liegt vor allem daran, dass es im Internet an Etikette und Orthografie mangelt. Wer aber, wenn nicht die Bibliotheken haben riesige Bestände an qualitativ hochwertigen Textdaten? Nahezu alle hier verfügbaren Inhalte sind durch einen Qualitätsfilter gelaufen, der sich „Verlage“ nennt. Über die intellektuelle Qualität der Bücher mag man geteilter Meinung sein; aber sprachlich und orthographisch ist das, was bis Ende des 20. Jahrhunderts gedruckt wurde (also vor dem Beginn des Self-Publishings), von sehr guter Qualität.

Schließlich noch das liebe Geld: Die Inflation ist wieder da, die Niedrigzinsphase ist vorbei, die erste Silicon Valley-Bank bankrott. Daraus folgt, dass viele dort ansässige Unternehmen bald frisches Geld benötigen; also wird bald monetarisiert werden, um Profite zu erzeugen. Aus bislang noch kostenfrei angebotenen Produkten (wie ChatGPT) werden bald spezifischere neue Modelle erstellt werden, die gegen Bezahlung bedarfsorientierte Services bereitstellen.

Sollen die Kulturerbeinstitutionen als Einrichtungen öffentlichen Rechts nun der Profitmaximierung einiger weniger Unternehmen dienen, indem sie teure und ressourcenintensive (und steuerfinanzierte) Daten kostenlos bereitstellen? Die Antwort ist differenziert und daher kompliziert. Selbstverständlich sollten Daten wie bislang auch unter permissiven Lizenzen bereitgestellt werden. Hier können durchaus auch duale Strategien verwendet werden. Einerseits können die über Schnittstellen wie OAI-PMH oder IIIF bereitgestellten Daten auch weiterhin unter CC0 oder Public Domain-Lizenzen zugänglich sein; technische Zugangsbeschränkungen können über die Steuerung von IP-Adressen oder Downloadmaxima das Absaugen von Daten in großem Stil verhindern. Andererseits können eigene Datenpublikationen erfolgen, die die einzelnen Datensätze bündeln, um Forschung und Innovation zu ermöglichen; solcherart Angebote sind als Datenbankwerke 15 Jahre lang geschützt, und hier können Lizenzen verwendet werden, die ein „NC“ (non-commercial) enthalten und solche Daten für Forschung und Innovation verwendbar machen. Beispielhaft verwendet die Stiftung Preußischer Kulturbesitz eine solche Lizenz (CC-BY-NC-SA) für die digitale Repräsentation eines ihrer Prunkstücke, und auch der (nicht so einfach zu benutzende) 3D-Scan ist unter dieser Lizenz frei verfügbar (download hier).

Interessanterweise hat die Europäische Union den oben beschriebenen Fall im Data Governance Act antizipiert und ein relevantes Instrumentarium eingefügt. Hier gibt es ein Kapitel zur Nutzung von Daten öffentlicher Stellen (Kapitel II, Artikel 6), in dem die Bereitstellung von Daten gegen Gebühren geregelt wird. Darin heißt es, dass die öffentlichen Einrichtungen bei den Gebühren, die sie verlangen, unterscheiden dürfen zwischen privaten Nutzern bzw. kleinen und mittleren Unternehmen einerseits und größeren Unternehmen andererseits, die nicht mehr unter die erstere Definition fallen. Dort schafft man also eine Möglichkeit für Differenzierungen im Rahmen der gewerblichen Nutzer, wobei die Gebühren an den Kosten für die Bereitstellungsinfrastruktur orientiert sein sollen. Im Rechtssystem ist das etwas eher Atypisches, da ja das Gleichbehandlungsprinzip gilt. Kulturerbeeinrichtungen haben damit die EU-Kommissarin für Wettbewerb Margrethe Vestager an ihrer Seite, die 2020 den Data Governance Act präsentiert hat (er ist übrigens ab dem 24. September 2023 anzuwenden). Vestager ist zugleich auch Kommissarin für Digitales und hat in den ersten fünf Jahren ihrer Amtszeit mehr als 15 Milliarden Euro an Kartellstrafen verhängt. Ein politischer Durchsetzungswille scheint also vorhanden zu sein.

Dieser wird im Zweifelsfall auch notwendig sein. Lizenzen wie CC-BY-SA-NC unterbinden die Verwendung öffentlicher Daten für kommerzielle große Sprachmodelle. Da sich die Ersteller von großen Sprachmodellen in einem urheberrechtlichen Minenfeld bewegen und bei anderen Modellen eine Bildagentur oder weitere Rechteinhaber bereits Urheberrechtsklagen eingereicht haben, muss man leider anzweifeln, dass sie in der Zukunft Rücksicht darauf nehmen werden. Die entsprechenden Gerichtsentscheide bleiben in den anhängigen Fällen freilich abzuwarten. Selbst mit reverse engineering ist nämlich nicht einfach nachzuweisen, welche Datensätze in ein großes Sprachmodell eingeflossen sind; daher müsste eine Art Indizienprozess geführt werden. Mittel- und langfristig scheint es daher sinnvoller zu sein, auf die Etablierung von Prüfverfahren und Standards vor der Veröffentlichung von KI-Modellen zu setzen. Dazu gehören die Offenlegung des Trainingsmaterials und -prozesses, seine Evaluierung durch Expert:innen, Code Audits, aber auch eine Beweislastumkehr im Hinblick auf die Lizenzierung des verwendeten Datenmaterials. Solche Prozeduren zum Pflichtbestandteil für die Zulassung kommerzieller KI-Anwendungen zu machen, ist dann tatsächlich Aufgabe der Europäischen Union.

Ein weiterer Weg besteht schließlich darin, Kulturerbedaten in einem eigenen Data Space für Kulturerbe zu publizieren; die Ausschreibung für einen solchen Data Space wurde im vergangenen Herbst auf den Weg gebracht und ist Teil des EU Data Acts. Inwiefern dieser Data Space den Kulturerbeinstitutionen volle Datensouveränität und damit die Möglichkeit gewährt, den Zugriff auf die Datenpublikationen zu steuern, bleibt abzuwarten.