Den Kuckuck füttern
Large Language Models (LLMs) kombinieren Wörter, die im Trainingsdatensatz häufig in ähnlichen Zusammenhängen auftauchen; auf dieser Grundlage sagen sie das wahrscheinlichste Wort bzw. den wahrscheinlichsten Satz vorher. Je größer der Trainingsdatensatz ist, desto mehr Kombinationsmöglichkeiten gibt es, und desto ‚kreativer‘ wirkt das Modell. Die schiere Größe von Modellen wie GPT-4 stellt aber bereits einen schwer einholbaren Wettbewerbsvorteil dar: Es gibt nur eine Handvoll von Unternehmen weltweit, die exorbitante Rechenleistung, Verfügung über big data und enorme Marktreichweite miteinander kombinieren können, um ein derartiges Produkt herstellen zu können. Am aktuellen Konkurrenzkampf sind keine Forschungseinrichtungen beteiligt, wohl aber die big tech-Unternehmen Microsoft, Meta und Google. Wenige Akteure und wenige Modelle bedeuten allerdings auch einen „Wettlauf nach unten, was Sicherheit und Ethik betrifft“, denn die Verwendung von big data hat im Hinblick auf LLMs auch zumeist zur Folge, dass die Trainingsdaten sensible und vertrauliche Informationen sowie urheberrechtlich geschütztes Material enthalten. In zahlreichen Gerichtsverfahren wird den Tech-Giganten vorgeworfen, die Daten von Millionen von Nutzer:innen ohne deren Zustimmung im Netz eingesammelt und gegen das Urheberrecht zu verstoßen, um KI-Modelle zu trainieren.
Die Nutzer:innen des Internets haben also bereits dazu beigetragen, das Kuckuckskind zu füttern. Google machte diese Tatsache auf indirekte Weise dadurch bekannt, dass es im Juni 2023 seine Datenschutzerklärung aktualisierte: „wir nutzen Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen weiterzuentwickeln, die diese grundlegenden Technologien nutzen – wie Google Übersetzer, Bard und Cloud AI.“ Weniger bekannt ist jedoch die Tatsache, dass die großen Tech-Unternehmen ihre Modelle wie Bard auch damit trainieren, was ihnen die Nutzer:innen anvertrauen. Mit anderen Worten: Alles, was man einem Chatbot erzählt, kann wiederum als Trainingsmaterial verwendet werden. In Googles eigenen Worten klingt das dann so: „Wir nutzen Ihre Interaktionen mit KI-Modellen und Technologien wie Bard, um diese Modelle zu entwickeln, zu trainieren, zu optimieren und zu verbessern, damit sie besser auf Ihre Anfragen reagieren.“ Eine Konsequenz aus der Bauart von LLMs aber ist, dass sich der Output generativer Modelle nicht kontrollieren lässt; es gibt dazu bei den großen Modellen schlicht zu viele Möglichkeiten. Wenn das LLM auf privaten oder vertraulichen Daten trainiert wurde und wird, kann das dazu führen, dass diese Daten offengelegt werden und vertrauliche Informationen preisgegeben werden. Daher sollten bereits die Trainingsdaten den Datenschutzbestimmungen entsprechen, und daher wird immer wieder Transparenz im Hinblick auf Trainingsdaten gefordert.
Konsequenterweise warnt Google in seinen Datenschutzbestimmungen zu Bard die Nutzer:innen des Modells davor, dieses mit sensitiven Daten zu füttern: „Geben Sie in Ihren Unterhaltungen mit Bard keine vertraulichen Informationen und keine Daten an, die Prüfer nicht sehen sollen“. Das ist insofern interessant, als der KI-Hype mit solchen Begriffen wie „disruption“ befeuert wird, zugleich aber unklar bleibt, wie das Geschäftsmodell aussehen soll, mit dem die big tech-Unternehmen mittelfristig Gewinne generieren wollen – und wie denn für durchschnittliche Nutzer:innen genau der Anwendungsfall aussehen soll. Ein Anwendungsfall allerdings besteht in der Generierung von alltäglich benötigten Texten, nämlich von wohlformulierten Bewerbungsschreiben. Lädt man dazu allerdings den eigenen Lebenslauf hoch, füttert man nur wieder den Kuckuck. Und das ist nicht in unser aller Sinne: Datenschutz ist schließlich (auch) ein Gemeingut.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!