Offenheit, Effizienz und geschlossene Systeme
Das Konzept der Datenräume, das die Europäische Kommission verfolgt, ist nicht nur ein technisches; es impliziert auch eine politische Verfasstheit. Datenräume wie GAIA-X benötigen keine zentralisierte Verwaltung. Der Betrieb eines solchen Datenraumes kann im Rahmen einer Föderation erfolgen, die die Mittel zur Kontrolle der Datenintegrität und der Datenvertrauenswürdigkeit herstellt. Der Verbund, der den Datenraum betreibt, entspricht daher eher der Europäischen Union (d.h. einem Staatenverbund) als einer zentralistisch organisierten Demokratie. Und Vertrauenswürdigkeit ist nicht nur im Hinblick auf Daten und machine learning-Modelle etwas, was Kulturerbe-Einrichtungen auszeichnet. Solche Institutionen erfüllen ihre Aufgabe auf der Grundlage des Vertrauens, das die Menschen in sie setzen, ein Vertrauen, das über Jahrzehnte oder Jahrhunderte gewachsen und Ausdruck der Überzeugung der Menschen ist, dass diese renommierten und altehrwürdigen Institutionen die richtigen Entscheidungen treffen und beispielsweise die richtige Auswahl bei der Akquisition ihrer Objekte treffen.
Das politische Konzept der Datenräume steht damit in klarem Gegensatz zu den hierarchischen und undurchsichtigen Strukturen von big tech-Konzernen. Im Hinblick auf Daten und machine learning-Modelle ist bei den einschlägigen Konzernen (Alphabet, Meta, Amazon, Microsoft) seit den 2010er Jahren eine deutliche Zentralisierungsbewegung zu beobachten, vor allem im Hinblick auf Forschung und Entwicklung sowie die Bereitstellung von Infrastruktur. Eine Studie aus dem Jahr 2022 zu den Werten, die in der Forschung zu maschinellem Lernen zentral sind, hebt zwei Einsichten hervor: Zum einen nimmt die Präsenz der großen Tech-Konzerne in den 100 meistzitierten Studien, die im Rahmen der zwei bedeutendsten machine learning-Konferenzen publiziert wurden, massiv zu. „For example, in 2008/09, 24% of these top cited papers had corporate affiliated authors, and in 2018/19 this statistic more than doubled, to 55%. Moreover, of these corporations connected to influential papers, the presence of ‚big-tech‘ firms, such as Google and Microsoft, more than tripled from 21% to 66%.“ Damit sind die Tech-Firmen nahezu genauso häufig an der wichtigsten Forschung beteiligt wie die bedeutendsten Universitäten. Die Perspektivierung der Konsequenzen dieser Privatisierung der Forschung für die Aufteilung der Wissensproduktion in westlichen Gesellschaften wären eigene Studien wert. Zum anderen hebt die Studie von Birhane et al. einen Wert hervor, der in den untersuchten 100 Forschungsbeiträgen neben anderen immer wieder hervorgehoben wird: Effizienz. Das Lob der Effizienz ist in diesem Fall nicht neutral, denn es favorisiert diejenigen Institutionen, die in der Lage sind, stetig wachsende Datenmengen zu prozessieren und die dafür notwendigen Ressourcen zu beschaffen und zu betreiben. Mit anderen Worten: Die Hervorhebung eines technisch klingenden Werts wie Effizienz „facilitates and encourages the most powerful actors to scale up their computation to ever higher orders of magnitude, making their models even less accessible to those without resources to use them and decreasing the ability to compete with them.“
Damit ist bereits der zweite Aspekt angesprochen, die Verfügungsmacht über Infrastruktur. Zweifellos gibt es bereits jetzt einen „compute divide“ zwischen den big tech-Konzernen und beispielsweise den Elite-Universitäten. Forschung und Entwicklung im Bereich maschinellen Lernens ist aktuell in hohem Maße von der von einigen wenigen Akteuren bereitgestellten Infrastruktur abhängig. Dieser Sachverhalt hat auch Auswirkungen auf die offene Bereitstellung von Modellen. Wenn sich Offenheit als Frage des Zugangs zu Ressourcen darstellt, wird Umfang (scale) zu einem Problem für Offenheit: Wirklich offene KI-Systeme sind nicht möglich, wenn die Ressourcen, die benötigt werden, um sie von Grund auf herzustellen, und die für ihren Einsatz in großem Maßstab erforderlich sind, geschlossen bleiben, weil sie nur denjenigen zur Verfügung stehen, die über diese signifikanten Ressourcen verfügen. Und das sind fast immer Konzerne. Eine jüngst veröffentlichte Studie zur Machtkonzentration und politischen Ökonomie von offener KI kommt daher zu dem Schluss, dass open source und Zentralisierung einander ausschließen: „only a few large tech corporations can create and deploy large AI systems at scale, from start to finish – a far cry from the decentralized and modifiable infrastructure that once animated the dream of the free/open source software movement“. Ein Firmenname wie „OpenAI“ wird damit zum Oxymoron.
Vor diesem Hintergrund wird deutlich, dass die europäische Konzeption von Datenräumen eine Gegenbewegung zu den monopolistischen Strukturen der Tech-Konzerne darstellt. Die Offenheit, Datensouveränität und die Vertrauenswürdigkeit, die diese Datenräume repräsentieren, werden zwar nicht die Möglichkeit eröffnen, Infrastrukturen aufzubauen, die es mit denen der big tech-Unternehmen aufnehmen können. Sie werden es aber ermöglichen, spezifische Modelle mit klar definierten Aufgabenstellungen zu entwickeln, die effizienter als die von den Tech-Konzernen entwickelten Allzweckanwendungen arbeiten. So könnte der für das Feld maschinellen Lernens zentrale Wert der Effizienz neu codiert werden.