Über Objektivität – und die Brücke zur Wahrheit
Die Statistik genießt hohes Ansehen. Zwar sagt der Volksmund „Traue keiner Statistik, die Du nicht selbst gefälscht hast“, sie gilt aber dennoch häufig als Musterbeispiel einer auf breiter Datengrundlage aufsattelnden Objektivität. Ins Extrem gesteigert wird diese Ansicht noch im Hinblick auf maschinelles Lernen: Machine learning-Modelle sind statistische Lerner. Ein jüngst publizierter Forschungsartikel kritisiert diese Auffassung: „the mythology surrounding ML presents it—and justifies its usage in said contexts over the status quo of human decision-making—as paradigmatically objective in the sense of being free from the influence of human values“ (Andrews et al. 2024).
Dass maschinelles Lernen als Extremfall von Objektivität angesehen wird, hat seinen Ursprung im 19. Jahrhundert. Damals wurden die Grundlagen unseres heutigen Verständnisses von Objektivität gelegt. Menschlicher (und fehlbarer) Subjektivität wurde mechanische Objektivität gegenübergestellt. Maschinen wurden damals die Freiheit von willentlichen Eingriffen zugesprochen, die als die gefährlichsten Aspekte der Subjektivität angesehen wurden (Daston / Galison 2007). So werden bis heute Maschinen – seien es Kameras, Sensoren oder elektronische Geräte, oder auch die Daten, die sie produzieren – zum Sinnbild für die Abschaffung des menschlichen Handelns und zur Verkörperung von Objektivität ohne Subjektivität. Diese Auffassungen halten sich hartnäckig, und es wird erklärungsbedürftig, warum der gesunde Menschenverstand Daten, der Statistik und maschinellem Lernen immer noch Objektivität und Unparteilichkeit zuschreibt.
Die Debatte des 19. Jahrhunderts hat heute ihren Wiedergänger in der Diskussion um Biases. Ganz offensichtlich verträgt sich die Tatsache, dass jeder Datensatz statistische Verzerrungen enthält, schlecht mit der Zuschreibung von Objektivität, die doch insbesondere großen Datensätzen innewohnen soll. Aus statistischer Sicht ist es so, dass ein großer Stichprobenumfang die Signifikanz erhöht; die Effektgröße wird wichtiger. Andererseits bedeutet „groß“ nicht „alles“; man muss sich vielmehr des von den Daten abgedeckten Universums bewusst sein. Statistische Schlussfolgerungen, d.h. Schlussfolgerungen aus Daten über die Grundgesamtheit, können nicht ohne weiteres gezogen werden, wenn die Datensätze nicht so angelegt sind, dass ihre Repräsentativität gewährleistet ist (Kitchin 2019). Ein Artikel aus dem Jahr 2022 hält im Hinblick auf statistische Verzerrungen fest: „Data bias has been defined as ‘a systematic distortion in the data’ that can be measured by ‘contrasting a working data sample with reference samples drawn from different sources or contexts.’ This definition encodes an important premise: that there is an absolute truth value in data and that bias is just a ‘distortion’ from that value. This key premise broadly motivates approaches to ‘debias’ data and ML systems.“ (Miceli et al. 2022). Was nach Objektivität und „absolutem Wahrheitswert“ klingt, weil es auf großen Datensätzen, auf Statistik und machine learning-Modellen beruht, ist aber nicht unbedingt korrekt, denn wenn das Modell die Realität schlecht abbildet, können die Schlussfolgerungen, die man aus den Ergebnissen zieht, falsch sein. Dies ist auch der Grund, warum Cathy O’Neil 2016 einen Algorithmus als „an opinion formalized in code“ bezeichnet hat – er bietet nicht einfach Objektivität, sondern arbeitet auf die Zwecke und Ziele hin, für die er geschrieben wurde.
Dass Wissenschaftler:innen – und die machine learning-Gemeinschaft insbesondere – dennoch am Begriff der Objektivität und am objektiven Charakter wissenschaftlichen Wissens festhalten, liegt in der Tatsache begründet, dass letzteres sozial konstruiert ist, da es sich zum Teil aus kollektiven Überzeugungen wissenschaftlicher Gemeinschaften ableitet (Fleck 1935/1980). Über die Tätigkeit der einzelnen Forscher:in hinaus zeigt die Einbettung der Forschungsergebnisse in einen breiteren wissenschaftlichen Diskurs, dass wissenschaftliche Forschung eine kollektive Tätigkeit ist. Vieles von dem, was als ‘Wissenschaft’ bezeichnet wird, beruht auf sozialen Praktiken und Verfahren der Zusprechung. Wie die Wissenschaftshistorikerin Naomi Oreskes 2019 festhielt, unterstützt die Heterogenität der wissenschaftlichen Gemeinschaft paradoxerweise die Stärke des erzielten Konsenses: „Objectivity is likely to be maximized when […] the community is sufficiently diverse that a broad range of views can be developed, heard, and appropriately considered.“ Das war offensichtlich auch Miceli et al. klar, als sie in der Debatte um Biases Position bezogen: „data never represents an absolute truth. Data, just like truth, is the product of subjective and asymmetrical social relations.“ Letztlich führen die Prozesse, die innerhalb solcher wissenschaftlicher Gemeinschaften ablaufen, zu dem, was als wissenschaftliche Wahrheit bezeichnet wird. Daten, Statistik, maschinelles Lernen und Objektivität sind in gesamtgesellschaftliche Diskurse eingebettet, und diese bilden letzten Endes die Brücke zur Wahrheit.