Kulturerbedaten, künstliche Intelligenz, und die Ethik der Nichtintervention
Es ist eine bekannte Tatsache, dass Algorithmen des maschinellen Lernens die statistischen Schiefe der Datensätze, auf denen sie trainiert wurden, noch verstärken. In jüngster Vergangenheit wurde diese Tatsache gut belegt, z. B. durch Cathy O’Neills Buch „Weapons of Math Destruction“ (2016), in Kate Crawfords und Trevor Paglens „Excavating AI“ (2019), oder in Artikeln wie „Data and its (dis)contents“ (2020) und „Large image datasets“ (2020). Schon Hölderlin wusste: „Wo aber Gefahr ist, wächst das Rettende auch“, und die Debatte um Verzerrungen in Datensätzen und die (sozialen) Verheerungen, die aus der Anwendung von Modellen maschinellen Lernens resultieren, die auf solchen Datensätzen trainiert wurden resultieren, hat zu so bemerkenswerten Publikationen wie Gebru et al’s „Datasheets for Datasets“ (2019), Pushkarna et al’s „Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI“ (2022) sowie Mitchell et al’s „Model Cards for Model Reporting“ (2019). Alle Beiträge zielen darauf ab, Datensätze und Machine-Learning-Modelle in einen Kontext zu stellen und Fairness, Verantwortlichkeit und Transparenz zu ermöglichen.
Kulturerbe-Datensätze unterscheiden sich in vielerlei Hinsicht von zeitgenössischen industriellen Datensätzen. Sie sind heterogen in Bezug auf den abgedeckten Zeitraum, den Ort oder die Regionen, die in ihnen enthalten sind, oder die kulturellen Kontexte, in die sie eingeordnet werden müssen. Die meisten Kulturerbe-Datensätze wachsen im Laufe der Zeit, da jüngst digitalisierte Objekte in inkrementellen Schritten hinzugefügt werden, wohingegen es sich bei Industriedatensätzen oft um abgeschlossene, nur einmal publizierte Zusammenstellungen handelt. Die Bedeutung von Nutzungsrechten und der Provenienz sowie die Verwendung verlinkter offener Daten sind charakteristische Merkmale von Kulturerbe-Datensätzen. Ihr Verwendungszweck ist häufig die Forschung, im Gegensatz zur kommerziellen Nutzung zeitgenössischer Datensätze. Speziell geschulte Fachleute aus dem Bereich des Kulturerbes haben Metadaten erstellt, während unterbezahlte Arbeiter, die hinter dem euphemistischen Begriff „Mechanical Turk“ verborgen werden, oft die Annotation gegenwärtigen Datenmaterials vornehmen.
Die Absicht, „Verwendungen [von Datensätzen] zu vermeiden, die zu einer ungerechten Behandlung von Einzelpersonen oder Gruppen führen könnten“ und „unerwünschte gesellschaftliche Verzerrungen in Modellen des maschinellen Lernens abzuschwächen“ (Gebru et al. 2019), kann auch als Aufruf zur Bereitstellung ausgewogenerer Datensätze verstanden werden, die statistisch auf eine repräsentative Zusammensetzung der von einem solchen Datensatz erfassten Bevölkerung, und ethisch auf die Vermeidung einer ungerechten sozialen Auswirkung abzielen. Diese Forderung hat auch die Gemeinschaft der Kulturerbe-Institutionen erreicht. Beispielhaft steht dafür ein Kapitel, das 2022 veröffentlicht wurde und das „Ethical Implications of Implicit Bias in AI“ (Ethische Implikationen von impliziten Verzerrungen in der KI) erörtert. Es zielt auf „Leitlinien für die […] ethische, vorurteilsfreie Anwendung“ von KI-Werkzeugen ab und rät zu „wiederholten Eingriffen, um statistisch ausgewogene Ergebnisse zu erzielen“.
Damit liegt das Problem auf der Hand: In historischen Daten gibt es Verzerrungen, die nicht mehr den heutigen ethischen Werten entsprechen. Der größte Teil der Geschichte (sowie ihre Dokumentation in Institutionen des kulturellen Erbes) entspricht nicht der heutigen Sensibilität im Hinblick auf Rassismus und Diskriminierung; dies gilt übrigens auch für die meisten aktuellen historischen Ereignisse. Während es möglich ist – wenn auch aufwändig und daher teuer – , Kontext herzustellen oder sogar in die Metadaten einzugreifen, die in Bibliotheken, Archiven und Museen produziert werden, ist es fraglich, ob der Eingriff in einen historischen Datensatz machbar oder überhaupt sinnvoll ist.
Wenn wir einen Schritt zurücktreten, können wir feststellen, dass die Geisteswissenschaften immer großen Wert auf Quellentreue gelegt haben. Historisch-kritische Editionen, wie sie von den Philologien erstellt werden, sind textgetreu und betten den Text in einen kritischen Apparat ein; Historiker sind darin geschult, Quellen absolut originalgetreu zu transkribieren und Quellenkritik als methodisches Werkzeug anzuwenden. Ein solcher Ansatz verweist auf die Etablierung der Geisteswissenschaften (einschließlich der Rechtswissenschaften) als wissenschaftliche Disziplinen im 19. Jahrhundert zurück, und auf ihre Abstammung von der Scholastik mit ihrer Ehrfurcht vor heiligen Texten.
Die in den Kulturerbe-Einrichtungen erstellten Datensätze reproduzieren unweigerlich die für unsere gemeinsame Geschichte charakteristischen sozialen und ethischen Vorurteile: Die überwiegende Mehrheit der Urheber von Büchern, die von Bibliotheken digitalisiert wurden, oder von historischen Aufzeichnungen, die von Archiven digitalisiert wurden, waren weiße, sozial privilegierte, lese- und schreibkundige Männer. Die Geschichte wurde – in den meisten Fällen – von den Siegern der Kriege geschrieben und nicht von den Besiegten oder von sozialen oder ethnischen Minderheiten, wie sie in früheren Gesellschaften vertreten waren. Eine Intervention in solche Datensätze ist fast nicht möglich: Die Erstellung eines ausgewogenen Datensatzes, in dem weibliche und männliche Urheber zu gleichen Teilen enthalten sind, wäre per definitionem nicht repräsentativ. Das Gleiche gilt für die Verwendung von Begriffen, die nach heutigen ethischen Werten als „toxisch“ gelten: Es ist eine Tatsache, dass wir Begriffe wie „Neger“, „Hottentotten“ oder „Kaffern“ nicht mehr verwenden, aber dass Menschen dies in der Vergangenheit getan haben. Es ist richtig, dass solche Begriffe Menschen noch heute verletzen können und die Gewalt wiederholen, die Farbigen im Verlauf der Geschichte angetan wurde. Aber es ist ebenso wahr, dass wir die Geschichte nicht ausradieren oder verändern können. Wir müssen vielmehr lernen, mit ihr umzugehen. Es ist daher nicht sinnvoll, solche Begriffe aus historischen Dokumenten zu tilgen oder solche Dokumente nicht in die Datensätze mit aufzunehmen.
Vielmehr sind wir gut beraten, dem Beispiel der Historiker und Philologen zu folgen, die Daten so zu belassen, wie sie sind, und über data sheets und model cards (also ‚Beipackzettel‘) den notwendigen Kontext herzustellen – und das auf die Gefahr hin, dass die Nutzung eines solchen Datensatzes für die Entwicklung entsprechender KI-Anwendungen nicht in jedem Fall unbedenklich ist. Wir sind gut beraten, über Datenblätter den notwendigen Kontext herzustellen und dort unsere eigene Positionalität hineinzuschreiben. Die sozialen und ethischen Verzerrungen in solchen Datensätzen sind Probleme, die nicht ganz so dringlich sind wie in zeitgenössischen Datensätzen, und ihre Auswirkungen in der realen Welt sind oft schwach. Die Integration der Sichtweise der Sammlungs-„Subjekte“ (wie von Kirk et al. 2022 gefordert) ist häufig nicht umsetzbar, außer vielleicht bei Datensätzen, die aus kolonialen Kontexten stammen, wo die Nachfahren der darin vertretenen Menschen ein starkes Interesse an einer angemessenen Konstruktion des Datensatzes haben können. Eine solche Ethik der Nichteinmischung entspricht dem Bestreben, einen angemessenen Umgang mit der Geschichte zu erlernen und gegen die allgegenwärtige Geschichtsvergessenheit anzukämpfen.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!