Bedeutung für die Bibliothek

Mit dem stetig zunehmenden Publikationsaufkommen stellt sich die Frage, wie die umfassenden Zuwächse in den Beständen der Staatsbibliothek zu Berlin zukünftig erschlossen werden sollen. Wie können Qualitätsansprüche in der Erschließung aufrechterhalten werden, wenn die zur Verfügung stehenden Ressourcen nicht in gleichem Maße ansteigen? Eine Antwort auf diese Herausforderung kann die Entwicklung von Systemen für die maschinelle Unterstützung bei der Inhaltserschließung sein. Das wichtigste Ziel einer semi-automatisierten Inhaltserschließung bleibt die Unterstützung und Entlastung der Fachreferent:innen bei ihrer Arbeit, sodass diese sich durch frei werdende Kapazitäten intensiver der intellektuellen Verschlagwortung uneindeutiger und weitaus komplexerer Fälle widmen können. Eine Möglichkeit dafür besteht im Einspielen von automatisch erzeugten Vorschlägen zur Katalogisierung in den Digitalen Assistenten DA-3 (Beckmann et al. 2019), wie es beispielsweise an der ZBW – Leibniz-Informationszentrum Wirtschaft mit “zbwase” bereits umgesetzt wurde (Kasprzik 2023, S. 5). Die menschlichen Kompetenzen sollen hierbei also nicht ausgeblendet, sondern vielmehr im Sinne eines Mensch-Maschine-Systems bzw. des “human in the loop” in ein erfolgversprechendes Zusammenspiel mit der Maschine gebracht werden.

Sacherschließung mit Annif

Institutionen wie die ZBW und die Deutsche Nationalbibliothek (DNB) haben bereits einen Erfahrungsschatz im Bereich der automatisierten Erschließung aufgebaut. Beide Einrichtungen setzen hierbei auf das Open Source Toolkit Annif, welches von der Finnischen Nationalbibliothek entwickelt wird (Suominen et al. 2022). Die große Stärke von Annif ist, dass es aufgrund seiner Modularität unabhängig vom Entwicklungskontext eingesetzt werden kann und damit größtenteils an die jeweiligen Bedingungen anpassbar ist. Konkret bedeutet das: Für die Beschreibung gewünschte kontrollierte Vokabulare und die Sprache können beim Anlegen eines Projekts angegeben und damit verschiedene Modelle trainiert werden.

Um ein Modell mit Annif zu trainieren, benötigt man zunächst einmal nur drei Dinge:

ein Vokabular, aus dem die Schlagwörter vergeben werden sollen
qualitativ hochwertig erschlossene Werke in Form von Volltexten oder Metadaten (z.B. Titeldaten, möglich sind auch Abstracts und Inhaltsverzeichnisse) mit manuell zugeordneten Schlagwörtern
eine funktionsfähige Installation von Annif

Dann können die im Tool eingebundenen lexikalischen (z.B. MLLM, STWFSA) bzw. statistischen (z.B. fastText, Omikuji) Verfahren auf die Trainingsdaten angewendet und ggf. noch zu sogenannten Ensembles kombiniert werden. Neben der Nutzung via Kommandozeile bietet Annif zusätzlich ein Web User Interface und eine REST API (d.h. eine Programmschnittstelle), über die beispielsweise Vorschläge anhand der vorab trainierten Modelle geliefert werden können.

Nächste Schritte

Im Teilprojekt 3 “KI-unterstützte Inhaltsanalyse und Sacherschließung” des Projekts “Mensch.Maschine.Kultur” möchten wir uns nun den bisherigen Entwicklungen in Richtung automatisierte Sacherschließung anschließen und sind gespannt, welche Perspektiven sich für die maschinell unterstützte Inhaltserschließung daraus für die SBB ergeben. Hierfür werden wir in einen intensiven Austausch mit den in der Inhaltserschließung tätigen Kolleg:innen aus der SBB sowie der DNB und ZBW treten. Geplant ist zunächst das Sammeln konkreter Anwendungsfälle für die semi-automatische Erschließung und anschließend die Überprüfung des Einsatzes von Annif für diese Szenarien. Des Weiteren sollen die im Laufe des Projektes entstehenden Ergebnisse (auch: Daten, Modelle) in geeigneten Formaten publiziert werden, sodass auch anderen Institutionen die Möglichkeit der Nachnutzung eröffnet wird.

Seit der Veröffentlichung des Dialogsystems ChatGPT im November 2022 hat die gesellschaftliche Debatte über Künstliche Intelligenz (KI) deutlich an Fahrt aufgenommen und auch Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen erreicht. Dabei geht es vor allem um die Einschätzung, wie leistungsfähig solche grossen Sprachmodelle (Large Language Models, LLMs) im Allgemeinen und Generative Pre-trained Transformers (GPTs) im Besonderen sind. Für den Kulturerbebereich zeigen sich dabei eine ganze Reihe möglicher Einsatzbereiche des Chatbot-Prototypen ChatGPT: Die Anfertigung von Textzusammenfassungen oder Beschreibungen von Kunstwerken, das Generieren von Metadaten, Schreiben von Computercode für einfache Aufgaben, Unterstützung bei der Sacherschließung oder Hilfe für Nutzer:innen beim Auffinden von Ressourcen auf den Webseiten der Kulturerbeeinrichtungen.

Zweifellos liegen die Stärken von ChatGPT in der Erzeugung von Text und damit verknüpften Aufgaben. Als „statistische Papageien“, wie diese Large Language Models in einem vieldiskutierten Paper von 2021 bezeichnet wurden, können diese Sprachmodelle auf stochastischer Basis vorhersagen, welches die nächsten Worte eines Textausschnitts sein werden. Der Anwendungsfall ChatGPT ist als textbasiertes Dialogsystem darauf trainiert worden, in jedem Fall Antworten zu geben. Diese Eigenschaft des Chatbots verweist direkt auf eine der zentralen Schwächen des Modells: Im Zweifelsfall werden schlicht unwahre Angaben gemacht, um den Dialog aufrechtzuerhalten. Da grosse Sprachmodelle nur Anwendungen künstlicher Intelligenz sind und über keinerlei Weltwissen verfügen, können sie per se nicht zwischen Fakten und Fiktion, sozialer Konstruktion und Unwahrheit unterscheiden. Die Tatsache, dass ChatGPT im Zweifelsfall „halluziniert“ (wie der gängige anthropomorphisierende Terminus lautet) und beispielsweise auch Literaturnachweise erfindet, beschädigt selbstverständlich die Verlässlichkeit des Systems – und verweist auf die grosse Stärke von Bibliotheken, zuverlässige Nachweise zur Verfügung zu stellen.

Andererseits besteht eine Stärke derartiger Systeme darin, dass sie Diskurse hervorragend nachbilden können und daher auch in der Lage sind, einzelne Texte oder grössere Textkorpora in herausragender Weise zu klassifizieren und inhaltlich zu beschreiben. Hier zeigt sich ein grosses Potential insbesondere für Bibliotheken: Bislang arbeiten digitale Assistenten, die bei der Verschlagwortung von Büchern unterstützen, mit statistischen Verfahren wie tf-idf oder auch mit Deep Learning. Solche Herangehensweisen könnten durch Topic Modeling ergänzt werden. Dieses Verfahren erzeugt eine Reihe von Begriffen, die stochastisch modelliert wurde und den Inhalt eines Werkes bzw. die in ihm verhandelten Themen („Topics“) beschreibt. Die Herausforderung für die Benutzer:innen lag bislang nun darin, dieser Wortansammlung durch eine Interpretation ein schlüssiges Label oder – im Falle von Bibliotheken – ein kontrolliertes Vokabular zuzuweisen. Genau dieses Labeling kann ChatGPT hervorragend, wie mehrere Forscher:innen bestätigt haben. Da somit die Verschlagwortung von Texten massiv verbessert und erleichtert werden kann, liegt hierin sicher einer der zukünftigen Anwendungsfälle für KI in Bibliotheken – und genau hieran wird im Teilprojekt 2 „KI-unterstützte Inhaltsanalyse und Sacherschließung“ des Projeks „Mensch.Maschine.Kultur“ gearbeitet. Verbesserungswürdig hingegen sind einfache Programmieraufgaben wie die Erstellung eines bibliographischen Nachweises in einem bestimmten Format oder die Transformation eines Nachweises von MARC.xml in JSON; derartige Aufgaben werden nicht immer zuverlässig ausgeführt, wie ein Experiment kürzlich ergab.

ChatGPT unterstreicht als eine der aktuell leistungsfähigsten textbasierten KI-Anwendungen den möglichen Nutzen solcher Modelle. Zugleich werden aber auch die Risiken deutlich, die mit dem Einsatz solcher Anwendungen einhergehen: Bislang sind ausschliesslich die US-amerikanischen Big Tech-Unternehmen in der Lage, derart leistungsfähige Modelle zu trainieren, bereitzustellen und später durch bestärkendes Lernen auf spezifische Aufgaben hin optimierte Modelle zu entwickeln – und zwar mit dem klaren Ziel der Monetarisierung. Darüber hinaus bringen generative KI-Systeme eine Reihe von ethischen Problemen mit sich, denn sie benötigen grosse Textmassen, die bislang aus dem Internet bezogen wurden und damit einem Ort, in dem nicht alle Menschen einander höflich und mit aller Etikette begegnen. So hat eine Studie festgestellt, dass Large Language Models Stereotype reproduzieren, beispielsweise indem sie die Begriffe „Muslime“ und „Gewalt“ miteinander assoziieren. Darüber hinaus müssen toxische Inhalte in den Sprachmodellen als solche gelabelt werden, und dies wird von schlecht bezahlten Menschen vorgenommen, was die ethische Fragwürdigkeit der Erstellung dieser Modelle unterstreicht.

Schliesslich ist hervorzuheben, dass diese Modelle fast ausschliesslich auf der Grundlage von im Internet verfügbarem Wortmaterial des 21. Jahrhunderts trainiert wurden. Demgegenüber wird im Teilprojekt 4 „Datenbereitstellung und Kuratierung für KI“ des Projekts „Mensch.Maschine.Kultur“ daran gearbeitet, kuratierte und historische Daten aus Bibliotheken für KI-Anwendungen aufzubereiten. Die Verfügbarkeit von Large Language Models verweist darüber hinaus auf ganz grundsätzliche Fragen: Die nämlich, welche Rolle das Kulturerbe der gesamten Menschheit in Zukunft spielen soll und welchen Einfluss Kulturerbeeinrichtungen wie Bibliotheken, Archive und Museen auf die Erstellung solcher Modelle haben können; und welche Auswirkungen die von grossen Sprachmodellen generierten Texte auf unsere gegenwärtige Kultur haben werden.

Schlagwortarchiv für: Bibliotheken

Perspektiven für die maschinelle Unterstützung der Inhaltserschließung an der Staatsbibliothek zu Berlin

Bedeutung für die Bibliothek

Sacherschließung mit Annif

Nächste Schritte

Über den Einsatz von ChatGPT in Kulturerbeeinrichtungen