Perspektiven für die maschinelle Unterstützung der Inhaltserschließung an der Staatsbibliothek zu Berlin
Bedeutung für die Bibliothek
Mit dem stetig zunehmenden Publikationsaufkommen stellt sich die Frage, wie die umfassenden Zuwächse in den Beständen der Staatsbibliothek zu Berlin zukünftig erschlossen werden sollen. Wie können Qualitätsansprüche in der Erschließung aufrechterhalten werden, wenn die zur Verfügung stehenden Ressourcen nicht in gleichem Maße ansteigen? Eine Antwort auf diese Herausforderung kann die Entwicklung von Systemen für die maschinelle Unterstützung bei der Inhaltserschließung sein. Das wichtigste Ziel einer semi-automatisierten Inhaltserschließung bleibt die Unterstützung und Entlastung der Fachreferent:innen bei ihrer Arbeit, sodass diese sich durch frei werdende Kapazitäten intensiver der intellektuellen Verschlagwortung uneindeutiger und weitaus komplexerer Fälle widmen können. Eine Möglichkeit dafür besteht im Einspielen von automatisch erzeugten Vorschlägen zur Katalogisierung in den Digitalen Assistenten DA-3 (Beckmann et al. 2019), wie es beispielsweise an der ZBW – Leibniz-Informationszentrum Wirtschaft mit “zbwase” bereits umgesetzt wurde (Kasprzik 2023, S. 5). Die menschlichen Kompetenzen sollen hierbei also nicht ausgeblendet, sondern vielmehr im Sinne eines Mensch-Maschine-Systems bzw. des “human in the loop” in ein erfolgversprechendes Zusammenspiel mit der Maschine gebracht werden.
Sacherschließung mit Annif
Institutionen wie die ZBW und die Deutsche Nationalbibliothek (DNB) haben bereits einen Erfahrungsschatz im Bereich der automatisierten Erschließung aufgebaut. Beide Einrichtungen setzen hierbei auf das Open Source Toolkit Annif, welches von der Finnischen Nationalbibliothek entwickelt wird (Suominen et al. 2022). Die große Stärke von Annif ist, dass es aufgrund seiner Modularität unabhängig vom Entwicklungskontext eingesetzt werden kann und damit größtenteils an die jeweiligen Bedingungen anpassbar ist. Konkret bedeutet das: Für die Beschreibung gewünschte kontrollierte Vokabulare und die Sprache können beim Anlegen eines Projekts angegeben und damit verschiedene Modelle trainiert werden.
Um ein Modell mit Annif zu trainieren, benötigt man zunächst einmal nur drei Dinge:
- ein Vokabular, aus dem die Schlagwörter vergeben werden sollen
- qualitativ hochwertig erschlossene Werke in Form von Volltexten oder Metadaten (z.B. Titeldaten, möglich sind auch Abstracts und Inhaltsverzeichnisse) mit manuell zugeordneten Schlagwörtern
- eine funktionsfähige Installation von Annif
Dann können die im Tool eingebundenen lexikalischen (z.B. MLLM, STWFSA) bzw. statistischen (z.B. fastText, Omikuji) Verfahren auf die Trainingsdaten angewendet und ggf. noch zu sogenannten Ensembles kombiniert werden. Neben der Nutzung via Kommandozeile bietet Annif zusätzlich ein Web User Interface und eine REST API (d.h. eine Programmschnittstelle), über die beispielsweise Vorschläge anhand der vorab trainierten Modelle geliefert werden können.
Nächste Schritte
Im Teilprojekt 3 “KI-unterstützte Inhaltsanalyse und Sacherschließung” des Projekts “Mensch.Maschine.Kultur” möchten wir uns nun den bisherigen Entwicklungen in Richtung automatisierte Sacherschließung anschließen und sind gespannt, welche Perspektiven sich für die maschinell unterstützte Inhaltserschließung daraus für die SBB ergeben. Hierfür werden wir in einen intensiven Austausch mit den in der Inhaltserschließung tätigen Kolleg:innen aus der SBB sowie der DNB und ZBW treten. Geplant ist zunächst das Sammeln konkreter Anwendungsfälle für die semi-automatische Erschließung und anschließend die Überprüfung des Einsatzes von Annif für diese Szenarien. Des Weiteren sollen die im Laufe des Projektes entstehenden Ergebnisse (auch: Daten, Modelle) in geeigneten Formaten publiziert werden, sodass auch anderen Institutionen die Möglichkeit der Nachnutzung eröffnet wird.