Schlagwortarchiv für: Maschinelle Erschließung

Workshop Semi-Automatische Sacherschließung an der Staatsbibliothek zu Berlin

In einem internen Workshop der Staatsbibliothek zu Berlin (SBB) zur Semi-Automatischen Sacherschließung am 19.07.2023 konnte das Team des Teilprojekts 3 “KI-unterstützte Inhaltsanalyse und Sacherschließung” im BKM-Projekt Mensch.Maschine.Kultur einen erfolgreichen Auftakt verzeichnen (zur Einführung bzw. weiterführend zum Thema vgl. z.B. Eberhardt 2011 und Golub 2021).

Wie könnte eine Unterstützung der Sacherschließung mittels automatisierter Verfahren aussehen? Welche Wünsche und Ideen, aber auch Herausforderungen sollten dabei berücksichtigt werden? Und: Wie können wir uns dieser Aufgabenstellung fachübergreifend gemeinsam nähern? Diese und weitere Fragen wollten wir gerne in direktem Austausch mit den Kolleg:innen aus der Sacherschließung klären. Vor allem das zahlreiche Erscheinen von an der Sacherschließung in der Staatsbibliothek beteiligten Personen und deren rege Beteiligung im Workshop sowie das sich anschließende positive Feedback haben eine gute Grundlage für die weitere Zusammenarbeit zwischen Projekt und den diversen Abteilungen für die kommenden Aufgaben gelegt.

Ablauf Workshop

Nach einer schnellen Vorstellungsrunde wurden zunächst in Impulsvorträgen des Projektteams das MMK-Projekt und das Teilprojekt 3 sowie der aktuelle Stand der Technik zur (semi-)automatischen Sacherschließung allgemein und konkret im Projekt vorgestellt.

Anschließend wurde das u.a. bei DNB, ZBW und TIB zum Einsatz kommende Open-Source Tool Annif vorgestellt und demonstriert. Nach einer sich daran anschließenden Fragerunde konnten die Teilnehmenden dann im interaktiven Teil des Workshops in Gruppen miteinander ins Gespräch kommen, um so spezifische Anforderungen und Wünsche herauszuarbeiten und in Ansätzen zu diskutieren, für wie umsetzbar und nützlich die gesammelten Ideen eingeschätzt werden.

Ergebnisse

In der von den Gruppen zusammengetragenen und konstruktiven Ideensammlung steht dabei Visionäres neben Konkretem. Es wurden sowohl sehr grundsätzliche Fragen wie der anzustrebende Automatisierungsgrad oder das Qualitätsniveau der Sacherschließung erörtert als auch spezifische und teils schon länger bestehende Wünsche und Anregungen. Aber auch originelle Ideen wurden genannt, beispielsweise die Einbindung Nutzender in die Verschlagwortung sowie ggf. daran anknüpfende Normierung freier Schlagwörter mittels automatisierter Methoden. Einen groben Überblick über die diskutierten Themen und Ideen können folgende Stichpunkte liefern:

  • der Wunsch nach Arbeitserleichterung und Zeitersparnis resp. Gewinn von Arbeitszeit für wichtige konzeptionelle Aufgaben wie die Vokabularpflege
  • die Identifikation von Lücken und Problemen in den Zielvokabularen: Welche Schlagwörter oder Klassen fehlen uns, welche werden nicht mehr benötigt (sind nicht mehr aktuell oder zeitgemäß)?
  • die Berücksichtigung Regionaler Sonderabteilungen und anderer Sprachen als Deutsch und Englisch, z.B. bei der Erstellung von Trainingsdaten
  • die Nachnutzung weiterer verfügbarer Metadaten, etwa aus der Formalerschließung, und von Konkordanzen
  • den Qualitätsbegriff schärfen und Qualität transparent bewerten, dabei qualitative und quantitative Methoden berücksichtigen
  • der Wunsch nach Assistenzsystemen für die zeitsparende Erfassung von Inhalten, etwa um die vorkommende Vielfalt von Sprachen, den Abstraktionsgrad oder den Abdeckungszeitraum einer Publikation schneller erfassen zu können

Ausblick

Trotz geringer Überziehung des zeitlichen Rahmens sind viele der Teilnehmenden bis zum Ende geblieben, worüber wir sehr erfreut waren. Wir sind überzeugt, die im Workshop erarbeiteten Anforderungen und Ideen in der kommenden Zeit noch weiter konkretisieren und vertiefen zu können und freuen uns bereits auf die weitere Zusammenarbeit.

Perspektiven für die maschinelle Unterstützung der Inhaltserschließung an der Staatsbibliothek zu Berlin

Bedeutung für die Bibliothek

Mit dem stetig zunehmenden Publikationsaufkommen stellt sich die Frage, wie die umfassenden Zuwächse in den Beständen der Staatsbibliothek zu Berlin zukünftig erschlossen werden sollen. Wie können Qualitätsansprüche in der Erschließung aufrechterhalten werden, wenn die zur Verfügung stehenden Ressourcen nicht in gleichem Maße ansteigen? Eine Antwort auf diese Herausforderung kann die Entwicklung von Systemen für die maschinelle Unterstützung bei der Inhaltserschließung sein. Das wichtigste Ziel einer semi-automatisierten Inhaltserschließung bleibt die  Unterstützung und Entlastung der Fachreferent:innen bei ihrer Arbeit, sodass diese sich durch frei werdende Kapazitäten intensiver der intellektuellen Verschlagwortung uneindeutiger und weitaus komplexerer Fälle widmen können. Eine Möglichkeit dafür besteht im Einspielen von automatisch erzeugten Vorschlägen zur Katalogisierung in den Digitalen Assistenten DA-3 (Beckmann et al. 2019), wie es beispielsweise an der ZBW – Leibniz-Informationszentrum Wirtschaft mit “zbwase” bereits umgesetzt wurde (Kasprzik 2023, S. 5). Die menschlichen Kompetenzen sollen hierbei also nicht ausgeblendet, sondern vielmehr im Sinne eines Mensch-Maschine-Systems bzw. des “human in the loop” in ein erfolgversprechendes Zusammenspiel mit der Maschine gebracht werden.

Sacherschließung mit Annif

Institutionen wie die ZBW und die Deutsche Nationalbibliothek (DNB) haben bereits einen Erfahrungsschatz im Bereich der automatisierten Erschließung aufgebaut. Beide Einrichtungen setzen hierbei auf das Open Source Toolkit Annif, welches von der Finnischen Nationalbibliothek entwickelt wird (Suominen et al. 2022). Die große Stärke von Annif ist, dass es aufgrund seiner Modularität unabhängig vom Entwicklungskontext eingesetzt werden kann und damit größtenteils an die jeweiligen Bedingungen anpassbar ist. Konkret bedeutet das: Für die Beschreibung gewünschte kontrollierte Vokabulare und die Sprache können beim Anlegen eines Projekts angegeben und damit verschiedene Modelle trainiert werden.

Um ein Modell mit Annif zu trainieren, benötigt man zunächst einmal nur drei Dinge:

  1. ein Vokabular, aus dem die Schlagwörter vergeben werden sollen
  2. qualitativ hochwertig erschlossene Werke in Form von Volltexten oder Metadaten (z.B. Titeldaten, möglich sind auch Abstracts und Inhaltsverzeichnisse) mit manuell zugeordneten Schlagwörtern
  3. eine funktionsfähige Installation von Annif

Dann können die im Tool eingebundenen lexikalischen (z.B. MLLM, STWFSA) bzw. statistischen (z.B. fastText, Omikuji) Verfahren auf die Trainingsdaten angewendet und ggf. noch zu sogenannten Ensembles kombiniert werden. Neben der Nutzung via Kommandozeile bietet Annif zusätzlich ein Web User Interface und eine REST API (d.h. eine Programmschnittstelle), über die beispielsweise Vorschläge anhand der vorab trainierten Modelle geliefert werden können.

Nächste Schritte

Im Teilprojekt 3 “KI-unterstützte Inhaltsanalyse und Sacherschließung” des Projekts “Mensch.Maschine.Kultur” möchten wir uns nun den bisherigen Entwicklungen in Richtung automatisierte Sacherschließung anschließen und sind gespannt, welche Perspektiven sich für die maschinell unterstützte Inhaltserschließung daraus für die SBB ergeben. Hierfür werden wir in einen intensiven Austausch mit den in der Inhaltserschließung tätigen Kolleg:innen aus der SBB  sowie der DNB und ZBW treten. Geplant ist zunächst das Sammeln konkreter Anwendungsfälle für die semi-automatische Erschließung und anschließend die Überprüfung des Einsatzes von Annif für diese Szenarien. Des Weiteren sollen die im Laufe des Projektes entstehenden Ergebnisse (auch: Daten, Modelle) in geeigneten Formaten publiziert werden, sodass auch anderen Institutionen die Möglichkeit der Nachnutzung eröffnet wird.