FAQ
© 2024 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten Leichte Sprache

Hamburg-Bibliographie: Datenanreicherung mit Hilfe von Lobid

12. April 2023
von HS — abgelegt in: Aktuelles,Hamburg — 1.684 Aufrufe

Im Jahr 2022 wurde in der landesbibliothekarischen Abteilung der Staats- und Universitätsbibliothek Hamburg ein Datenanreicherungsprojekt mit dem GND-Schnittstellendienst Lobid (Linked Open Bibliographic Data) des Hochschulbibliothekszentrums Nordrhein-Westfalen durchgeführt. Anreicherungsobjekte waren lokale Personennormdatensätze der Hamburg-Bibliographie, dem Nachweisinstrument der Freien und Hansestadt Hamburg für Literatur zum Thema der Stadt, die neben Literatur auch etwa 20.000 Datensätze zu Hamburger Personen enthält. Diese Personendatensätze sollten mit Hilfe von Lobid mit dem Datenbestand der Gemeinsamen Normdatei (GND) disambiguiert, gematcht und – sofern noch nicht vorhanden – mit der GND-ID angereichert werden.

Lobid bietet dazu einen Service mit offenen Programmierschnittstellen zur GND an. Über die Software OpenRefine kann für dort hochgeladene Daten ein automatisches Matching mit den Daten zur GND hergestellt werden. Dabei kann die Güte des automatischen Matchings dadurch beeinflusst werden, indem zusätzlich bestimmte GND-Felder zum Abgleich ausgewählt werden können. Die Nutzung des Lobid-Schnittstellendienstes verringert den zeitlichen Aufwand für die Disambiguierung von lokalen Personennormdatensätzen und GND-Personendatensätzen um ein Erhebliches im Vergleich zu einer Disambiguierung mittels einer Recherche in der GND für jeden Personendatensatz. Trotzdem ist neben dem automatischen Matching in bestimmten Fällen auch noch ein intellektueller Abgleich zu empfehlen. Die Daten der Hamburg-Bibliographie lagen im PICA-Format vor, dem Format des Katalogisierungsproduktivsystems K10plus des Gemeinsamen Bibliotheksverbundes (GBV). Das Format entspricht für lokale Personennormdaten in groben Zügen weitestgehend dem GND-Format.

Ziel des Projektes war es, zu folgenden Aspekten aussagekräftige Zahlen ermitteln, um für das Datum der “GND-Nummer” im Datenbestand der Hamburg-Bibliographie eine umfassend erhobene Datenlage zu erhalten:

1. Zuwachs und Gesamtanzahl der lokalen Personennormdatensätze mit GND-Nummer für den Datenbestand der Hamburg-Bibliographie
2. Anzahl der lokalen Personennormdatensätzen, die nicht in der GND vorhanden sind, d.h. für die die Hamburg-Bibliographie ausschließlicher Nachweisdatenbestand ist
3. Anzahl der nachzubearbeitenden Personendatensätze, die als Prüffälle nicht auf den GND-Bestand gematcht wurden

In einem ersten Projektschritt wurden die Daten zur Bearbeitung vorbereitet: sie wurden aus dem Produktivsystem des GBV extrahiert und in Excellisten transferiert, die in der Bearbeitungsphase in OpenRefine hochgeladen wurden. Es wurden Datenpakete mit je rund 200 Datensätzen geschnürt. Einerseits um den vier Bearbeiter:innen unverwechselbare Daten zur Bearbeitung zuweisen zu können, andererseits um ganz pragmatisch die Bearbeitung zeitlich handlicher zu machen. Eine Hochrechnung zur Ermittlung des zeitlichen Aufwandes für das Projekt hatte im Vorfeld anhand einer Stichprobenbearbeitung von 50 Datensätzen ergeben, dass 200 Datensätze etwa 4 Arbeitsstunden Bearbeitungszeit kosten würden. Vorsichtig geplant wurde daraufhin, eine Datei mit rund 200 Datensätzen pro Woche bearbeiten zu lassen. Ob sich diese Zeitvorstellung umsetzen ließ, sollte im Projektverlauf ermittelt werden. Diesen Punkt relativ variabel zu lassen, wurde bewußt entschieden, da die die Bearbeitung neben der Routinearbeit der Abteilung stattfinden sollte.

In einem zweiten Projektschritt wurden die Bearbeiter:innen in die konkrete Arbeit mit OpenRefine eingeführt wie etwa die Daten der vorbereiteten Exceldateien hochzuladen und die Schnittstellenfunktionen zu aktivieren und nach erfolgter Bearbeitung die angereicherten Daten wieder nach Excel zu transportieren. Darüber hinaus wurden Absprachen zum konkreten Vorgang der Disambiguierung zwischen den Original-GND-Personendaten und den lokalen Personendaten der Hamburg-Bibliographie getroffen. So wurde z.B. verabredet, bei schwer zu matchenden Fällen, den Rechercheaufwand nach einer bestimmten Bearbeitungszeit abzubrechen und die entsprechenden Fälle als Prüffälle zu kennzeichnen, um den Projektzeitraum nicht in die Länge zu ziehen.

Der dritte und zeitintenstivste Projektschritt war der konkrete Matchingprozess der rund 20.000 Personendaten, also das Zuweisen der Ergebnisse des automatischen Matchings zu den Ausgangsdaten. Während der Bearbeitung zeigte sich, dass die Umsetzung neben dem Alltagsbetrieb zeitlich zur Herausforderung wurde, und es umsichtig gewesen war, das Zeitkorsett nicht zu straff gezogen zu haben. Das Projekt konnte ein Jahr nach Beginn abgeschlossen werden.

Die Auswertungsphase ergab die oben genannten, zu Beginn des Projektes avisierten Dateninformationen:

Bearbeitete Datensätze GND-Nummer: Anzahl Hamburg-Bibliographie GND-Nummer: nicht gematcht
 
gesamt
Anzahl vor Projekt
Zuwachs durch Projekt
gesamt
Prüffälle
Personendatensätze nicht in GND vorh.
20.302 12.918
2.606 10.312 7.384 759 6.625

 

 

Als abschließender Schritt erfolgte Ende März 2023 die Wiedereinspielung der hinzugekommenen GND-Nummern für die 20.302 lokalen Personendatensätze der Hamburg-Bibliographie in den K10plus-Katalog durch die GBV-Verbundzentrale. Die Klärung der Prüffälle wird sukzessive in die routinemässigen Datenpflegearbeiten der Hamburg-Bibliographie eingefädelt.

Durch die Anreicherung der lokalen Personennormdatensätze mit der GND-Nummer wurde eine Grundlage geschaffen, um perspektivisch mit diesem Anker Linked-Open-Data-Funktionalitäten für die Personendaten der Hamburg-Bibliographie zu installieren.

Schreiben Sie einen Kommentar