OLA-HD

OLA-HD – Ein OCR-D-Langzeitarchiv für historische Drucke

Gesellschaft für wissenschaftliche Datenverarbeitung, welches als Modul dem Dachprojekt <link http: ocr-d.de external-link-new-window zur weiterentwicklung von verfahren der optical character recognition>Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) – der <link http: www.dfg.de external-link-new-window>Deutschen Forschungsgemeinschaft zugeordnet ist.

Um im Bereich der historisch arbeitenden Wissenschaften hochwertige und umfangreiche Forschung leisten zu können, ist ein möglichst uneingeschränkter Zugriff auf historische Quellen unerlässlich. Durch mehrere Erschließungs- und Digitalisierungsprojekte stehen mittlerweile zahlreiche Digitalisate von historischen Drucken aus dem 16. bis zum 19. Jahrhundert zur Verfügung. Insbesondere im Rahmen der „Verzeichnisse Deutscher Drucke” wurde nicht nur die serielle Erschließung, sondern auch die massenhafte Digitalisierung von Titeln vorangetrieben. Diese Werke sind nach nationalbibliographischen Standards katalogisiert worden und zu großen Teilen bereits digitalisiert worden. Der bibliographische Metadatenstandard dieser Digitalisate wird den wissenschaftlichen Anforderungen bereits gerecht. Es ist nun entscheidend, auch die Volltexte der digitalisierten Werke gezielt durchsuchen und weiter verwenden zu können.

Die Techniken der Optical-Character-Recognition (OCR) ermöglichen hier das massenhafte Erstellen von Volltexten. Für die unmittelbare Nutzung in Bibliotheken, Archiven und anderen Einrichtungen waren die bisher angewandten Methoden jedoch nicht geeignet, da die Texte zu große orthographische Unterschiede aufweisen. Es wird intensiv an leicht übertragbaren Anwendungen gearbeitet, die eine qualitativ hochwertige Massenvolltexterschließung aller historischen Drucke aus dem o. g. Zeitraum zu ermöglichen. Dies erhöht die Anzahl der OCR-Texte rasant. Für die weitere Nutzung ist eine nachhaltige Archivierung und Identifizierung der Digitalisate, der bibliographischen Metadaten sowie der erschlossenen Volltexte und deren Versionen notwendig. Um dies gewährleisten zu können, muss ein standardisiertes Konzept erstellt werden. Darüber hinaus ist die Verfügbarkeit und die Zitierfähigkeit der OCR-Texte eine wichtige Voraussetzung für die Überprüfbarkeit wissenschaftlicher Ergebnisse. Dies bedeutet, dass die bestehende Archivierung eines Objektes mit seinen Struktur- und Metadaten sowie Images um OCR-Texte ergänzt werden muss.

Durch die intellektuelle Erschließung, durch Nachbesserungen, durch die Verbesserungen im OCR-Verfahren oder den Einsatz verschiedener OCR-Techniken entstehen verschiedene Versionen des gleichen Ausgangsmaterials, welche eine neue Herausforderung für die persistente Identifizierung und die Langzeitarchivierung darstellen. Diese Problemstellung enthält Aspekte im Zusammenhang mit dem Forschungsdatenmanagement und erfordert auch die Prüfung von Methoden und Strategien für den Umgang mit Forschungsdaten.

Die oben genannten Anforderungen wurden in Form eines <link https: github.com subugoe ola-hd-impl blob master docs ola-hd_konzept.pdf external-link-new-window zur langzeitarchivierung und persistenten adressierung von>Konzeptes zur Langzeitarchivierung und persistenten Adressierung von OCR-Objekten aufbereitet und als <link http: ola-hd.sub.uni-goettingen.de external-link-new-window>OLA-HD Prototyp implementiert, um die Anforderungen der Datenhalter als auch die der Nutzer realisieren zu können. Der <link https: github.com subugoe ola-hd-impl external-link-new-window softwarecode und die>OLA-HD Softwarecode und die Dokumentation sind quelloffen auf Github bereitgestellt.