OCR4all – Open-Source Texterkennung von der Massenprozessierung von Drucken bis zur hochqualitativen Transkription von Handschriften (8.11.)
31. August 2023
von Markus Trapp — abgelegt in: Ausstellungen und Veranstaltungen — 2.116 Aufrufe
Mittwoch, 8. November 2023, 17 – 18:30 Uhr
Referent: Christian Reul
Vortrag via Zoom.
Ein zentraler Aspekt der Arbeit von geistes- und kultur- und humanwissenschaftlichen Forscher:innen ist die Auseinandersetzung mit historischen Quellen in Form von gedruckten und handschriftlichen Textzeugen. Diese liegen häufig lediglich als Scans vor, was ihre Verwendbarkeit stark einschränkt, da automatische Erschließungsansätze wie die Volltextsuche oder Verfahren der quantitativen Analyse nicht einsetzbar sind. Hierzu muss aus den Digitalisaten zunächst sog. maschinenverarbeitbarer Volltext extrahiert werden, wobei Methoden der automatischen Texterkennung von Drucken (Optical Character Recognition, OCR) oder Handschriften (Handwritten Text Recognition, HTR) eine immer größere Rolle spielen. Gerade sehr alte Drucke und Handschriften stellen dabei aus verschiedensten Gründen häufig noch eine große Herausforderung dar. Erfreulicherweise gab es in den letzten Jahren große Fortschritte im Bereich der historischen OCR/HTR, die einige hochperformanteTools hervorgebracht haben.
Das am Zentrum für Philologie und Digitalität (ZPD) der Universität Würzburg entwickelte frei verfügbare Open Source Werkzeug OCR4all hat zum Ziel, auch technisch weniger versierten Nutzer:innen die Möglichkeit zu geben, anspruchsvolle Drucke und Handschriften selbstständig und in höchster Qualität zu erschließen. OCR4all kapselt den gesamten Texterkennungsworkflow und alle dafür benötigten Tools in einer einzigen Anwendung, die leicht installiert und über eine komfortable grafische Nutzeroberfläche bedient werden kann.
Der Vortrag erläutert die Grundlagen der automatischen Texterkennung und stellt OCR4all und dessen Funktionsweise im Rahmen einer Live-Demo vor. Außerdem wird die Anwendbarkeit und Performanz auf unterschiedlichen Material demonstriert und ein Überblick über aktuelle Arbeiten sowie ein Ausblick auf zukünftige Entwicklungen gegeben.
Eine Veranstaltung im Rahmen der Veranstaltungsreihe „Digital Humanities – Wie geht das?“ des Referats für Digitale Forschungsdienste.
[…] 8.11.2023 von 17:00 – max. 18:30 Uhr via Zoom, Vortrag von Christian Reul zum Thema: Open-Source Texterkennung von der Massenprozessierung von Drucken bis zur hochqualitativen Transkription von Handschriften, weitere Infos und Link da: https://blog.sub.uni-hamburg.de/?p=36365 […]