Zurück zu den Kundenreferenzen

Education/Research | Education | PDF and Document Conversion

Universitätsbibliothek Frankfurt macht mit ABBYY historische Dokumente online verfügbar

pathner logo

Universitätsbibliothek Frankfurt macht mit ABBYY historische Dokumente online verfügbar

Bildungswesen | PDF- und Dokumentenumwandlung

Über den Kunden

Name Universitätsbibiliothek JCS Frankfurt am Main
Hauptsitz Frankfurt am Main, Deutschland
Branche Bildungswesen, Forschung
Produkte und Services Bibliotheksdienstleistungen
Website
Herausforderung

Optimierung umfassender digitaler Textsammlungen in verschiedenen Schriftarten einschließlich Fraktur für eine Volltextrecherche bei Bereitstellung online.

Lösung

Volltexterkennung (OCR) der digitalen Textdokumente und Umwandlung in durchsuchbare PDFs mit ABBYY FineReader Engine.

Ergebnis

Verfügbarkeit und vollständige Durchsuchbarkeit von mehreren 10.000 historischen Textdokumenten der Rothschild-Sammlung online.

Hintergrund

Die Universitätsbibliothek Frankfurt am Main zählt mit ihren umfangreichen Beständen und Sammlungen von derzeit etwa 9 Millionen Medieneinheiten zu den zentralen wissenschaftlichen Bibliotheken in Deutschland. Um den Zugriff auf bedeutendes historisches Textmaterial zu erleichtern, baut die Universitätsbibliothek das Web-Angebot aus und stellt informationen über vorhandene Medien sowie umfangreiche Datenbanken digitalisierter historischer Dokumente online zur Verfügung. Um die digitalen Textdokumente für die Recherche zu optimieren, nutzt die Bibliothek ABBYY FineReader Engine zur Texterkennung, sodass auch in Fraktur gedruckte Texte über Stichwörter gefunden und per Volltextsuche nach einzelnen Wörtern durchsucht werden können.

Herausforderung

Die Universitätsbibliothek Frankfurt am Main besitzt als besonders wertvolle Dokumentensammlung die historisch einmalige Rothschild-Sammlung aus der „Freiherrlich Carl von rothschild'schen öffentlichen Bibliothek“ von 1888. Sie umfasst zwei Sammlungen historischer Zeitungsausschnitte: zum einen rund 20.000 Artikel der nationalen und internationalen Presse aus den Jahren 1886-1926, die sich auf die Familie Rothschild und das Bankhaus beziehen, zum anderen Beiträge zur Geschichte der Rothschild-Bibliothek aus der Zeit von 1890-1928. Die Texte werden im Rahmen des Projektes „Judaica Europeana“ online bereitgestellt, dessen Ziel unter anderem ist, die Zeugnisse jüdischer Kultur in Europa zu dokumentieren, als digitale Versionen zur Verfügung zu stellen und zur Verbreitung der Dokumente in Forschung und Lehre beizutragen.

Für das Judaica-Portal der Universitätsbibliothek Frankfurt am Main wurden bisher bereits über 10.000 Titel online gestellt, die meisten bisher allerdings ohne Texterkennung.

„Bei der digitalen Bereitstellung von Textdokumenten ist es wesentlich, dass die Dateien per Volltextsuche durchsucht werden können, sodass innerhalb der Zeitungsartikel gezielt nach einzelnen Wörtern und Begriffen gesucht werden kann, damit sie bei einer wissenschaftlichen Recherche nicht übersehen werden“
Rachel Heuberger, die Leiterin der Hebraica- und Judaica-Sammlung der Universitätsbibliothek Frankfurt

Dafür müssen die digitalen Dokumente durch eine Texterkennungssoftware (OCR) in ein durchsuchbares Dateiformat umgewandelt werden. Die Textdokumente der Rothschild-Sammlung stellen besondere Herausforderungen an die OCR- Verarbeitung, weil sie in zahlreichen verschiedenen Drucktypen, Bildfqualitäten und Schriftarten – von Fraktur bis Antiqua – vorliegen. Daher mussten bei der Auswahl der OCR-Lösung besonders hohe Anforderungen in Bezug auf die Erkennungsqualität unterschiedlicher Schriftarten gestellt werden. ein weiterer wichtiger Punkt bei der Auswahl der OCR-Software war die Möglichkeit, Dokumente nach Stichwörtern zu durchsuchen, was essentiell für die wissenschaftliche Recherche und Arbeit mit den Texten ist. 

Lösung

Die Universitätsbibliothek Frankfurt am Main nutzte ABBYY FineReader Engine zur Volltexterkennung der Dokumentenbilder, um die wertvollen Textdokumente für die wissenschaftliche Recherche zu optimieren.

„ABBYY FineReader Engine konnte sowohl in Bezug auf die Erkennungsqualität bei unterschiedlichen Schriftarten und Bildqualitäten als auch in Bezug auf die Durchsuchbarkeit der Ergebnisdokumente überzeugen“
Rachel Heuberger

Die Software war der Universitätsbibliothek Frankfurt am Main schon durch das ähnliche Digitalisierungsprojekt „Compact Memory“ aus den Jahren 2000-2006 bekannt, bei dem allerdings nur ein Teil der online veröffentlichten Sammlung von Zeitschriften per Volltexterkennung erschlossen wurde. Das ABBYY OCR-SDK war daher bereits in die vorhandene Bibliotheks-Softwarelösung Visual Library der Firma Semantics integriert und wurde nach kurzer Evaluierung ohne Testphase direkt für das Projekt eingesetzt. Die historischen Dokumente, die bereits digital im Tiff-Format mit einer Auflösung von 300-400 dpi in Farbe vorlagen, wurden vollständig OCR-erkannt. Die OCR-Ergebnisse wurden ohne Verifizierung als Volltexte einschließlich der Zeichenkoordinaten des erkannten Textes für das „Highlighting“ und die PDF-Generierung direkt an die Visual Library übergeben. Die optimierten Dokumente können dann online zur Verfügung gestellt werden und sind über die Suchfunktion jederzeit schnell und einfach wieder auffindbar.

Ergebnis

Nach einer Phase der Adaption lief die OCR-Erkennung reibungslos zur vollsten Zufriedenheit des Bibliothekspersonals. In kurzer Zeit konnten 22.000 Einzelseiten bearbeitet und im Netz freigeschaltet werden. Pünktlich zum 125. Jahrestag der Gründung der „Freiherrlich Carl von rothschild'schen öffentlichen Bibliothek“ im Januar 2013 standen die voll erschlossenen Dokumente der Rothschild-Sammlung den Nutzern online zur Verfügung.

„Wir freuen uns, damit auch heute noch dem Gründungsauftrag der Rothschild-Bibliothek treu bleiben zu können und allen interessierten kostenlos den Zugang zu wichtigen Texten und damit zur ‚ernsthaften Bildung und wissenschaftlicher Belehrung‘ (wie es in einem zeitgenössischen Text heißt) zu ermöglichen“, sagt Rachel Heuberger, die Leiterin der Hebraica- und Judaica-Sammlung der Universitätsbibliothek Frankfurt. Der große Erfolg des Projektes schlägt sich nicht nur in einem äußerst positiven Presseecho auch überregionaler Zeitungen nieder, sondern wird besonders durch die überaus große Nachfrage durch Nutzer des Online-Angebots bestätigt: Die digitalen Judaica-Sammlungen werden um die 1 Millionen Mal pro Monat aufgerufen. Nach dem großen Erfolg des Digitalisierungsprojektes hat die Universitätsbibliothek großes Interesse, weitere digitale Sammlungen mit OCR zu erschließen, um die digitale Recherche in ihren Beständen weiter zu verbessern und damit eine stärkere Nutzung der digitalen Quellen zu erreichen.

Like, share or repost

Sind Sie bereit, mit einem Experten zu sprechen?

Wir würden Sie gerne auf Ihrem Weg zur Automatisierung unterstützen.