Die Firma Prepress Systeme aus Oberursel hat ein Jahr lang die Ausgaben der HNA von 1945 an digitalisiert

Ein langer Weg - so wurden alte HNA-Ausgaben digitalisiert

+

Ein Zeitungsarchiv zu digitalisieren, ist eine Herkules-Aufgabe. Die Firma Prepress Systeme (PPS) in Oberursel im Taunus hat seit 14 Jahren auf diesem Gebiet Erfahrung. Nun haben sie auch die Ausgaben der HNA digitalisiert. Den langen Weg vom Print-Archiv bis zur digitalisierten Zeitung stellen wir in fünf Schritten vor:

1. Vorbereitung: Am Anfang der Digitalisierung steht handwerkliche Arbeit. Beim Binden ihrer gedruckten Zeitungen haben die Verlage nicht an eine spätere Verarbeitung gedacht – teilweise wurden die alten Seiten nur mit Nägeln oder Klammern zusammengehalten. Das war auch bei der Archivierung älterer Ausgaben der Hessischen Nachrichten (Vorgänger der HNA) der Fall. In diesem Fall ist das Öffnen der Bücher kaum möglich. Diese Exemplare mussten buchbinderisch überarbeitet werden. Erst als die alten Buchblöcke neu gebunden waren, war eine weitere Verarbeitung möglich.

So greifen Sie auf das Archiv zu: 

Neue Abo-Plattform: „Meine HNA“ ist Ihre HNA

2. Scannen: Beim Scannen steht die Firma PPS vor einer schweren Aufgabe. Die Texte dürfen keine Vergilbungen oder Alterserscheinungen aufweisen. Sie müssen eine so gute Qualität besitzen, dass sie fehlerfrei von der automatisierten Texterkennung erfasst und dadurch später Begriffe in den Artikeln gefunden werden, wenn sie Nutzer in der Suchmaschine des digitalen Archivs eingeben. Damit das funktioniert, muss PPS verzerrungsfrei scannen. Hierbei ist besonders die enge Bindung der Zeitungsseiten ein Problem, da dadurch die Seiten des Papiers gekrümmt sind. Eine von PPS entwickelte Buchwippe löst das Problem. Die südhessische Firma arbeitet mit drei Scanner-Anlagen. So kann sie bis zu 250 000 Seiten in einem Monat scannen. „Es gibt in Deutschland kein anderes Unternehmen, das dies schafft“, sagt PPS-Geschäftsführer Siegfried Peis.

3. Verarbeitung nach dem Scannen: Nach dem Scannen ist es wichtig, die Seiten für die automatisierte Texterkennung vorzubereiten. Dazu müssen die Mitarbeiter die Seiten geraderichten. Zwischen den Zeilen müssen Schmutzpartikel und in den Überschriften weiße Punkte entfernt werden. Ansonsten kann es passieren, dass später die Texterkennung die Überschriften nicht als Text, sondern als Bild erkennt.

4. Layout-Erkennung: Eine weitere Herausforderung stellt die große Zahl an Layoutvarianten der verschiedenen Zeitungen dar. Daher gibt es keine Standardsoftware. Die spezielle Software muss die unterschiedliche Bedeutung von Linien verstehen. Die Layout-Erkennung besteht aus zwei Korrekturprogrammen der Firma PPS. Der Vorkorrektor erkennt und korrigiert den Spaltenfluss. Dadurch begreift das System, dass zwei nebeneinanderstehende Artikel nicht zusammengehören. Der Nachkorrektor erkennt die einzelnen Elemente des Artikels wie Titel, Untertitel, Text, Bild und Bildunterschrift.

5. Artikel-Separierung: Die automatisierte Artikelseparierung (AAS) ist der letzte Schritt auf dem Weg zur Digitalisierung. Die AAS erkennt einzelne Artikel-Elemente und versieht diese mit Schlagwörtern und Metadaten. Dadurch werden die Artikel, in denen die Begriffe vorkommen, gefunden, wenn der Nutzer nach Wörtern im Archiv sucht.

Digitalisierung in Zahlen: 750.000 Seiten wurden gescannt

- Ein Jahr dauerte die Digitalisierung der HNA.

- Acht Mitarbeiter waren an der Digitalisierung beteiligt.

- 12.000 Bücher mit HNA-Ausgaben wurden vor dem Scannen neu gebunden.

- 750.000 Seiten scannte die Firma PPS.

Von Manuel Kopp

Das könnte Sie auch interessieren

Liebe Leserinnen und Leser,

wir bitten um Verständnis, dass es im Unterschied zu vielen anderen Artikeln auf unserem Portal unter diesem Artikel keine Kommentarfunktion gibt. Bei einzelnen Themen behält sich die Redaktion vor, die Kommentarmöglichkeiten einzuschränken.

Die Redaktion

Kommentare

Unsere Kommentarfunktion wird über den Anbieter DISQUS gesteuert. Nutzer, die diesen Dienst nicht verwenden, können sich hier über das alte HNA-Login anmelden.

Hinweise zum Kommentieren:
In der Zeit zwischen 17 und 9 Uhr werden keine neuen Beiträge freigeschaltet.

Auf HNA.de können Sie Ihre Meinung zu einem Artikel äußern. Im Interesse aller Nutzer behält sich die Redaktion vor, Beiträge zu prüfen und gegebenenfalls abzulehnen. Halten Sie sich beim Kommentieren bitte an unsere Richtlinien: Bleiben Sie fair und sachlich - keine Beleidigungen, keine rassistischen, rufschädigenden und gegen die guten Sitten verstoßenden Beiträge. Kommentare, die gegen diese Regeln verstoßen, werden von der Redaktion kommentarlos gelöscht. Bitte halten Sie sich bei Ihren Beiträgen an das Thema des Artikels. Lesen Sie hier unsere kompletten Nutzungsbedingungen.

Die Kommentarfunktion unter einem Artikel wird automatisch nach drei Tagen geschlossen.