Vom gedruckten Buch zum digitalen Volltext - Der Digitalisierungsworkflow im DTA

1. Kurzgefasst

Die für das Deutsche Textarchiv ausgewählten Texte wurden zunächst gescannt und anschließend in Volltext umgewandelt. Für die strukturell einfacheren Bücher haben wir die Volltextdigitalisierung mit einer OCR-Software durchgeführt, alle anderen Texte wurden im Double-Keying-Verfahren manuell erfasst. Die nun im Rohformat vorliegenden Volltexte wurden in ein XML-Format nach den aktuell gültigen Richtlinien der Text Encoding Initiative konvertiert und mit bibliographischen Angaben versehen. Anschließend wurden die Texte mittels der linguistischen Suchmaschine DDC, die auch im Digitalen Wörterbuch der deutschen Sprache (DWDS) verwendet wird, indiziert.

2. Bilddigitalisierung

Um Doppeldigitalisierungen zu vermeiden, wurde zunächst geprüft, welche Werke bereits in digitalisierter Form vorliegen. Für eine Reihe von Büchern konnte daher auf bereits bestehende Digitalisate zurückgegriffen werden. In anderen Fällen war es jedoch nicht möglich, die Rechte für eine Anzeige im Rahmen des DTA einzuwerben oder die Qualität der vorhandenen Scans war für die Erstellung eines Volltextes nicht ausreichend. Zum Teil mussten daher Neudigitalisierungen bereits digital vorhandener Werke vorgenommen werden.

Die Digitalisierung der Bücher wurde zu einem kleinen Teil in der BBAW mit Hilfe eines Aufsichtscanners (Zeutschel OS 10.000) beziehungsweise mit einem Flachbettscanner (plustec Optibook 3600) vorgenommen. Den überwiegenden Teil der Digitalisate hat ein externer Dienstleister in den leihgebenden Bibliotheken mit zwei Aufsichtscannern im Parallelbetrieb angefertigt (Zeutschel OS 10.000 und Zeutschel OS 12.000). Dabei wurde mit dem Buchscanner eine Digitalisierungsleistung von maximal 500 Seiten am Tag erreicht, mit den Aufsichtscannern konnte eine durchschnittliche Leistung von ca. 900-1000 gescannten Buchseiten pro Personenarbeitstag (8 Std. Arbeitszeit) erreicht werden. Darüber hinaus war eine zeitnahe Vollständigkeits- und Qualitätskontrolle aller gescannten Seiten notwendig, damit eventuell aufgetretene Scan-Fehler umgehend korrigiert werden konnten.

Die Auflösung der Scans beträgt 300 dpi (bezogen auf das gescannte Original) bei einer Farbtiefe von 24 bit. Von diesen Qualitätsstandards wurde nur in Ausnahmefällen abgewichen, z.B. falls bereits ein Digitalisat in schlechterer Qualität vorlag und dem DTA zur Verfügung gestellt wurde, oder wenn für nachträgliche Ergänzungen defekter Exemplare auf qualitativ schlechtere Scans oder Fotokopien ausgewichen werden musste. Die Masterkopien der Scans wurden im unkomprimierten TIFF-Format archiviert, die Arbeitskopien und die für die Webanzeige verwendeten Bilder liegen im JPG-Format vor.

3. Volltexterstellung
3.1. Manuelle Texterfassung

Die gescannten Bücher wurden — abhängig von der Qualität der Vorlage und der Komplexität des Textes — entweder durch eine Texterkennungssoftware (OCR) oder durch die manuelle Erfassung im Double-Keying-Verfahren in Volltexte umgewandelt.

Bei der manuellen Erfassung konnte bereits während des Abtippens eine Vorstrukturierung der Texte vorgenommen werden, beispielsweise die Auszeichnung von Überschriften, Fußnoten und Ähnlichem. Da bei der manuellen Erfassung jedes getippte Zeichen zusätzlichen Zeit- und Kostenaufwand verursacht, wurde hier eine an den Guidelines der Text Encoding Initiative (TEI) orientierte, aber deutlich verkürzte Syntax eingesetzt, in der die Strukturmerkmale der Texte in möglichst knapper Form markiert werden können. Nachfolgend ein Beispiel für die verkürzte Erfassungssyntax:

<d2><g>Zweyter Aufzug</g>.</d2>
<hr>
<d3><g>Erster Auftritt</g>.</d3>
<ba><g>Orest. Pylade&sr;</g>.</ba>
<sp><g>Orest</g>.</sp>
<p><in>E</in>&sr; ist der Weg de&sr; Tode&sr;, den wir treten:
Mit jedem Schritt wird meine Seele stiller.
Al&sr; ich Apollen bath, da&sr; gräßliche
Geleit der Rachegeister von der Seite
Mir abzunehmen, schien er Hülf&2019; und Rettung
Im Tempel seiner vielgeliebten Schwester,
Die über Tauri&sr; herrscht, mit hoffnung&sr;reichen
Gewissen Götterworten zu versprechen;
Und nun erfüllet sich&2019;&sr;, daß alle Noth
<bs>C 2</bs>

Diese, noch nicht dem Standard der Text Encoding Initiative entsprechende Vorstrukturierung wurde in einem weiteren Schritt durch verschiedene Skripte in valides XML nach einem TEI/P5-basierten Schema umgewandelt.

<?xml version="1.0" encoding="UTF-8"?>
<TEI>
  <!-- . . . -->
  <div n="2">
      <head><hi rendition="#g">Zweyter Aufzug</hi>.</head>
      <lb/>
      <milestone unit="section" rendition="#hr"/>
      <div n="3">
          <head><hi rendition="#g">Erſter Auftritt</hi>.</head>
          <lb/>
          <stage><hi rendition="#g">Oreſt. Pylades</hi>.</stage>
          <lb/>
          <sp who="#ORE">
              <speaker>
                  <hi rendition="#c"><hi rendition="#g">Oreſt</hi>.</hi>
              </speaker>
              <lb/>
              <p>
                 <hi rendition="#in">E</hi>s iſt der Weg des Todes, den wir treten:<lb/>
                  Mit jedem Schritt wird meine Seele ſtiller.<lb/>
                  Als ich Apollen bath, das gräßliche<lb/>
                  Geleit der Rachegeiſter von der Seite<lb/>
                  Mir abzunehmen, ſchien er Hülf’ und Rettung<lb/>
                  Im Tempel ſeiner vielgeliebten Schweſter,<lb/>
                  Die über Tauris herrſcht, mit hoffnungsreichen<lb/>
                  Gewiſſen Götterworten zu verſprechen;<lb/>
                  Und nun erfüllet ſich’s, daß alle Noth<lb/>
                  <fw type="sig" place="bottom">C 2</fw>
                  <lb/><pb n="36" facs="#f0045"/>
	<!-- . . . -->
</TEI>

Vgl. Goethe, Johann Wolfgang von: Iphigenie auf Tauris. Leipzig: Göschen, 1787, S. 35.

Nach der Konvertierung in TEI-konformes XML wurden zum Teil noch weitere manuelle Nachstrukturierungen vorgenommen, beispielsweise bei komplex strukturierten Textpassagen, deren Struktur bei der Texterfassung noch nicht adäquat umgesetzt werden konnte.

3.2. Texterfassung per OCR-Software

Für die Volltexterfassung einfach strukturierter Texte setzt das DTA die OCR-Software Abbyy Finereader XIX (SDK-Version) ein, die in der Lage ist, auch in Fraktur gedruckte Texte zu erkennen. Um auch hier bereits vorab eine Strukturierung des Textes zu ermöglichen, wurde eine eigens für das DTA entwickelte Software eingesetzt, die es erlaubt, auf jeder Seite mehrere Textpassagen zu definieren und ihren Texttyp (normaler Text, Überschrift, Seitenzahl etc.) zu bestimmen.

Die Ergebnisse der OCR sind in jedem Fall noch fehlerbehaftet, die Erkennungsqualität liegt je nach Qualität der Vorlage bei 90-97 %, d.h. in Extremfällen wurde jedes zehnte Zeichen falsch erkannt. Eine Nachkorrektur der Texte ist daher unerlässlich. Zu diesem Zweck wurden für das DTA zwei weitere Programme entwickelt, mit denen zunächst in zwei voneinander unabhängigen Korrekturvorgängen die Fehler korrigiert und anschließend die beiden Korrekturfassungen auf Abweichungen überprüft und abgeglichen werden können. Nach diesem Arbeitsschritt können die korrigierten Volltexte schließlich durch mehrere Skripte in gültiges XML nach dem Schema des DTA überführt werden.

Eine detaillierte Übersicht zu den für die Volltexterstellung verwendeten Programmen finden Sie im Menü Dokumentation unter Software.

4. Linguistische Aufbereitung

Das Resultat der Volltexterstellung ist ein TEI/P5-Basisformat, das die Makrostuktur des Textes abbildet. Von diesem Basisformat ausgehend werden automatisiert verschiedene weitere Dateien im XML-Formate erzeugt, in denen zusätzliche linguistische Informationen zu den Texten enthalten sind. Die Etappen sind dabei die Folgenden:

  • Ein TEI-basiertes Format, in dem jedes einzelne Zeichen kodiert, mit einer eindeutigen ID-Nummer versehen und mit Informationen zu seinen Bildkoordinaten auf dem zugrundeliegenden Bilddigitalisat angereichert ist. Die Dateien in diesem Format sind sehr umfangreich (in der Regel > 50MB) und werden daher nur intern für die Weiterverarbeitung (Tokenisierung und Indizierung) verwendet.
  • Das buchstabenweise ausgezeichnete Format ist das Ausgangsformat für die Tokenisierung, d.h. für die Segmentierung des Textes in Wörter und Sätze. Dabei werden auch Abkürzungen erkannt und getrennte Wörter (z.B. an Zeilenenden) zusammengeführt. Das Ergebnis ist eine TEI-konforme XML-Datei, in der Wörter und Sätze ausgezeichnet und mit eindeutigen ID-Nummern versehen sind.
  • Der tokenisierte Text bildet den Ausgangspunkt für die Erstellung eines Suchindexes mit der Suchmaschine DDC. Die vom Tokenizer erkannten Sätze werden zur Indizierung an die Suchmaschine weitergeleitet. Diese erstellt für jeden Text einen Index, der zu jedem Wort Informationen zu Fundstelle, Phonetik und Bildkoordinaten des Fundwortes, sowie zu seinem strukturellen Kontext enthält.

Weitere Informationen zur linguistischen Aufbereitung der Texte erhalten sie unter dem Menüpunkt Software.