DTA - Deutsches Textarchiv

1. Kurzgefasst

Das von der Deutschen Forschungsgemeinschaft geförderte Projekt Deutsches Textarchiv (DTA) der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) hat sich zum Ziel gesetzt, einen disziplinübergreifenden Kernbestand deutschsprachiger Texte aus der Zeit von ca. 1650 bis 1900 nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen. In der ersten Projektphase (2007-2010) sollen ca. 650 Werke aus der Zeit von 1780-1900 digitalisiert werden. In der zweiten Projektphase (2010-2014) soll das Deutsche Textarchiv um Werke aus der Zeit von 1650-1780 erweitert werden.

Der Zugang zu den Volltexten auf dieser Webpräsenz ist für jedermann frei unter der CC-BY-NC Lizenz, die Texte stehen sowohl im HMTL Format als auch in einem XML TEI P5 Format zum Download zur Verfügung.

2. Projektüberblick
2.1. Die Textauswahl des DTA

Das Ziel des DTA ist es, eine repräsentative und disziplinübergreifende Auswahl deutschsprachiger Texte zur Verfügung zu stellen. Um dabei das gesamte Spektrum der deutschen Sprache zu erfassen, war von Beginn des Projekts an geplant, die Auswahl der zu digitalisierenden Texte nicht auf den bekannten Kanon hochliterarischer Texte zu beschränken, sondern bewusst auch weniger bekannte und insbesondere auch nicht-literarische Texte in das Archiv aufzunehmen.

Um dieses Ziel zu erreichen, wurde in einem ersten Schritt eine Basisliste von Texten erstellt, die sich zunächst an dem in der Literaturgeschichtsschreibung verankerten Kanon "wichtiger Werke" orientierte. Ergänzend dazu wurde als zweiter wichtiger Ausgangspunkt für die Zusammenstellung der Basisliste das für die Erstellung des Deutschen Wörterbuchs ("Grimmsches Wörterbuch") verwendete Textkorpus herangezogen, dessen Titel in Teilen für das DTA übernommen werden konnten.

In einem zweiten Schritt wurde die so erstellte Liste an die Mitglieder der BBAW versandt. Die Akademiemitglieder wurden gebeten, die aufgenommenen Werke in ihrer Bedeutung für ein Deutsches Textarchiv zu bewerten und aus ihrer fachlichen Perspektive Ergänzungen zur Titelliste vorzuschlagen. Insbesondere in den naturwissenschaftlichen Fächern konnten so wichtige Änderungs- und Ergänzungsvorschläge ermittelt werden. Aus den Antworten der Akademiemitglieder wurde schließlich die Liste der für das Textarchiv zu digitalisierenden Texte kulminiert. Diese musste im Projektverlauf in einigen Punkten noch leicht verändert werden, z.B. wenn Texte oder Ausgaben nur schwer für die Digitalisierung erreichbar waren.

2.2. Die Auswahl der Digitalisierungsvorlagen

Damit der historische Sprachstand möglichst genau abgebildet wird, legt das DTA Wert darauf, als Vorlage für die Digitalisierung in der Regel die Erstausgaben der Texte zu verwenden. In einigen Fällen konnte die Erstausgabe nicht mit Sicherheit ermittelt werden, beispielsweise bei Doppel- und Zwitterdrucken, Presskorrekturen und ähnlichen Phänomenen. Hier wurde ein mit vertretbarem Aufwand erreichbares Exemplar digitalisiert und, z.B. durch Verweis auf die maßgeblichen Bibliographien, eine möglichst genaue Identifikation der Ausgabe vorgenommen. Moderne gemeinfreie Leseausgaben wurden bewusst nicht als Textgrundlage herangezogen, da diese in der Regel der modernen Orthographie angenähert sind. Moderne wissenschaftliche Ausgaben konnten nicht als Digitalisierungsvorlagen verwendet werden, da diese in den meisten Fällen noch nicht gemeinfrei vorliegen.

Die Digitalisierung der historischen Ausgaben eröffnet neben sprach- und literaturwissenschaftlichen Untersuchungsmöglichkeiten noch eine Reihe weiterer Forschungsperspektiven, z.B. zu typographiegeschichtlichen oder verlagshistorischen Fragestellungen.

2.3. Bilddigitalisierung

Um die historischen Drucke digitalisieren zu können, kooperiert das DTA mit mehreren großen Bibliotheken, die sich bereit erklärt haben, die entsprechenden Exemplare aus ihren Beständen zur Digitalisierung zur Verfügung zu stellen. Die Digitalisierung wurde zum kleineren Teil in den Räumen der BBAW vorgenommen, der größere Teil wurde jedoch in den Bibliotheken — entweder durch einen externen Dienstleister oder durch die Bibliotheken selbst — angefertigt.

Die Bilddigitalisierung für die erste Projektphase begann im September 2007 und wurde im Herbst 2008 bis auf kleinere Ergänzungen abgeschlossen. Insgesamt wurden in dieser Zeit für das DTA 250.000 Bilddigitalisate mit einem Datenvolumen von insgesamt knapp 4 Terabyte angefertigt.

2.4. Volltextdigitalisierung

Die Bilddigitalisate bilden den Ausgangspunkt für die Erstellung der Volltexte. Je nach Qualität und Komplexität der Vorlagen wurden die Volltexte entweder durch eine Partnerfirma manuell im Double-Keying-Verfahren oder durch eine Texterkennungssoftware (OCR), deren Ergebnisse überprüft und manuell korrigiert wurden, erstellt. Ziel ist es, jeweils den vollständigen Text einschließlich seiner textuellen Vor- und Nachstücke, Anmerkungen usw. als Volltext umzusetzen. Dazu werden die manuell oder per OCR erzeugten Volltexte durch eine Reihe von Skripten in ein XML-basiertes Format umgewandelt. Die Kodierung erfolgt nach den Richtlinien der Text Encoding Initiative in der aktuellen Fassung TEI/P5. Dabei werden die Grundstruktur des Textes (d.h. in der Regel Kapitel, Unterkapitel, Absätze) sowie typographische Hervorhebungen ausgezeichnet, weiterhin auch typographische Bestandteile wie Kolumnentitel, Bogensignaturen und Ähnliches. In einem weiteren Bearbeitungsschritt findet zudem automatisiert eine wortweise Verknüpfung zwischen Text und Bilddigitalisat statt.

2.5. Linguistische Erschließung der Texte

Im zunächst letzten Arbeitsschritt folgt die Erschließung der Volltexte mit computerlinguistischen Hilfsmitteln. Alle Texte werden durch die linguistische Suchmaschine DDC, die für das Projekt Digitales Wörterbuch der Deutschen Sprache entwickelt wurde, indiziert. Dabei werden die Texte tokenisiert und auf ihre Grundform zurückgeführt (lemmatisiert). Dadurch sind komplexe Suchanfragen sowie die Suche nach flektierten Formen möglich (die Suche nach "Haus" findet auch "Häuser").

2.6. Weiterentwicklung zum 'Aktiven Archiv'

Das Deutsche Textarchiv soll zu einem 'aktiven Archiv' entwickelt werden, das den Benutzern verschiedene Möglichkeiten eröffnet, online mit den Texten zu arbeiten und sie zu bearbeiten. Dazu gehören Funktionen wie die Zusammenstellung einer privaten Textauswahl (beispielsweise für Seminarapparate), das Setzen persistenter Lesezeichen auf Textpassagen und das Hinzufügen von Annotationen. Weiterhin wird die Möglichkeit geprüft, registrierten Nutzern die Berechtigung einzuräumen, eigenständig Texte in das DTA zu integrieren, sofern diese dem Erfassungszeitraum und den Qualitätsanforderungen des Projekts genügen.