Ziel und Fokus des DTA-Basisformats

Die folgende Darstellung dokumentiert das XML-Basisformat des DTA, welches die Grundlage für die Annotation der DTA-Volltexte bildet. Das DTA-Basisformat folgt den P5-Richtlinien der Text Encoding Initiative (TEI). Da diese Richtlinien jedoch Lösungen für sämtliche Bedürfnisse bei der Textaufbereitung anbieten sollen und daher entsprechend vielfältig und umfangreich sind, bedürfen sie im konkreten Einzelfall einer näheren Spezifikation. Daher wurde aus den P5-Richtlinien für die Textstrukturierung im DTA-Korpus eine Tag-Auswahl getroffen (Tagset), die das DTA-Basisformat bildet. Dieses Tagset ist mit den P5-Richtlinien der TEI vollständig konform; auf Erweiterungen (tei.extensions) durch davon abweichende Elemente wurde verzichtet.

Das DTA-Basisformat soll im Rahmen der DTA-Richtlinien, die daneben auch die allgemeinen Leitlinien des DTA sowie die Transkriptionsrichtlinien umfassen, eine umfassende Textaufbereitung ermöglichen und dabei gleichzeitig Variationsspielräume bei der Annotation so einschränken, dass die Kohärenz der DTA-Texte untereinander gewährleistet wird. Für dieses Ziel stellt die weite zeitliche Erstreckung des DTA-Korpus einerseits und seine Textsortenvielfalt andererseits eine große Herausforderung dar, resultiert sie doch u.a. in einer strukturellen Variabilität der Vorlagen, der mit dem zur Verfügung stehenden Tagset Genüge getan werden muss.

Mit der Ausarbeitung des DTA-Basisformats wollen wir einen Vorschlag für einen Standard zur Volltext-Aufbereitung historischer Texte unterbreiten. Damit soll die Analyse unterschiedlicher TEI-Texte mit einheitlichen Methoden und im Vergleich miteinander ermöglicht werden. Die DTABf-Annotationsrichtlinien sind ausführlich dokumentiert, um so Ambiguitäten und folglich Fehlinterpretationen der Auszeichnungsmöglichkeiten weiter zu minimieren. Somit sollen zum einen Texte, die mit dem Basisformat kompatibel sind, in das DTA einfließen können, zum anderen aber die Verwendung von DTA-Texten in anderen Volltextarchiven erleichtert werden.

Das DTA-Basisformat wurde von der DFG und CLARIN-D zur Nachnutzung empfohlen, namentlich in den folgenden Dokumenten:

Handreichung: Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora. Hrsg. vom Fachkollegium Sprachwissenschaften der Deutschen Forschungsgemeinschaft (DFG). Bonn 2015.
Förderkriterien für wissenschaftliche Editionen in der Literaturwissenschaft. Hrsg. vom Fachkollegium Literaturwissenschaft der Deutschen Forschungsgemeinschaft (DFG). Bonn 2015.
CLARIN-D User Guide. Part II (Linguistic resources and tools), ch. 6 (Types of resources), section "Text Corpora". Hrsg. von CLARIN-D AP 5. Berlin 2012.