Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

DTA-Nachrichten vom 24. September 2018

Neues Textformat im DTA: XML (DTABf) mit linguistischer Annotation (TEI class att.linguistic)

We use TEI

Seit Kurzem bietet das DTA für jeden DDC-indizierten Volltext mit „TEI/XML (inkl. att.linguistic)“ ein weiteres Datenformat zum Download an, das Wort- bzw. Token-bezogene Informationen aus der automatischen linguistischen Analyse in einem einzelnen XML-Dokument kombiniert. Anders als das parallel weiterhin angebotene TCF-Format vereint das neue Format strukturelle und semantische Annotationen aus dem DTA-Basisformat (DTABf) mit linguistischen Informationen zur Satzsegmentierung (gekennzeichnet mit dem Element <s> und einer eindeutigen XML-ID) und zu den einzelnen Wörtern bzw. Tokens (gekennzeichnet mit dem Element <w> und einer eindeutigen XML-ID). Grundlage für diese Notation ist die class „att.linguistic“[1] der Text Encoding Initiative (TEI), die von der Special Interest Group „TEI for Linguists“ entworfen und Anfang Januar 2018 mit dem Release 3.3.0 Eingang in die P5-Richtlinien der TEI gefunden hat.[2] Sie finden den Download zu jedem Werk unter dem Menüpunkt „Ansichten“ ⇒ „TEI/XML (inkl. att.linguistic)“.

Die Informationen auf Token-Ebene umfassen Angaben zur Grundform (Attribut @lemma), der Wortart (@pos, notiert gemäß dem im DTA verwendeten STTS-Tagset) sowie der durch CAB orthographisch normierten Schreibweise (@norm). Vgl. dazu z. B. den folgenden Satz[3]:

Ein ſchoͤnes Beyſpiel von dieſem Verdienſt betrachte man hier.
<s xml:id="s1">
  <w xml:id="wf1" lemma="eine" pos="ART" norm="Ein">Ein</w>
  <w xml:id="wf2" lemma="schön" pos="ADJA" norm="schönes">ſchoͤnes</w>
  <w xml:id="wf3" lemma="Beispiel" pos="NN" norm="Beispiel">Beyſpiel</w>
  <w xml:id="wf4" lemma="von" pos="APPR" norm="von">von</w>
  <w xml:id="wf5" lemma="diese" pos="PDAT" norm="diesem">dieſem</w>
  <w xml:id="wf6" lemma="Verdienst" pos="NN" norm="Verdienst">Verdienſt</w>
  <w xml:id="wf7" lemma="betrachten" pos="VVFIN" norm="betrachte">betrachte</w>
  <w xml:id="wf8" lemma="man" pos="PIS" norm="man">man</w>
  <w xml:id="wf9" join="right" lemma="hier" pos="ADV" norm="hier">hier</w>
  <w xml:id="wfa" join="left" lemma="." pos="$." norm=".">.</w>
</s>

[1] Vgl. Text Encoding Initiative: P5: Guidelines for Electronic Text Encoding and Interchange Version 3.4.0. Last updated on 23rd July 2018, revision 1fa0b54, Ch. 17.4: 17.4 Linguistic Annotation, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/AI.html#AILA, abgerufen am 24.09.2018.

[2] Vgl. dazu auch: Piotr Banski, Susanne Haaf, Martin Mueller: Lightweight Grammatical Annotation in the TEI: New Perspectives. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), 7.-12. Mai 2018, Miyazaki (Jp), S. 1795–1802. Online-Zugang.

[3] Aus: Hirschfeld, Christian Cay Lorenz: Theorie der Gartenkunst. Bd. 5. Leipzig, 1785, S. 12. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/hirschfeld_gartenkunst5_1785/20>, abgerufen am 24.09.2018.

von Christian Thomas, 24. September 2018