Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

DTA-Richtlinien zur Texterfassung

1  Vorbemerkung

Ziel des Deutschen Textarchivs (DTA) ist die Erstellung eines disziplinenübergreifenden Volltextkorpus deutschsprachiger Texte. Grundlage hierfür bilden digitale Faksimiles historischer Druckwerke (Entstehungszeit der Drucke zwischen ca. 1600 und 1900). Das Korpus umfasst Werke verschiedener Textsorten, literarischer Gattungen und wissenschaftlicher Disziplinen. Ziel des Projekts ist die Bereitstellung und – aufgrund der großen Textmenge weitestgehend automatische – linguistische Aufbereitung eines vielseitigen, umfangreichen Textbestandes auf dieser heterogenen Grundlage.

Die Erfassung der Texte im DTA erfolgt nach dem Prinzip der Wahrung des historischen Sprachstandes der Texte. Aufgrund dieser Zielsetzung wird darauf geachtet, bei der Texterfassung die Zahl der (unvermeidbaren) Interpretationen typographischer Gegebenheiten gering zu halten. Um unbewusste Modernisierungen oder Korrekturen zu vermeiden, werden die Texte von Nicht-Muttersprachlern eingegeben (siehe dazu auch Volltextdigitalisierung im Deutschen Textarchiv). Eine Druckfehlerkorrektur erfolgt daher während der Erfassung nicht, kann aber im Erschließungs- und Korrekturprozess eingeschränkt vorgenommen werden.

Aus dem Prinzip größtmöglicher Bewahrung des Vorlagentextes bei gleichzeitiger Konzentration auf die lexikalischen Gegebenheiten ergeben sich für die Texterfassung die folgenden Richtlinien.

2  Definitionen und Konventionen für diese Richtlinien

Unter der Vorlage sind, so nicht anders vermerkt, die digitalen Faksimiles einer Buchausgabe zu verstehen, auf welchen der DTA-Volltext basiert.

Nichtproportionalschrift wird verwendet für:

  • die Angabe von Textbeispielen
  • die Angabe von Tags bzw. Codebeispielen

Die Notation U+NNNN verweist auf ein entsprechendes Unicode-Zeichen. Desweiteren wird in den Transkriptionsbeispielen bei höherbittigen Unicode-Zeichen die von XML abgeleitete Notationsform &#xNNNN; benutzt.

3  Grundsätzliches zur Transkription

Die Texterfassung erfolgt grundsätzlich vorlagengetreu im Unicode-Format (Kodierung in UTF-8) des zum Zeitpunkt der Erfassung gültigen Unicode-Standards. Dabei werden die Zeichen, wenn möglich, hinsichtlich ihrer Semantik abgebildet.

Auf modernisierende Veränderungen des lexikalischen Materials wird in der Regel verzichtet, z. B. auch in Bezug auf die Schreibung von Eigennamen. Auch Druckfehler werden übernommen (zum Verfahren der Druckfehlerannotation siehe das entsprechende Kapitel im DTA-Basisformat).

Zur Behandlung von unleserlichen bzw. schwer entzifferbaren Zeichen siehe das entsprechende Kapitel im DTA-Basisformat.

Ausnahmen und Abweichungen davon werden ausführlich in diesem Dokument besprochen.

4  Schreibweisen, spezielle Zeichen und Sonderzeichen

4.1  Unterscheidung von I vs. J

Der Typensatz der Frakturschrift weist in der Regel nur ein Graphem für die heutigen Majuskeln I und J auf. In der Transkription wird dieses Graphem nicht entsprechend des Lautwerts jeweils als I- bzw. J-Graphem wiedergegeben, sondern es steht grundsätzlich die Majuskel J.

Im Falle von Abkürzungen steht ebenfalls grundsätzlich die Majuskel J (z. B. J. E. Hitzig bei Julius/Iulius Eduard Hitzig und K. J. Beck für Karl Isidor/Jsidor Beck).

Der Typensatz der Frakturschrift weist in der Regel nur ein Graphem für die heutigen Majuskeln I und J auf. In der Transkription wird dieses Graphem entsprechend des Lautwerts jeweils als I- bzw. J-Graphem wiedergegeben. Im Falle von Abkürzungen wird ebenfalls nach Lautwert die Majuskel J oder I getippt, sofern dieser sich ermitteln lässt (z. B. J. E. Hitzig bei Julius Eduard Hitzig, aber K. I. Beck bei Karl Isidor Beck). Lässt sich der Lautwert nicht ermitteln, steht die Majuskel J.

4.2  Unterscheidung von u und v

Die Grapheme u und v, die in den Vorlagen jeweils sowohl den Laut /u/ als auch den Laut /f/ repräsentieren können, werden vorlagengetreu wiedergegeben. (z. B. vnd, vnuertig).

4.3  s-Grapheme

Sowohl in Fraktur- als auch in Antiquatexten können zwei Formen des Kleinbuchstabens s auftreten: das Schaft-s (ſ, U+017F, LATIN SMALL LETTER LONG S) und das runde s (s, U+0073, LATIN SMALL LETTER S). Sie werden in der Transkription unterschieden.

Die ursprüngliche zusammengesetzte Form aus Schaft-s + s wird beibehalten: ſs.

Die Ligatur Schaft-s + z wird als ß wiedergegeben.

4.4  r-Grapheme

Das sog. runde r wird mittels seiner entsprechenden Unicode-Entität (ꝛ, U+A75B, LATIN SMALL LETTER R ROTUNDA) abgebildet. Es findet sich häufig in Zusammenhang mit dem heute gebräuchlichen r oder als et-Substituent in Abkürzungen für et cetera.

Beispiel (rundes r als heutiges r und als et):

Vorlage Transkription
Herr (mit rundem r) Herꝛ
etc. (mit rundem r) ꝛc.

4.5  Ligaturen

Vokalische Ligaturen werden grundsätzlich realisiert:

Vorlage Zeichen Entität Beschreibung
ae-Ligatur æ U+00E6 LATIN SMALL LETTER AE
oe-Ligatur œ U+0153 LATIN SMALL LIGATURE OE

Konsonantische Ligaturen (tz, ct, ts, ff etc.) sowie die Ligatur ij werden dagegen grundsätzlich aufgespalten.

4.6  Umlaute

Umlaute werden entsprechend der Vorlage transkribiert, d. h. die Umlaute in den heute gebräuchlichen Formen Ä, Ö, Ü, ä, ö, ü werden von solchen, die durch ein hochgestelltes e (U+0364, COMBINING LATIN SMALL LETTER E) über Vokal gekennzeichnet sind, unterschieden (z. B. uͤ).

4.7  Kürzungsstriche

Kürzungsstriche (Balken oder geschlängelte Linie über Buchstaben als Substituenten für ausgelassene Zeichen, Nasalstrich, Geminationsstrich) werden mittels des Zeichens U+0303, COMBINING TILDE transkribiert.

Vorlage Transkription
from̃en
Uñ macht

4.8  Diakritika

Diakritika werden nach Möglichkeit mittels Unicode-Entitäten realisiert, z. B. das hochgestellte o (U+0366, COMBINING LATIN SMALL LETTER O) über u bzw. U, das c-Cedille (ç, U+00E7, LATIN SMALL LETTER C WITH CEDILLA), die e caudata (ę, U+0119, LATIN SMALL LETTER E WITH OGONEK) in der Bedeutung ae oder das e mit Trema (ë, U+00EB, LATIN SMALL LETTER E WITH DIAERESIS).

Die Grundlage für die Transkription bildet der deutsche bzw. lateinische Zeichensatz. Zeichen anderer Alphabete (Griechisch, Kyrillisch, Hebräisch …) werden mittels ihrer entsprechenden Unicode-Entitäten realisiert. Gültig ist der Unicode-Standard zum Zeitpunkt der Erfassung. Die Unicode-Listen, die eine Vielzahl der Fälle abdecken, finden sich unter http://www.unicode.org/charts/.

4.9  Reservierte Zeichen bei der Strukturierung der Transkription mit XML

Da eine Transkription in einem XML-Format empfohlen wird, muss darauf geachtet werden, dass spitze Klammern im Transkriptionstext mit &lt; (<) und &gt; (>) wiedergegeben werden.

Das sog. „Kaufmanns-Und“/„Ampersand“ (&) wird entsprechend als &amp; realisiert.

4.10  Apostrophe

Apostrophe werden stets mittels des Zeichens U+0027, APOSTROPHE transkribiert (entgegen der Empfehlung des Unicodestandards, das Zeichen U+2019, RIGHT SINGLE QUOTATION MARK zu benutzen). Damit ist eine konsequente Unterscheidung zwischen Apostroph und einfachem Anführungszeichen möglich.

4.11  Weitere Sonderzeichen

Der Umgang mit Sonderzeichen, die nicht in der Unicode-Tabelle enthalten sind und somit nicht kodiert werden können, wird im Kapitel Unleserliche bzw. schwer entzifferbare Zeichen des DTA-Basisformats näher erläutert.

5  Zahlen

Sind große Zahlen in Blöcken gedruckt, werden keine Leerzeichen innerhalb des Zahlenblocks gesetzt, z. B. 1000000 (es wird also von der Vorlage abgewichen).

Bei Prozentangaben steht: Zahl Leerzeichen %-Zeichen; z. B. 50 %.

Bei Temperaturangaben steht vor der Einheit ein Leerzeichen; z. B. 360 °C.

Brüche: Brüche werden, sofern vorhanden, mittels ihrer entsprechenden Unicode-Entitäten wiedergegeben:

Zeichen Entität
½ U+00BD
U+2153
U+2154
¼ U+00BC
¾ U+00BE
U+2155
U+2156
U+2157
U+2158
U+2159
U+215A
U+2150
U+215B
U+215C
U+215D
U+215E
U+2151
U+2152

Alle sonstigen Brüche können mithilfe des DTA-Basisformats als Formel transkribiert werden (siehe DTA-Basisformat, Formeln).

Für mathematische oder physikalische Konstanten gelten die folgenden Unicode-Zeichensätze:

6  Zeichensetzung

Alle Satzzeichen (Fragezeichen, Ausrufezeichen, Punkt, Komma, Semikolon, Doppelpunkt, Virgel) werden wie gedruckt erfasst. Auf eine Normalisierung der Zeichensetzung nach heutigen Standards wird verzichtet.

Satzzeichen stehen ohne Leerzeichen direkt am vorangehenden Wort. Im Anschluss folgt ein Leerzeichen. Gleiches gilt für Trunkierungen, wenn auf den Bindestrich eine Konjunktion folgt (z.B. Nord- und Ostsee). Anführungszeichen und Klammerungen stehen ohne Leerzeichen direkt an dem durch sie eingeschlossenen Text.

Auslassungspunkte werden von jeweils einem Leerzeichen umschlossen. Eine Ausnahme bilden Punkte, die einen Wortabbruch verdeutlichen. Sie stehen ohne Leerzeichen direkt nach dem unvollständigen Wort.

Vor und nach Gedankenstrichen im Satz steht jeweils ein Leerzeichen. Steht der Gedankenstrich direkt vor einem Satzzeichen, wird dazwischen kein Leerzeichen getippt.

Für die Zeichensetzung gilt die folgende Unicode-Tabelle:
http://www.unicode.org/charts/PDF/U2000.pdf (General Punctuation)

6.1  Gedankenstrich

Gedankenstriche können in verschiedenen Längen auftreten. Soweit sie in dieser Verschiedenheit erkannt werden, werden sie als folgende hexadezimale Unicode-Entitäten wiedergegeben:

Zeichen Entität Beschreibung
- U+002D Bindestrich/Silbentrennstrich/Minuszeichen (HYPHEN-MINUS)
U+2012 Ziffernstrich (FIGURE DASH)
U+2013 Halbgeviertstrich (Gedankenstrich) (EN DASH)
U+2014 Geviertstrich (langer Gedankenstrich) (EM DASH)

Ist eine Unterscheidung der Länge des Gedankenstriches nicht erkennbar, wird dieser als Halbgeviertstrich erfasst.

6.2  Silbentrennung

Als Silbentrennstrich wird, ungeachtet des Erscheinungsbildes im Text, der Bindestrich (U+002D) verwendet.

In Texten, die durch OCR erfasst wurden, kann als Silbentrennstrich ¬ (U+00AC) stehen.

6.3  Anführungszeichen

Die Anführungszeichen im Text werden mit den entsprechenden Unicode-Entitäten abgebildet, damit ihre eindeutige Zuordnung zum Text (linksanschmiegend, rechtsanschmiegend, oben oder unten) festgelegt wird.

Zeichen Entität Beschreibung
U+2018 LEFT SINGLE QUOTATION MARK
U+2019 RIGHT SINGLE QUOTATION MARK
U+201A SINGLE LOW-9 QUOTATION MARK
U+201B SINGLE HIGH-REVERSED-9 QUOTATION MARK
U+201C LEFT DOUBLE QUOTATION MARK
U+201D RIGHT DOUBLE QUOTATION MARK
U+201E DOUBLE LOW-9 QUOTATION MARK
U+201F DOUBLE HIGH-REVERSED-9 QUOTATION MARK
U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK
U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
« U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
» U+00BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK

Für die einfachen und doppelten Anführungszeichen vgl. die Unicode-Tabelle General Punctuation http://www.unicode.org/charts/PDF/U2000.pdf

Für die französischen Anführungszeichen vgl. die Unicode-Tabelle Controls and Latin-1 Supplement http://www.unicode.org/charts/PDF/U0080.pdf

6.4  Anmerkung

Für einige Texte aus der 1. Projektphase des Deutschen Textarchivs wurden diese Richtlinien noch nicht vollständig umgesetzt.

Stand dieser Seite: Fri Nov 7 10:20:26 2014