Kollaborative Qualitätssicherung im Deutschen Textarchiv

DTAQ (Deutsches Textarchiv – Qualitätssicherung) ist eine webbasierte Anwendung, um in XML/TEI-annotierten Textdigitalisaten verschiedene Arten von Fehlern zu finden, zu kategorisieren und zu korrigieren. Die Oberfläche von DTAQ ist durch jeden Nutzer individuell anpassbar, so dass verschiedene Ansichten der Quelldigitalisate und Texttranskriptionen einstellbar sind.

DTAQ ist nach der Registrierung frei für jeden nutzbar.

Mehr Informationen zum Projekt Deutsches Textarchiv.

Korrekturlesen, Annotieren, Korrigieren

Die Korrektur der Digitalisate erfolgt seitenbezogen. Digitalisat und Transkription werden nebeneinander dargestellt (Text-Bild-Ansicht). Fehler in der Textgrundlage können direkt und ohne XML-Kenntnisse mit dem Instant-Editor in der Text-Bild-Ansicht korrigiert werden. Das Bearbeiten der XML-Annotationen ist über einen integrierten Editor ebenfalls möglich. Alle Änderungen werden in einem git-Repository hinterlegt und zeichnen so die digitale Genese der Korrekturvorgänge auf. Nach erfolgter Korrektur kann jede einzelne digitalisierte Seite von den Benutzern als „korrekturgelesen“ markiert werden.

Integriertes Ticketsystem

Die direkte Korrektur des Texts ist einem kleinen Nutzerkreis mit Erfahrung im DTA-Basisformat vorbehalten. Die anderen Nutzer können bei der Verbesserung der Texte über eine Fehlermeldungsumgebung mitwirken. Hier können Fehler in Form von „Tickets” gemeldet und – ähnlich einem Bugtracking-Tool aus der Softwareentwicklung – kommentiert und einzelnen Benutzern zugewiesen werden. Eine systematische Klassifikation (Transkriptionsfehler, Auszeichnungsfehler, Darstellungsfehler, Fehler in Metadaten, Fehler im Workflow, Druckfehler) erlaubt eine genaue Bewertung der Qualität einzelner Werke im Korpus.

Unterstützung durch linguistische Analysen

Die linguistischen Tools des DTAs sind in DTAQ voll integriert. Zum einen, um diese selbst permanent zu testen und zu verbessern und zum anderen, um weitere Textansichten zu ermöglichen. Die CAB-Analyse zur Normalisierung historischer Schreibung kann für jede Textseite eines Werkes in DTAQ genutzt werden, um Fehler der Transkription leichter zu finden. Als Resultat der automatischen Analyse durch CAB stehen für alle Wörter Part-of-Speech-Informationen, Lemmata, orthographisch normierte Formen, Äquivalenzformen in semantischen Wortnetzen (GermaNet) u. v. m. bereit.

Komfortables Arbeiten im Browser

DTAQ erfordert keinerlei Installation durch den Benutzer, sondern stellt ein webbasiertes Tool dar, das in jedem modernen Browser läuft. Es ist somit überall benutzbar. Weitere Funktionen sind:

  • voller Unicode-Support,
  • Suchmöglichkeiten via DDC und grep,
  • integrierter Editor für mathematische Formeln,
  • Arbeitsgruppen anhand einer integrierten Rechte- und Rollenverwaltung,
  • parametrisierbare Ansichten.

Dokumentation, Community, Support

Wir bieten eine umfangreiche Dokumentation, die anhand vieler praktischer Beispiele die Arbeit mit DTAQ erleichtert: Korrekturfibel, DTA-Basisformat.

DTAQ in Zahlen (2019/05):

  • 5 111 Werke, 964 276 Textseiten
  • 1 800 Benutzer
  • 82 430 angelegte Tickets (74 184 behoben)
  • 51 930 Korrektur gelesene Seiten

Kontakt: dtakorrektur(at)bbaw.de
Twitter: @textarchiv