Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

Download

Übersicht

Metadaten

DTA-Korpora

Alle zum Download bereitgestellten Texte sind im DTA-Basisformat, einem TEI/P5-XML-Subset, ausgezeichnet.

TCF-Versionen

  • TCF-Version vom 14. Januar 2020:
  • TCF-Version vom 18. Oktober 2018:
  • TCF-Version vom 1. September 2017:
    • DTA-Kernkorpus (in den Formaten „TCF text annotation layer“ und „TCF tokenisiert, serialisiert, lemmatisiert, normalisiert“)
    • DTA-Kernkorpus und Ergänzungstexte (in den Formaten „TCF text annotation layer“ und „TCF tokenisiert, serialisiert, lemmatisiert, normalisiert“)
    • nach Textklassen gruppiert und im Format „TCF text annotation layer“
  • TCF-Version vom 11. Mai 2016:

Reintext-Versionen

Die Reintext-Versionen enthalten keine Metadaten. Bitte beachten Sie, dass der Textfluss in den Dateien nicht dem im Original entsprechen muss. Die Worttrennung am Zeilenende in den Textdateien ist aufgelöst. Außerdem sind folgende Informationen nicht in den Dokumenten enthalten (falls im Original ausgezeichnet):

  • Seiten- und Zeilenzahlen
  • Kolumnentitel, Bogensignaturen, Kustoden

DTA-Kernkorpus, Version vom 2020-10-23

lemmatisiert

Paket Umfang Größe MD5
Zeitraum 1500-1599 1 Text 151K 82b4eb605b83696d28e0e784b9d8680d
Zeitraum 1600-1699 237 Texte 45M eee8061c0ddfce898e84466d00dfee7f
Zeitraum 1700-1799 526 Texte 90M 65cb3bb2ab6cf8be816d54ab88df094c
Zeitraum 1800-1899 684 Texte 128M 1476c75c4c3a1202b472b44e3f5e999c
Zeitraum 1900-1999 19 Texte 8.0M 3babab43423c441ac300ff016afc5050
Textkategorie Belletristik 551 Texte 70M 96dc6933aa94ec7bd245c3688346fb60
Textkategorie Gebrauchsliteratur 266 Texte 53M b5d2945a552d662c9adf53975eef9735
Textkategorie Wissenschaft 650 Texte 148M a9600f57e7595ff04e7a3cdb5e65fbe0
gesamt 1467 Texte 270M b9a03d116c244c2da30ccc0937cc9c87

normalisiert

Paket Umfang Größe MD5
Zeitraum 1500-1599 1 Text 160K 92b9549df2414159e20c51a60d84d9ce
Zeitraum 1600-1699 237 Texte 49M 121f5730640e0a7579b90e36148775bf
Zeitraum 1700-1799 526 Texte 98M ad5d61c9a06e6948cfdcaf5ef044f2a7
Zeitraum 1800-1899 684 Texte 139M 25ec9bd1a6344b77194346cbf2272483
Zeitraum 1900-1999 19 Texte 8.5M 98206704191609b2320f9e0564a0e697
Textkategorie Belletristik 551 Texte 76M 193b7808e24bf445719eb1d7156c0eaf
Textkategorie Gebrauchsliteratur 266 Texte 57M efff03b29e9a2cf916ba9aa69696a639
Textkategorie Wissenschaft 650 Texte 161M 03f7c0f8087092710d83d02a411cb3d5
gesamt 1467 Texte 293M eab0a7d14fbcc88286930c60c561af8f

Originaltext

Paket Umfang Größe MD5
Zeitraum 1500-1599 1 Text 166K 372a20417d93b0a30877ab330b0ad6f9
Zeitraum 1600-1699 237 Texte 50M af2771faef5b488fc44d13d271ece20a
Zeitraum 1700-1799 526 Texte 99M abfa0573783e345821a98f4b9f401f12
Zeitraum 1800-1899 684 Texte 140M c1334dd5f2de1c6f6cbbcc825fd09bdc
Zeitraum 1900-1999 19 Texte 8.7M 40c33561aa0094a0db3ce78d3fcdc4c6
Textkategorie Belletristik 551 Texte 78M 2b18272ce64c9275c00c1d270bc6e2df
Textkategorie Gebrauchsliteratur 266 Texte 58M 6e9591e17a07b021feba06fe32a227ce
Textkategorie Wissenschaft 650 Texte 163M 98ca036ef875ad04d9ddf1d8f1f5152b
gesamt 1467 Texte 298M f0628f792722c9f7d8e7b10425af7491

transliteriert

Paket Umfang Größe MD5
Zeitraum 1500-1599 1 Text 162K 2adf4bca079aa3adb1e6f0c2f3f13648
Zeitraum 1600-1699 237 Texte 49M 75b5ca821b0a2e440d3172876ef9eaa6
Zeitraum 1700-1799 526 Texte 98M b5b47e9f69dee0ecb7af27ac138531ac
Zeitraum 1800-1899 684 Texte 139M 239221a14dec002b2a056c19e23c8c0a
Zeitraum 1900-1999 19 Texte 8.5M 07af65451036b9d85adb047bb70645a9
Textkategorie Belletristik 551 Texte 76M b93edea0c596ebe6452c73b6c11d51d6
Textkategorie Gebrauchsliteratur 266 Texte 58M 59d755ccc9d786bed971fd46d4590ae2
Textkategorie Wissenschaft 650 Texte 161M 83f0f2ede2144312ad4fef48fea29c2b
gesamt 1467 Texte 294M 0cc0d537c781ae9e346a77c072fc672e

DTA-Erweiterungstexte: Version vom 2020-10-23

lemmatisiert

Paket Umfang Größe MD5
Zeitraum 1400-1499 14 Texte 211K be5b88ade5084ded277d490028734978
Zeitraum 1500-1599 115 Texte 7.6M 581df765c3519caa3e5434c06e290fdc
Zeitraum 1600-1699 863 Texte 23M 454d88053b7807a802279f520a13103d
Zeitraum 1700-1799 492 Texte 24M 46d90f526a75adb65d6ff414f5b32300
Zeitraum 1800-1899 2015 Texte 97M ab3691bc868dfdd16b77d896fb227114
Zeitraum 1900-1999 369 Texte 25M 8b7abee1569ede21906c0e2d7f4bd953
Textkategorie Belletristik 228 Texte 21M 96bdfc473b054dfadbd570f442afc52b
Textkategorie Gebrauchsliteratur 1444 Texte 81M cd02cbeea486a985795e98265ac74a4c
Textkategorie Wissenschaft 309 Texte 33M 227315a71fa76273c6b199c30a38cb19
Textkategorie Zeitung 1874 Texte 41M 4470a199824f028f7d2ec5282f08e2d0
gesamt 3868 Texte 176M 87c0144d783ec5674dd4e36ad368682d

normalisiert

Paket Umfang Größe MD5
Zeitraum 1400-1499 14 Texte 223K a59097386e822056749b165562103ec5
Zeitraum 1500-1599 115 Texte 8.1M 2f1d8ba5112ce333b7b7a2e70dd0c8b7
Zeitraum 1600-1699 863 Texte 25M 1fc879a6809ed830999a6fd77d14125d
Zeitraum 1700-1799 492 Texte 26M 00b3f4a1138246cacd70ec4fcaeaa8db
Zeitraum 1800-1899 2015 Texte 105M dee58d29809a8cfb9de8c54a91e25bce
Zeitraum 1900-1999 369 Texte 27M 65a114c16e5e86fd59d03b33f956e8b3
Textkategorie Belletristik 228 Texte 23M 94080494b11739ea85b25ed1fb8c2402
Textkategorie Gebrauchsliteratur 1444 Texte 86M a70548718f279afbc7cadc01eace4eb9
Textkategorie Wissenschaft 309 Texte 35M f354689c92705a4fdd58158d7990fda2
Textkategorie Zeitung 1874 Texte 45M 7b8f0157ccc412808adb5f3eda683ecb
gesamt 3868 Texte 189M e48e36b7a304d6c55130b8899a1ee4fd

Originaltext

Paket Umfang Größe MD5
Zeitraum 1400-1499 14 Texte 223K e08ab927b46ac391bce0d1fb58a70bdb
Zeitraum 1500-1599 115 Texte 8.3M 95c0ab31f861b56a07e62391500be371
Zeitraum 1600-1699 863 Texte 26M bce9451f805c0d0da5858729a10529ad
Zeitraum 1700-1799 492 Texte 26M 912c474f93836df7de8bb37fb297fe14
Zeitraum 1800-1899 2015 Texte 105M c60b8c4ea0cf644b78b80099fe471e42
Zeitraum 1900-1999 369 Texte 27M 8e992f15d967f19019fd7e25915f3a93
Textkategorie Belletristik 228 Texte 23M ee49b2614cc5d79dc083bfb8982f3490
Textkategorie Gebrauchsliteratur 1444 Texte 87M 53dc0ba10c8f5e492cc0500a619f307c
Textkategorie Wissenschaft 309 Texte 36M 370d3262f56a464e787170dcb0b1d3a5
Textkategorie Zeitung 1874 Texte 45M 053f2d5912ea7774b2e29c39ad075a39
gesamt 3868 Texte 191M db529a2932d859a29379e12f3d4d2bd3

transliteriert

Paket Umfang Größe MD5
Zeitraum 1400-1499 14 Texte 222K d09dde69c2eae2cf40dad18d51ae8c7b
Zeitraum 1500-1599 115 Texte 8.2M 23866a35102f33742367a12bd8f9ce02
Zeitraum 1600-1699 863 Texte 26M ca3e153cb9cd3e2c7f02673615a43d82
Zeitraum 1700-1799 492 Texte 26M 1f1b7a771f1f4f5689c1735ff170b67c
Zeitraum 1800-1899 2015 Texte 105M dd09b7d34b09d45b02d07a1b836fb9aa
Zeitraum 1900-1999 369 Texte 27M e963399c9d17f0f37a49e0574f96b6a6
Textkategorie Belletristik 228 Texte 23M 052a2a5851e9e71dcd3a5f6d8aa080c4
Textkategorie Gebrauchsliteratur 1444 Texte 87M 07aaad3198dafebd8a494ddf4dbbd0dc
Textkategorie Wissenschaft 309 Texte 35M 27701714e03e607a4477f7e944819d5d
Textkategorie Zeitung 1874 Texte 45M 48e3d795cd8513e35085d96bf9692270
gesamt 3868 Texte 190M 7ecbe08725309af1f25e03989d560fbc

  • Version vom 23. September 2020:

Texte aus dem OCR-Workflow

In der ersten Projektphase des DTA (2007–2010) wurden 199 Texte durch OCR erfasst und anschließend nachkorrigiert. Für diese Werke liegen TEI/P5-Daten vor, die für jedes einzelne Zeichen die entsprechenden Koordinaten für die Position des Zeichens auf dem zugrundeliegenden Faksimilebild haben. Da sich herausgestellt hat, dass die Arbeit an diesen Daten sehr mühselig ist, und das DTA seinen Fokus auf die Textdaten legt, und die Verknüpfung zu den Faksimiledaten über die Seitenzuordnung ausreichend ist, werden diese Daten nicht mehr gepflegt. An dieser Stelle stellen wir diese Daten zur Verfügung.