Dokumentation Schema

1. Kurzgefasst

Die Texte des Deutschen Textarchiv wurden im XML-format kodiert, und zwar nach den aktuellen Richtinien der Text Endoding Initiative, P5. Dafür wurde ein RelaxNG Schema erzeugt und an die Bedürfnisse des Deutschen Textarchivs angepasst. Das den DTA-XML-Dateien zugrunde liegende Schema und die zugehörige Individualisierungsdatei (ODD-File) kann hier heruntergeladen werden.

2. DTA XML TEI P5 Schema

Das DTA XML Schema wurde nach einem individuell angepassten ODD-File mit dem von der Text Encoding Initiative angebotenen Schema-Generator Roma erzeugt. Zugrunde liegen die folgenden TEI XML Module : core, tei, header, textstructure, analysis, drama, figures, gaiji, linking, namesdates, tagdocs, transcr und verse.

Die größte Änderung des Schemas besteht darin, dass alle c-Element die Attribute der Klasse att.coordinated enthalten dürfen. Ebenfalls im c-Element wurde ein neues Attribut dta:guess angelegt, welches Auskunft über die Verlässlichkeit des Erkennungsergebnisses der OCR-Software gibt.