Darbietungsformen von CAMENA-Texten

CAMENA-Texte können in drei verschiedenen Formen vorliegen:

als Bilddateien
als unkorrigierte Rohtexte
als strukturierte und teilweise korrigierte XML- und HTML-Dateien

1. Die Bilder

Hierbei handelt es sich um Bildscans der alten Drucke im JPG-Format.

2. Die Rohtexte

Da Textscans (OCR) von alten Drucken selten brauchbar sind, werden die meisten CAMENA-Texte von professionellen Typisten abgeschrieben. Diese Abschriften sind natürlich keineswegs fehlerfrei - ihre Qualität ist stark von der Lesbarkeit des alten Druckes abhängig. Die Rohtexte stellen daher lediglich eine Zwischenstufe im Editionsprozeß dar. Wir machen diese Texte trotzdem bereits zugänglich, da sie für die Textsuche und die Weiterverarbeitung bereits in gewissem Maße brauchbar sind. Einige dieser Rohtexte sind bereits mit Links zu den Seitenbildern versehen; diese Dateien erscheinen nicht im TXT- sondern im HTML-Format, sind aber von den XML-basierten HTML-Dateien zu unterscheiden (s. u.).

3. Die XML-Dateien

In einem dritten Bearbeitungsschritt werden die Abschriften im XML-Format strukturiert. Diese Strukturierung (Markup) verfolgt mehrere Ziele: Einerseits erlaubt sie es, Inhaltsverzeichnisse automatisch zu generieren. Andererseits enthält die Strukturierung Informationen über Gliederung, Form und Thematik der Texte, die über die Suchfunktion gezielt abgerufen werden können. (Näheres über unsere Verwendung von XML erfahren Sie hier.)
Die XML-Dateien dienen hauptsächlich der Recherche. Um unseren Nutzern auch Lesetexte an die Hand zu geben, generieren wir aus den XML-Dateien HTML-Versionen, die von allen Internetbrowsern gut dargestellt werden und zudem über Links mit den Seitenbildern verbunden sind. Diese HTML-Texte bieten sich zum Herunterladen und Ausdrucken an.
Es ist nicht das Ziel der CAMENA-Redaktion, durch die Volltextedition die alten Drucke und ihre Seitenbilder zu ersetzen. Erst recht nicht können wir angesichts der Textmenge kritische Neuausgaben erarbeiten. Der maschinenlesbare Text ist als Instrument der Recherche und Rohmaterial für die weitere philologische Bearbeitung gedacht.