CAMENA-Texte können in drei verschiedenen Formen
vorliegen:
1. Die Bilder
Hierbei handelt es sich um Bildscans der alten Drucke im JPG-Format.
2. Die Rohtexte
Da Textscans (OCR) von alten Drucken selten brauchbar sind, werden die meisten CAMENA-Texte von professionellen Typisten abgeschrieben. Diese Abschriften sind natürlich keineswegs fehlerfrei - ihre Qualität ist stark von der Lesbarkeit des alten Druckes abhängig. Die Rohtexte stellen daher lediglich eine Zwischenstufe im Editionsprozeß dar. Wir machen diese Texte trotzdem bereits zugänglich, da sie für die Textsuche und die Weiterverarbeitung bereits in gewissem Maße brauchbar sind. Einige dieser Rohtexte sind bereits mit Links zu den Seitenbildern versehen; diese Dateien erscheinen nicht im TXT- sondern im HTML-Format, sind aber von den XML-basierten HTML-Dateien zu unterscheiden (s. u.).
3. Die XML-Dateien
In einem dritten Bearbeitungsschritt werden die Abschriften im
XML-Format strukturiert. Diese Strukturierung (Markup) verfolgt
mehrere Ziele: Einerseits erlaubt sie es, Inhaltsverzeichnisse
automatisch zu generieren. Andererseits enthält die Strukturierung
Informationen über Gliederung, Form und Thematik der Texte, die
über die Suchfunktion gezielt abgerufen werden können. (Näheres
über unsere Verwendung von XML erfahren Sie hier.)
Die XML-Dateien dienen hauptsächlich der Recherche. Um unseren
Nutzern auch Lesetexte an die Hand zu geben, generieren wir aus den
XML-Dateien HTML-Versionen, die von allen Internetbrowsern gut
dargestellt werden und zudem über Links mit den Seitenbildern
verbunden sind. Diese HTML-Texte bieten sich zum Herunterladen und
Ausdrucken an.
Es ist nicht das Ziel der CAMENA-Redaktion, durch die
Volltextedition die alten Drucke und ihre Seitenbilder zu ersetzen.
Erst recht nicht können wir angesichts der Textmenge kritische
Neuausgaben erarbeiten. Der maschinenlesbare Text ist als
Instrument der Recherche und Rohmaterial für die weitere
philologische Bearbeitung gedacht.