Was bedeutet "normalised"?
Für die Leipziger Kookkurrenzanalyse wurden die maschinenlesbaren CAMENA-Texte in eine Datenbank eingespeist. Die in der Datenbank gespeicherten Zeichenfolgen (strings) sind bis auf weiteres nach den folgenden Ersetzungsregeln standardisiert worden:
- Großschreibung → Kleinschreibung
- á à â ä → a
- é è ê ë → e
- í ì î ï → i
- j → i
- ji ij → ii
- ó ò ô ö → o
- ß → ss
- ú ù û ü → u
- v → u
- vu uv vv w → uu
- Bei griechischen Wörtern in BetaCode werden Akzent- und Spiritus-Zeichen [ / \ = ( ) ] getilgt, ebenso die Zeichen für Dihärese und Jota subscriptum [ + | ]. Dasselbe gilt in der Regel für die Unterscheidung von Binnen-Sigma und Schluss-Sigma [ s1 s2 ].
Beispiel: bu/ssos2 bzw. bu/s1s1os2 → bussos
Allerdings gibt es bei der Codierung des Sigma leider (noch) Inkonsequenzen. Darum empfiehlt es sich, stets auch alternative Suchausdrücke zu verwenden, die die Unterscheidung von Binnen-Sigma und Schluss-Sigma enthalten.
Beispiel: bu/s1s1os2 → bus1s1os2
Nota bene: Bei der Wahl von Suchausdrücken innerhalb der Leipziger KOOKKURRENZ-Analyse muss der Nutzer diese Regeln beachten, um zu brauchbaren Ergebnissen zu kommen.
Caveat Lector: Diese Standardisierung hat experimentellen Charakter. Sie berücksichtigt nicht die orthographischen Eigenheiten anderssprachiger Textelemente (Deutsch, Französisch, Italienisch, Englisch, Spanisch, Hebräisch, Arabisch usw.) mit Ausnahme des Griechischen (in BetaCode, siehe oben).
Zur Standardisierung der maschinenlesbaren CAMENA-Texte siehe auch die Regeln für die Abschrift und Auszeichnung der CAMENA-Texte!