Katrinette Bodarwe wrote:
>The Max-Planck-Institut in Goettingen made a programm to edit medieval sources several years ago. It was
>called KLEIO, was written for DOS and somewhat complicated. But one of the most important feature was the
>possibility to check Latin texts. It seems, that in the last year there has been not much interest to improve the
>programm. But there are people who made editions with it. Maybe you can find somebody who has more
>informations and help you to get this Latin-Thesaurus.
The Programm still exists. It has been created by Prof. Thaller and is a unix-based database for specific
historical uses.
(And even: It is for free! More information and download:http://gwdu19.gwdg.de/kleio/manual/ )
One of the most exquisite features is the implementation of "soundex", a opportunity to search for
variations in writing (esp. extremly useful when trying to match medieval names!) by using an
algorithm.
See the following very short explantation in German:
Namensvariantenausgleich: Der Soundex-Algorithmus
Regeln des Algorithmus:
1. Alle Zeichen, die im Algorithmus nicht definiert sind, werden ignoriert. (Z.B. ein Apostroph)
2. Jede Gruppe von Zeichen, die auf ein Zeichen folgt, das den selben Code bekommt, wie die Gruppe von Zeichen, wird ignoriert.
3. Eine Auswahl von Zeichen fungiert als Separatoren (In der Regel die Vokale, u.a. je nach "Sprache".
Diese Zeichen werden ignoriert, ausser sie stehen am Anfang der Zeichenkette. In diesem Fall wird ihnen
die Codeziffer 1 zugeordnet.
4. In der Regel begnügt man sich mit einem vierstelligen Code, d.h. der Algorithmus endet nach der
Definition der ersten vier Code-Zahlen.
Beispiele:
Separatoren: a;e;i;o;u;h;y;j Codeziffer = 1 (wenn am Anfang der Zeichenkette, sonst
ignoriert)
übrige Zeichen: d;t; Codeziffer = 2
f;v;w;p;b Codeziffer = 3
c;k;g;q;x Codeziffer = 4
s;ß;z Codeziffer = 5
m;n Codeziffer = 6
l Codeziffer = 7
r Codeziffer = 8
Vorbearbeitung: Endung "-erin" umgewandelt in "er"
Vorsilbe "von" umgewandelt in " "(d.h. weggeschnitten)
Bsp.1: "Ballinger"
"B" erhält Code 3; "a" ist Separator und wird ignoriert; "11" wird auf "1" reduziert, weil das zweite "1"
denselben Code erhält wie das erste "1". Der Code für "11" ist also 7; "i" ist Separator und wird
ignoriert; "n" erhält Code 6; "g" erhält Code 4; "e" ist Separator und fällt sowieso weg; "r" bekäme
Code 8, der Algorithmus bricht jedoch nach Generierung von 4 Codeziffem ab.
Sdx-Code=3 764
Bsp. 2: Folgende Schreibungsvarianten von "Gnesgern" würden mit dem obigen Algorithmus gefunden
werden (Eingabe="Gnesgem" = SDX-Code: 4654)
1. "Gnessger"
2. "Ganeßgerin"
3. "Gaenessger"
4. "Genaeßgern"
5. "Von Ganeskern"
Nicht gefunden würde:
6. "Gnestgem"
The soundex is therefore not a spell-checker, but a rather a spell-comparer.
The soundex has to be "tuned" to the specific source you use. The main algorithm remains +/- the
same, but by changing the values a little bit, you can increase the scores extremely.
At Zürich University, a group under Prof. H.-J. Gilomen uses with KLEIO to work with middle-german /
early modern german Sources. (http://www.unizh.ch/hist/gilomen/Forschung.html#Beziehungen)
I tried to get in touch with Göttingen to ask for the latin algorithm myself some time ago but didn't get
an answer.
I'd be very interested if anybody of you knew more about a Latin Soundex!
Best wishes
Niklaus Schatzmann
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
|