Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 1.38 KB

andmebaaside-seis.md

File metadata and controls

20 lines (15 loc) · 1.38 KB

Vadja keele sõnaraamatu digiteerimise seis

On olemas palju ressursse, mida võiks nimetada Vadja keele sõnaraamatu andmebaasiks:

  1. Poolikult sisestatud EELexis. Selle xml-skeemi kuju ei sobinud Ülle Viksile, kes tegi mulle uue.

  2. Indrek Heina loodud HTML failid (eki.ee/dict/vadja). Esiteks ei tea keegi, kas see peegeldab sõnaraamatu viimast, trükkiminevat seisu (samas kataloogis asuva trükifaili pdf nendib loomise ajaks 31.08.2012 10:49:29). Neid ei ole lõppuni viimistletud, on mh Heina märkus "Artiklis on (ilmselt asendamata jaanud) lubamatuid symboleid $L$CL$C". Samuti on HTML failide struktuur trükile orienteeritud ja mitte masinloetavusele (nt kohanimi pole märgendatud).

  3. Kujundajalt saadud ja teada viimane variant InDesigni trükifailist.

  4. Minu tuletatud xml. See on teada viimasest trükifailist loodud ja peegeldab seetõttu kindlasti trükitud raamatu sisu (fail nendib loomise ajaks 8.10.2012 10:02:17). See on ainus semantiliselt masinloetav ressurss (töötavad päringud nagu 'loe kokku polüseemsete lekseemide arv'). Ülle Viks tegi selle jaoks uue EELex skeemi, mis on leksikograafia poolest pädevama struktuuriga. Sellel on ka vigu, aga need on seotud masinloetavusega ja mu töövoog on olnud mitte-destruktiivne, mistõttu saab vead parandada kohe siis kui need ilmnevad. See sisaldab palju masinloetavaid märgendusi: mh tähendusnumbrid, kohanimi, sõnaliik ...