Võru keele korpus

Korpuste seis

Oodates otsimootorite valmimist ja et rahuldada uurijate eri vajadusi, on ajalehe korpus tervenisti allalaaditav.

Kirjakeele korpus (Uma Leht)

Korpus sisaldab Uma Lehe artiklid rubriikidega pääleht, uudissõ, elo ja märgotus. Artiklid on korjatud lehenumbritest alates 51. kuni 248.
Korpuse praegune seis on järgnev:

  • HTM failid sisaldavad konkreetse artikli teksti koos html märgenditega (välja on jäetud lehekülje ülejäänud, korduv struktuur).
  • TXT failid sisaldavad lihtsalt html märgenditeta tekstid.
  • TEI failid sisaldavad TEI-P5 vormingus puhtad tekstid (sama mis TXT) aga korpusandmete meta-infoga.

Suulise kõne korpus

Suulise kõne korpus on olemas nii TÜ suulise kõne uurimisrühma litereerimisformaadis kui ka ELAN Annotatsiooni Failidena. Litereeritud teksti tuleb lähitulevikus saada otsida samutise uurimisrühma väljatöötatud otsimootoriga. ELAN faile on võimalik kasutada programmiga ELAN ning sellele loodud eriprogrammidega, vt lähemalt MPI ELANi lehekülge ning veel lisaprogrammide nimekirja. Nende kahe failiformaadi konverteerimiseks on väljatöötatud eri programmiskripte, mis on vabalt kättesaadavad GPLv3 litsentsiga.

Näide ühest ELANiga transkribeeritud lastekeele videost koos transkriptsiooniga (subtiitritena) on saadaval kahes versioonis, koos subtiitritega (n.ö kõvade subtiitritega) ning eraldi failidena (n.ö pehmed subtiitrid, pildist lahus).

Viimati muudatud: 2013-03-28 14:56:32