Masinė Lietuvos kompiuterizacija įvyko amžių ir tūkstantmečių sandūroje: apie 2000-uosius namų ūkiai ėmė masiškai pirkti kompiuterius, lengvatą jų įsigijimui taikė ir valstybė. Tačiau jau baigiasi antrasis dešimtmetis, šalia stalo ir nešiojamųjų kompiuterių atsirado išmanieji telefonai – ir visus juos sieja viena problema: jie vis dar vargiai supranta ir kalba lietuviškai.
Taip, su tekstine įvestimi jokių bėdų nėra: bet mes vis dar nesusišnekame su kompiuteriais balsu, kai tuo tarpu anglakalbiai tai daro beveik dešimtmetį – nuo tada, kai 2011 m. „Apple“ į savo „iPhone“ integravo virtualųjį asistentą Siri.
Tad kodėl taip yra? Kodėl šnekamoji, balsinė lietuvių kalba niekaip neateina į kompiuteriją, kas daroma, kad tokia situacija pasikeistų ir kada jau galiausiai susišnekėsime gimtąja kalba su kompiuteriu be klaviatūros, laidoje „#42: Apie gyvenimą, Visatą ir Viską su Adomu Rutkausku“ pasakojo projekto LIEPA kūrėjai Vilniaus universiteto Filologijos fakulteto humanitarinių mokslų daktaras Audrius Valotka ir Vilniaus universiteto Matematikos ir informatikos fakulteto Duomenų mokslo ir skaitmeninių technologijų instituto ekspertas Gediminas Navickas.
– Pradėkime nuo mūsų žiūrovo Romualdo Strielos klausimo: kodėl LIEPA? Kodėl būtent toks pavadinimas ir ką jis reiškia?
Audrius Valotka: – Atsakymas labai paprastas: tai yra žodžių junginio „Lietuvių šneka valdomos paslaugos“ santrumpa. Trumpa, gražu ir aišku.
– Gerai, tada pagrindinis klausimas: kodėl kompiuteriai dar nešneka lietuviškai? Juk Lietuvos namų kompiuterizacija įsibėgėjo prieš daugmaž 20 metų, o išmanieji telefonai atsirado jau prieš 12?
A. Valotka: – Priežastys yra mažiausiai dvi. Pirmoji – lingvistinė. Lietuvių kalba yra sudėtinga kalba, vien tik daiktavardžiai gali turėti daugiau nei 500 priesagų, o kur dar galūnės. Dėl to kalbos generuojamų vienetų įvairovė yra nepaprastai didelė – apie pusantro milijardo vienetų! Lyginant su paprastesnio sudėtingumo kalba, mums prakalbinti kompiuterį užduotis yra sudėtingesnė.
Antroji priežastis – pinigai. Tai brangiai kainuoja. Pirmasis ir antrasis LIEPOS projektai apima keliolika tūkstančių valandų darbo laiko. Palyginimui – į atviro kodo naršyklės (deja, dabar neatsimenu, kurios) tobulinimą iki šiol yra investuota apie 13 000 darbo metų. Ne dienų, ne valandų, o metų – nors atrodytų, naršyklės juk jau išspręstas technologinis uždavinys, skirtingai nuo šnekos atpažinimo. Taigi, kaltas investicijų kiekis: mažai pinigų – mažai rezultatų.
– O ar nelemia ir tai, kad lietuviškai kalbančių nėra daug?
A. Valotka: – O tai susiję su pinigais (juokiasi). Būtų mūsų milijardas – tų pinigų būtų daugiau.
– Kiek priskaičiuojama vartotojų, kalbančių lietuviškai? Su visais užsienyje gyvenančiais lietuviakalbiais?
A. Valotka: – Trys milijonai. Ką reikia turėti omenyje apie esančius užsienyje – dabar jie dar šneka lietuviškai, bet po daugmaž dviejų kartų ten beveik nebebus lietuviškai kalbančių.
– Bet pažiūrėkime: mes vejamės technologijas (jos kartais tobulėja greičiau už mus), tačiau jaunoji karta jau puikiai kalba angliškai – ir tai apima ir telefono valdymą balsu. Tad ar tikrai LIEPA dar yra reikalinga?
A. Valotka: – Kalba yra ne tik komunikacijos priemonė. Jei kalba būtų vien komunikacijos priemonė, pasaulyje turbūt būtų vienui vienintelė kalba. Viena vėliava. Vienas herbas. Bet kalba yra ir vertybė. Tai yra bene svarbiausias bet kurios tautos atributas. Ir kadangi visa ta vertybinė dalis mums yra labai svarbi, tai yra mūsų tapatybės dalis – tai mes norėtume, kad lietuvių kalba būtų visur, įskaitant ir technologijas.
– Kaip gimė LIEPA? Kokia buvo pati jos pradžia?
A. Valotka: – Didysis idėjų generatorius mūsų komandoje yra profesorius Laimutis Telksnys. Jis jau 50 metų įgyvendina kalbos technologijų idėjas ir manau turi idėjų dar 50 metų į priekį, dabartinėje vietoje jis tikrai nesustos (juokiasi). Bet viskas prasidėjo nuo paprastesnių dalykų: nuo nedidelių bandymų. Turėkime omenyje, kad LIEPA turi dvi kryptis: šnekos sintezatorius ir šnekos atpažinimas. Šnekos sintezavimo kryptyje darbuojasi docentas Pijus Kasparaitis iš mūsų Matematikos ir informatikos instituto, o atpažinimo grupė – atskira komanda, ir gerokai didesnė. Nes ir užduotis gerokai sunkesnė.
Bet pačios pradžios net ir neprisimenu. Gal Gediminas galėtų pakomentuoti?
Gediminas Navickas: – Kaip ir Audrius sakė, pradžia priklauso nuo to, kaip toli į praeitį pažiūrėsime. Galima sakyti, kad jau yra ir 50 metų – bet čia kaip ir su daugeliu idėjų bei technologinių koncepcijų: buvo idėjos, bet nebuvo priemonių jas realizuoti, buvo silpna skaičiavimo technika ir t.t.
Štai pirmąją LIEPĄ darėme trejus metus, LIEPA-2 darome jau pusantrų metų. Atrodytų jau visai netrumpai, jau skaičiuojame metais – tačiau reikia turėti omenyje, kad visų šių projektų nebūtų jei ne tų keliasdešimties metų įdirbis prieš tai.
O atsakant į pirmąjį klausimą, kodėl atsiliekame – LIEPA ir LIEPA2 yra pirmieji tokie dideli projektai. Čia reikia paminėti, kad kiek teko girdėti, vokiečiai – kurie pagal kalbėtojų skaičių tikrai nėra numeris vienas pasaulyje – prie analogiško kalbos sintezavimo projekto dirbo 30 metų, ir tai darė 30 universitetų. Tuo tarpu mes universitetus skaičiuojame ne dešimtimis, o tas keliasdešimties metų įdirbis, apie kurį kalbėjau – labiau mokslinis, fundamentinis, kai tuo tarpu inžinerinis, atvedantis technologiją iki žmogaus – tik paskutinio dešimtmečio darbai.
Visą interviu skaitykite čia.
Adomas Rutkauskas / lrytas.lt informacija