Projekto įgyvendinimas:
Projekto biudžetas: 4 015 289,49 EUR (su PVM);
Projekto kodas: Nr. 02-023-K-0001;
Projekto veiklų įgyvendinimo pradžia: 2024 m. liepos 29 d.;
Projekto veiklų įgyvendinimo pabaiga: 2026 m. balandžio 30 d.
Projekto vadovė: Dr. Gražina Korvel (grazina.korvel@mif.vu.lt).
Projektą vykdo Vilniaus universitetas su partneriais – Vytauto Didžiojo universitetu ir Lietuvių kalbos institutu.
Apie projektą:
Projektas „Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3)“ yra skirtas sudaryti sąlygas spartesnei valstybės skaitmeninimo plėtrai, pasiūlant viešai prieinamus skaitmeninius kalbinius išteklius – anotuotą lietuvių kalbos garsyną, skirtą ir tinkamą šnekos atpažinimo, dirbtinio intelekto (DI) ir kitoms inovatyvioms kalbos technologijoms plėtoti.
Problema, prie kurios sprendimo prisidedama projektu, yra ta, kad šiuo metu pilnai neišnaudojamos turimos valstybės skaitmeninimo galimybės ir nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei. Sprendžiama problema atitinka 2021-2030 m. LR Ekonomikos ir inovacijų ministerijos Valstybės skaitmeninimo plėtros programos, patvirtintos LR Vyriausybės 2021 m. lapkričio 17 d. nutarimu Nr. 971 įvardintą problemą. Plėtros programoje teigiama, kad siekiant užtikrinti e. paslaugų patogumą vartotojams, saugumą, sąveikumą ir prieinamumą ne tik nacionaliniu, bet ir tarpvalstybiniu lygiu, į jas reikia integruoti pažangius įrankius ir technologinius sprendimus, prioritetą teikiant DI, natūralios kalbos apdorojimo ir supratimo, mašininio mokymosi, duomenų analitikos principais veikiančių sprendimų, elektroninės atpažinties ir patikimumo užtikrinimo įrankių, taip pat įrankių, kurie pritaikyti asmenų, turinčių specialiųjų poreikių bei neįgaliųjų poreikiams tenkinti, užtikrinančių sklandų tarpvalstybinį bendradarbiavimą ir paslaugų pasiekiamumą verslui ir visuomenei, kūrimui.
Projekto uždavinys – parengti ne mažiau kaip 10 tūkst. val. anotuotą lietuvių kalbos garsyną, skirtą šnekos atpažinimo, DI ir inovatyvioms technologijoms plėtoti. Projekto įgyvendinimo metu bus sukurtas 10 tūkst. val. anotuotas lietuvių kalbos garsynas (iš jų: 5000 val. skaitytinės šnekos stiliumi, 4900 val. spontaninės šnekos stiliumi, 100 val. su 4 lietuvių dialektų šneka). Garsyno įrašai bus saugomi/laisvai platinamu atviruoju formatu. Garsynas bus pateikiamas mažiausiai dviejose atviros prieigos platformose (pvz., „Hugging Face“, CLARIN ar kt.), Lietuvos atvirų duomenų portale (data.gov.lt) ir prieinamas nemokamai.
Projekto įgyvendinimo metu bus sukurtas atvirai prieinamas išteklius – anotuotas lietuvių kalbos garsynas, kurį naudojant bus kuriamos naujos, inovatyvios, tolygiai prieinamos ir saugios e. paslaugos, užtikrinamas aukštesnio lygio e. paslaugų procesų skaitmeninimas ir brandos lygis.
Įgyvendinus projekto uždavinį, bus pasiektas projekto tikslas, kuriuo bus prisidedama sprendžiant projekto atsiradimą lėmusią problemą – su naujais skaitmeniniais lietuvių kalbos ištekliais bus galima geriau išnaudoti skaitmeninimo galimybes ir bus sudarytos geresnės sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti, kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei.
Projekto įgyvendinimo metu sukurtas rezultatas ir jo dėka pasiūlytos naujos kalbos technologijos užtikrins lietuvių šnekos aktyvų gyvavimą pasaulio elektroninėje terpėje, padės našiau dirbti, taupys gyventojų laiką paslaugoms gauti ir teikti, mažins socialinę atskirtį, leis didinti e. paslaugų prieinamumą ir brandos lygį, priartins DI technologijas prie visuomenės, užtikrinant jų prieinamumą lietuvių kalba, skatins naudojimąsi šiomis technologijomis ir didins visuomenės skaitmeninimą ir skaitmeninius įgūdžius.
Projekto tikslas – sudaryti galimybes ir geresnes sąlygas skaitmeninimo plėtrai ir naujomis technologijomis pagrįstiems sprendimams, kuriant pažangias skaitmenines paslaugas visuomenei.
Projekto tikslinė grupė – pagrindinė tikslinė grupė, kurią paveiks projektas – mokslo ir studijų įstaigos (MSI). Šnekos atpažinimo ir sintezės, o taip pat susijusių dirbtinio intelekto, natūralios kalbos apdorojimo ir kitų inovatyvių skaitmeninių technologijų pagrindas yra anotuotas garsynas. Šiuo metu detalaus, įvairiapusio ir viešai prieinamo lietuvių kalbos garsyno, kuris atspindėtų įvairias kalbos vartojimo sritis bei kalbos pokyčius, nėra. Todėl poreikis turėti viešai prieinamą, išsamų anotuotą lietuvių kalbos garsyną, kuris leistų MSI ir kitiems IT sprendimų bei technologijų kūrėjams atlikti pažangiausių lietuvių kalbos apdorojimo metodikų, būdų ir taikomųjų programų kūrimo mokslinius tyrimus, yra didelis. Tai leis kurti intuityvesnes, veiksmingesnes ir prieinamas skaitmenines paslaugas. Kalbos įvestį naudojančios technologijos pagerins sąveiką su skaitmeninių elektroninių paslaugų naudotojais, supaprastins darbo eigą ir pagerins bendrą naudotojų patirtį, naudojantis skaitmeninėmis paslaugomis įvairiose srityse.
Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis“.