Projekto pavadinimas: „Santraukų tekstynai dirbtiniam intelektui“
Projekto kodas: Nr.02-101-K-0001
Projekto trukmė: 2024.08.12 – 2026.04.30
Projekto vertė: 865 734,14 Eur (su PVM)
Projekto vadovas: Prof. dr. Tomas Krilavičius
Projekto partneris: Vilniaus universitetas
Projekto partnerio dalies vadovas: Prof. dr. Virginijus Marcinkevičius
Projektą vykdo Vytauto Didžiojo universitetas kartu su partneriu Vilniaus universitetu.
Projekto tikslas – Parengti ir validuoti mišrius lietuvių kalbos tekstų santraukų/abstraktų tekstynus, skirtus automatinio sudarymo giliojo mokymo pagrindu veikiančių sistemų apmokymui.
Projektu sprendžiamos problemos: Projektu sprendžiama 2021–2030 metų valstybės skaitmeninimo plėtros programoje nurodytos problemos („neišnaudojamos turimos valstybės skaitmeninimo galimybės, taip nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias ir saugias skaitmenines paslaugas ir teikti šias paslaugas visuomenei“) 3 priežastis „Įrankių ir technologinių sprendimų, kuriuos naudojant paslaugos būtų inovatyvios, tolygiai prieinamos ir saugios, trūkumas“. Vykdomas projektas tiesiogiai atliepia aptartą problematiką ir prisideda prie jos sprendimo, t. y. identifikavus minėtą galimą skaitmeninę lietuvių kalbos ir jai skirtų technologijų stagnaciją nesant pakankamų kalbinių išteklių, projektu siekiama vienus iš tokių išteklių sukurti ir atitinkamai parengti tolesniam jų naudojimui. Projektu siekiama stiprinti Lietuvos skaitmeninį konkurencingumą vykdant šalies informacinių išteklių plėtrą, t. y. sukuriant ir užtikrinant prieigą ir galimybes naudoti didelės apimties išteklius DI algoritmams mokyti ir tobulinti, o jų pagrindu – pažangiems DI paremtiems technologiniams sprendimams kurti, kas sudarytų prielaidą didesniam valstybės skaitmeninimo lygiui apskritai. Tačiau prieigos ir galimybės naudoti tokius išteklius, be abejo, neįmanoma realizuoti be paties pirminio etapo – išteklių kūrimo, atitinkamo apdorojimo ir parengimo numatytiems DI technologijų vystymo tikslams ir uždaviniams.
Projekto uždavinys:
Projektas skirtas parengti du lietuvių kalbai aktualius resursus – mišrius lietuvių kalbos tekstų santraukų / abstraktų tekstynus, pritaikytus (tinkamai anotuotus ir validuotus numatytiems naudojimo poreikiams) giliojo mokymo pagrindu veikiančioms automatinio santraukų sudarymo sistemoms apmokyti. Projekto metu sukurti tekstynai bus skirti ekstraktyviam ir abstraktyviam automatinių santraukų sudarymo metodams. Šių tekstynų bendra apimtis sieks 4 tūkst. dokumentų ir jų santraukų iš keturių sričių: žiniasklaida, teisė, medicina ir informacinės technologijos.
Šių resursų realizavimu numatoma prisidėti prie dirbtinio intelekto (DI) rinkos dalių (mašininio mokymo, generatyvinio DI ir natūraliosios kalbos apdorojimo) stiprinimo vystant joms reikiamus didelius resursus ir taip atliepiant esamą tokių resursų stokos problemą. Svarbu atkreipti dėmesį į tai, kad reikšmingas etapas kuriant DI skirtus išteklius yra ne tik pačių išteklių sukaupimas, bet ir atitinkamas tokių išteklių parengimas tiksliniam naudojimui, t. y. reprezentatyviai parengtos atskiros išteklių dalys, atspindinčios numatytą išteklių paskirtį, anotavimas, papildomas apdorojimas siekiant užtikrinti išteklių atitikimą duomenų apsaugą reguliuojantiems Lietuvos ir ES teisės aktams.
Vilniaus universitetas kaip projekto partneris buvo pasirinktas dėl jo ligšiolinės projekto kontekste reikšmingos patirties, kompetencijų ir ekspertinių žinių lietuvių kalbos tekstynų rengimo srityje, tuo būdu tikintis žymiai sustiprinti projektui įgyvendinti reikalingus pajėgumus rengiant didelės apimties išteklius, specialiai juos apdorojant, validuojant ir atveriant galutiniam naudojimui.
Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis