“Datoram nav viegli iemācīties latviešu valodu.” Saruna ar “Tildes” dibinātāju Andreju Vasiļjevu 4
Valodas tehnoloģiju uzņēmuma “Tilde” līdzdibinātājs un valdes priekšsēdētājs, datorzinātņu doktors ANDREJS VASIĻJEVS gādā par to, lai digitālajā laikmetā latviešu valoda nepazustu, bet attīstītos un rastu savu vietu arī tehnoloģiju pasaulē.
Satikāmies, lai runātu par to, kā latviešu valodai klājas globālajā digitālajā pasaulē, kur no visām pusēm ieplūst angļu valodas ietekme.
A. Vasiļjevs: Latviešu valodai ļoti izšķirīgs laiks bija 19. gadsimta pirmā puse, kad bija jaunlatviešu kustība un radās apziņa, ka latviešu valoda ir pilnvērtīga un bagāta: ne sliktāka par vācu valodu, kas tobrīd dominēja. Tagad ir līdzīga situācija konkurencē starp latviešu valodu un angļu valodu, kas ir dominējošā globālā valoda.
Piecpadsmit lielajās pasaules valodās runā apmēram puse pasaules iedzīvotāju, bet otra puse – citās aptuveni 6000 valodās. Tā otra planētas puse ir ne mazāk svarīga kā pirmā.
Bet, protams, lielie uzņēmumi, attīstot valodu tehnoloģijas, pārsvarā pievēršas lielajām valodām, jo tur ir lielāki tirgi un mazākas rūpes. Mums ir svarīgi rūpēties par to, lai latviešu valoda tehnoloģijās ir tikpat plaši un vispusīgi lietojama kā lielās valodas, lai latviešiem savā dzimtajā valodā būtu tikpat plašas iespējas kā spāņiem, frančiem, angļiem un ķīniešiem.
Vai šobrīd latviešu valodai ir tādas pašas iespējas?
2011. gadā Eiropā tika veikts plašs un salīdzinošs pētījums par visām oficiālajām Eiropas Savienības (ES) valodām, lai noskaidrotu, cik plaši tās tiek lietotas digitālajās tehnoloģijās un cik lielā mērā tās ir sagatavotas digitālajiem izaicinājumiem.
Ja tāda tendence turpinātos, ilgtermiņā šīm valodām draudētu digitālā izzušana. Tas nozīmētu, ka valodas lietojums ļoti sašaurinātos un tās būtu izspiestas no lietošanas sākumā digitālā sfērā, bet pēc tam arī citās jomās.
Tātad tas, kas notiek ar valodu digitālajā sfērā, iespaido tās likteni kopumā?
Jā. To var salīdzināt ar to, kāda ietekme uz valodu attīstību bija Gūtenberga drukāšanas ierīcei. Tas ļoti izmainīja informācijas apriti un valodu lietojumu. Tās valodas, kas tika ieviestas drukātajā izdevniecībā, nostiprinājās un izplatījās, bet citas valodas izzuda, jo tajās neizdeva Bībeli un citas grāmatas.
Bet, atgriežoties pie pētījuma, toreiz tika salīdzinātas dažādas tehnoloģijas un tas, kāds atbalsts tajās ir ES valodām. Tika secināts, ka vislabākajā situācijā ir angļu valoda, bija valodas ar viduvēju atbalstu, bet vēl diezgan liela daļa ES valodu bija kategorijā, kur ir viduvējs vai vājš atbalsts. Tur diemžēl iekļāvās arī latviešu valoda, bet mēs nebijām vienīgie.
Šis pētījums bija kā tāds trauksmes signāls, kas mobilizēja daudzas aktivitātes un darbības gan Eiropas komisijas, gan reģionālajā līmenī. Pa šiem gadiem ir izdarīts ļoti daudz.
Vai tagad latviešu valoda ir nonākusi grupā, kur ir viduvējs atbalsts?
Lai to droši varētu apgalvot, būtu jāveic jauns pētījums, bet es domāju, ka jā. Ja pirms astoņiem gadiem latviski nebija virkne dažādu nozīmīgu tehnoloģiju, tad tagad tādas ir. Piemēram, ir “Tildes” izstrādāts kvalitatīvs mašīntulks, kas atzīts par vienu no kvalitatīvākajiem Eiropā.
Katru gadu notiek tā saucamās mašīntulkošanas olimpiādes vai konkursi un tur tiek salīdzinātas gan labākās pētnieku, gan uzņēmumu izstrādātās mašīntulkošanas sistēmas. Tur piedalās tādu uzņēmumu kā “Google”, “Microsoft” un citu izstrādātās sistēmas. Mūsu sistēma tika atzīta par labāko.
Ar ko “Tildes” mašīntulkotājs ir labāks, piemēram, par “Google” tulkotāju?
Tulkošanas jomā ir ne tikai pētījumi par to, kā šīs sistēmas veidot, bet arī kā salīdzināt. Ir izstrādāta tehnoloģija, kā noteikt mašīntulkošanas kvalitāti, un tā balstās uz to, cik līdzīgs cilvēka tulkojumam ir mašīnas veiktais tulkojums.
Jaunākās, tā sauktās neironu tīklu mašīntulkošanas sistēmas “Google” ieviesa 2016. gadā, bet jau pēc pāris mēnešiem mūsu pētniekiem izdevās ar tām izveidot mašīntulkošanu latviešu valodai. Latviešu valodas specifika ir locījumos: tie padara valodu bagātu un izteiksmīgu, taču mašīnai to iemācīties ir daudz grūtāk, ja salīdzina ar citām valodām.
Ja runājam vēl par to, kas agrāk latviešu valodā nebija, bet tagad ir, tad tās ir balss tehnoloģijas – spēja datoram sazināties ar cilvēka balsi: saprast, ko cilvēks saka, pārveidot to rakstītā tekstā un sintezēt runu, tātad uzrakstītu tekstu pārveidot runātā formā. Arī šīs tehnoloģijas ir kvalitatīvas, tomēr jāsaprot, ka balss atpazīšanas tehnoloģiju izstrāde ir daudz grūtāks uzdevums nekā mašīntulkošana.
Žurnālisti intervijas joprojām raksta paši, nevis paļaujas uz datoru, jo datora atpazītajā tekstā ir ļoti daudz kļūdu.
Arī cilvēki bieži vien kaut ko saklausa nepareizi, tāpēc nav jābrīnās, ka dators runātu tekstu rakstītā mēdz atveidot neprecīzi. Mēs vārdus saprotam tāpēc, ka tos atpazīstam. Cilvēka auss aparāts un spēja saprast valodu ir izstrādājusies miljoniem gadu laikā! Tas ir fundamentāls mehānisms! Turklāt mēs saprotam tāpēc, ka domājam, mums ir intelekts. Daudzus vārdus saprotam tikai kontekstā.
Tā arī datoram māca latviešu valodas vārdnīcu, gramatiku, to, kā vārdi var virknēties, kā arī akustiskās īpatnības. Bet, ja kāds vārds datoram nav pazīstams, tad viņš piemeklē līdzīgāko, ko viņš zina. Arī katra cilvēka individuālās izrunas īpatnības ir ļoti atšķirīgas.
Turklāt teksta atpazīšanas kvalitāte būs lielā mērā atkarīga arī no intervijas ieraksta kvalitātes. Ja ieraksta kvalitāte būs perfekta, būs labs akustiskais signāls, dators pieļaus mazāk kļūdu. Piemēram, esam testējuši, kā tas strādā uz Saeimas stenogrammām. Tām tehniskā ieraksta kvalitāte ir ļoti augsta un arī runas atpazīstamības līmenis datorā, pārveidojot to tekstā, ir ļoti augsts – 93 līdz 94 procenti pareiza teksta.
Tad jau Saeima varētu atlaist tehniskos darbiniekus, kuri raksta šīs stenogrammas!
Uz datoru tomēr nevar pilnībā paļauties: tā ir mehāniska un automātiska sistēma, kurai nepiemīt cilvēka līmeņa intelekts, kaut arī datora domāšanas sistēmu sauc par mākslīgo intelektu. Gala pārbaude jāveic cilvēkam, un arī atbildība par galarezultātu jāuzņemas cilvēkam, tomēr izmantot datoru, lai ātrāk paveiktu tehniskus darbus, var.
Labi, piedāvājums lietot latviešu valodu digitālajā pasaulē tātad ir. Vai jums ir arī zināms, cik daudz cilvēku izmanto šos latviskos mašīntulkus un citas tehnoloģijas?
Ļoti daudz. Piemēram, viens no mūsu produktiem ir “Tildes” birojs, kas piedāvā dažādu tehnoloģiju atbalstu latviešu valodā. Tam ir vairāk nekā 300 000 lietotāju.
Taču ir arī daudz tehnoloģiju, ko izmanto slēgtā vidē un kas šobrīd nav pieejamas latviski. Piemēram, virtuālie asistenti, kam var uzdot jautājumu un saņemt atbildi. Vienu no tiem radījis “amazon.com”.
Tāpat automašīnās balss vadības sistēmas, kam var likt ieslēgt klimata kontroli vai radio, pagaidām ir tikai lielajās valodās.
Taču labi jau ir tas, ka vismaz bāzes līmenis – saskarnes – arī lielo uzņēmumu produktiem ir latviski.
Cik aktīvi valsts gādā par to, lai latviešu valoda attīstītos arī digitālajā vidē?
Mēs kā “Tilde” aktīvi piedalāmies dažādās pētniecības programmās. Ir pētījumi, kas pilnībā finansēti no publiskiem līdzekļiem, un tad arī to rezultāti tiek publicēti un ir plaši visiem pieejami. Ir pētījumu programmas, kur pusi finansē valsts, pusi uzņēmējs pats. Jo pētījums teorētiskāks, jo lielāku finansējuma daļu nodrošina valsts vai ES.
Savukārt, jo lielāka iespēja, ka pētījuma ietvaros taps kāds produkts, jo vairāk jālīdzfinansē uzņēmējam. Piedalāmies arī ES finansētajā pētniecības programmā “Apvārsnis”, kas ir laba ar to, ka veicina sadarbību starp uzņēmumiem, universitātēm un citiem Eiropas pētniecības centriem. Tādējādi mums ir iespēja sadarboties ar labākajiem pētniekiem Eiropā, uzzināt jaunāko par nozarē notiekošo un virzīt pētījumus tādā virzienā, lai, radot tehnoloģijas, tiktu ņemta vērā arī mazo valodu specifika, lai pētījumi neaprobežotos tikai ar lielajām valodām.
Savukārt Latvijas līmenī strādājām, piemēram, valsts finansētā projektā kopā ar aģentūru “LETA” un Latvijas Universitātes Matemātikas un informātikas institūtu. Tā ietvaros mācījām datoriem atšķirt dažādas latviešu valodas runas īpatnības. Tas ir ļoti dārgs process.
Teicāt, ka digitālajā vidē gādājat arī par citām mazajām valodām. Vai jūs varētu salīdzināt atbalsta līmeni, kāds digitālajā vidē ir latviešu valodai un mūsu kaimiņu – lietuviešu un igauņu – valodām?
Valodas jautājumi ir ļoti sensitīvi, tāpēc ir riskanti izteikt kādus salīdzinājumus. Atceros, ka reiz kādā konferencē ieminējos, ka franču valoda morfoloģiski nav tik daudzveidīga, proti, gramatiskajām formām bagāta, kā latviešu valoda. Tas franču kolēģos izraisīja milzīgu pretreakciju.
Piemēram, ar tehnoloģiju ieviešanu praktiskā lietojumā. Tā Latvijā e-pārvaldē arī ir ieviests mašīntulks. “Tilde” strādā visās trijās Baltijas valstīs, un gadās, ka vispirms kādu risinājumu ieviešam Latvijā un tikai pēc tam kaimiņvalstīs. Igaunijā jau ilgstoši darbojas valsts finansēta atbalsta programma “Igauņu valoda tehnoloģiju izstrādei”. Mums šādas programmas nav, tomēr ir dažādi projekti, kas ļauj mums neatpalikt.