Kas ir Latviešu valodas apguves korpuss un ko ar to var iesākt? 0
Linda Kusiņa-Šulce, “Latvijas Avīze”, AS “Latvijas Mediji”
Kopš 2018. gada septembra Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā (LU MII AiLab) tiek veidots Latviešu valodas apguvēju korpuss. Kas tas ir un ko ar to var iesākt, jautāju projekta vadītājai, institūta vadošajai pētniecei ILZEI AUZIŅAI.
Korpusā tiek iekļauti to Latvijas augstākajās mācību iestādēs studējošo ārvalstnieku darbi, kas latviešu valodu apgūst kā svešvalodu pirmo vai otro semestri.
Paredzams, ka jaunais korpuss, kuru veidos aptuveni tūkstoš studentu darbi, kļūs par bāzi latviešu valodas apguves īpatnību izpētei, kvantitatīvai un kvalitatīvai valodas apguvēju pieļauto kļūdu analīzei.
Nākotnē uz tā pamata, ņemot vērā apguvēju kļūdas un dzimtās valodas ietekmi, tiks izstrādāti metodiskie materiāli valodas apguvei.
Ilze, sakiet, lūdzu, kas īsti ir valodas korpuss? Pati studēju filoloģiju, taču šī joma tika maz pieminēta…
I. Auziņa: Ja pavisam vienkārši, valodas korpuss ir strukturēts tekstu vai atšifrētas runas ierakstu kopums – tajā var būt gan teksti, gan runa, un tas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei.
Atkarībā no izmantošanas mērķa un iekļautajiem datiem, tie var būt ļoti dažādi – tekstu, runas korpuss, vispārīgs korpuss, kas mēģina raksturot valodu, kāda tā ir konkrētā brīdī, teiksim, Līdzsvarotais mūsdienu latviešu valodas korpuss, kas parāda, kā attīstījusies latviešu valoda, sākot no 20. gs. 90. gadiem.
Var būt arī specializētie korpusi atkarībā no tā, kas interesē pētniekus. Viens no senākajiem korpusiem, ko Mākslīgā intelekta laboratorijā sākām veidot, ir Latviešu valodas seno tekstu korpuss, kurā iekļauti teksti, kas tapuši 16., 17., 18. gadsimtā.
Nesen veidojām Bērnu runas korpusu, kurā iekļāvām četru mazu bērnu runas ierakstus gandrīz gada garumā.
Tāpat mums ir Latgaliešu rakstu korpuss. Ja man jāklasificē nozīmīguma ziņā, tad pirmais noteikti ir Līdzsvarotais mūsdienu latviešu tekstu korpuss, kurā ir aptuveni desmit miljoni vārdlietojumu, bet tagad to paplašinām līdz simt miljoniem, un tad to var izmantot gan terminoloģijas izstrādāšanai, gan valodas pētīšanai.
Zinu, ka politologi un žurnālisti diezgan plaši izmanto mūsu izveidoto Saeimas sēžu stenogrammu korpusu – tajā apkopotas runas no 5. līdz 12. Saeimai.
Vēl pie nozīmīgākajiem jāmin Latviešu runas korpuss; 2012. gadā kopā ar uzņēmumiem “Tilde” un LETA izveidojām atpazīšanas tekstu runas korpusu – tas bija pamats runas tehnoloģiju izveidei.
Sadarbībā ar Gaiļezera Rīgas Austrumu klīnisko universitātes slimnīcu veidojam diezgan specializētu runas korpusu un runas atpazīšanas izpētes sistēmu – tā paredzēta radiologiem, ārstiem, kas diktē epikrīzes.
Simt miljoni vārdlietojumu? Laiku pa laikam nākas klausīties, ka latviešu valoda ir trūcīga…
Protams, vārdlietojumu skaits atšķiras no vārdu skaita – tajā uzskaitām visas vārdformas, kādās katrs vārds tiek lietots. Bet par latviešu valodas nabadzību, protams, tā ir nepatiesība – jāattīsta pašam sava valoda, tad arī varēs izteikties.
Vai varat pastāstīt, kā radās doma tieši par šo konkrēto valodas korpusu, kas veidojas, kā saprotu, no latviešu valodu apgūstošo ārvalstu studentu izplatītākajām kļūdām?
Skatoties globāli, korpusi valodu, īpaši angļu valodas, apguvē kļuvuši populāri ap gadsimtu miju, un mācību materiāli tiek pielāgoti apguvēja dzimtajai valodai, jo pierādīts, ka valodas apguves kļūdas atšķiras.
Tas pats attiecas uz latviešu valodu – ja apguvējs pārstāv kādu no slāvu valodām, kurās nav garo patskaņu un divskaņu, tad kļūdas būs citādas nekā cilvēkiem, kam, piemēram, dzimtā valoda ir angļu – tajā nav tik bagātīga locījumu klāsta, atšķiras vārdu saskaņošana teikumā. Tādēļ arī apguves metodika atšķirsies.
Latvijā pirmā korpusu latviešu valodas apguvei veidoja Inga Kaija, tobrīd vēl Znotiņa, savā 2017. gada promocijas darbā “Otrās baltu valodas apguvēju korpuss: izveides metodoloģija un lietojuma iespējas” viņa apkopoja tekstus, kurus augstskolā apgūst tie latviešu studenti, kuri mācās lietuviešu valodu, un otrādi – un šajos tekstos arī tika marķētas valodas kļūdas.
Tad mēs, sadarbojoties ar Latviešu valodas aģentūru, iesaistījāmies pētījumā “Latviešu valodas prasmes kvalitāte: valsts valodas prasmes pārbaudes rezultāti”; 2016./2017. gadā apkopojām 900 valsts valodas prasmes pārbaudes kārtotāju darbus, un tie tika dažādi grupēti un atlasīti, teiksim, atbilstoši tam, kāds ir iegūtais valodas prasmes līmenis, kāda ir dzimtā valoda, un tālāk tekstos tika marķētas un analizētas biežāk pieļautās kļūdas.
Sapratām, ka tas ir ļoti noderīgs materiāls, jo šādi rodas izplatītāko kļūdu klasifikācija un var analizēt, kā tās ietekmē dzimtā valoda. Pēc tam radās ideja paskatīties, kā savus pirmos darbus raksta tie studenti, kuri latviešu valodu apgūst augstskolā.
Jo valsts valodas pārbaudījumu pārsvarā kārto cilvēki, kam dzimtā ir slāvu valoda, bet tie, kas studē Latvijā un vienu līdz divus semestrus apgūst latviešu valodu, ir ar ļoti atšķirīgu dzimto valodu – gan vācu, gan angļu, gan arābu un citām.
Ja runājam par mērķi, kāds mums ir, veidojot tieši ārvalstnieku kļūdu pētījumu, tad tas ir nodrošināt datos balstītu mācību materiālu izstrādi. Līdzīgs korpuss izveidots Gēteborgas universitātē.
Tas varētu būt ļoti noderīgi, jo – gan pirms pāris gadiem – esmu dzirdējusi no pasniedzējiem, kas māca latviešu valodu cittautiešiem, ka mācību materiāli nav īsti piemēroti latviešu valodas kā svešvalodas mācīšanai.
Domāju, ka pēdējos gados tapušie materiāli jau ņem vērā arī to, ko var iemācīties, sākot valodas apguvi no nulles, un kas jāatstāj uz nākamo posmu. Tagad arvien mērķtiecīgāk tiek veidoti materiāli latviešu valodas kā svešvalodas apguvei.
Tiek arī organizēti kursi bēgļiem, patvēruma meklētājiem – skaidrs, ka darbā ar viņiem jābūt pavisam citai pieejai.
Kāpēc projektu īsteno tieši Matemātikas un informātikas institūts? Intuitīvi šķistu, ka ar valodas pētniecību un mācīšanas metodikām būtu jānodarbojas valodniekiem…
Mākslīgā intelekta laboratorija dibināta 1992. gadā, un patiesībā mēs esam starpdisciplināra pētnieku grupa – gan valodnieces, gan datorzinātnieki, apmēram puse uz pusi.
Mēs šeit esam vismaz četras filoloģijas doktores. MII jau vairāk nekā 25 gadus nodarbojas ar latviešu valodas resursu uzkrāšanu un apstrādi, tas ir – dabiskās valodas uzkrāšanu un mašīnmācīšanos. Arī “Tēzaurs” jau kopš 2003. gada top mūsu laboratorijā.
Saprotu, ka projekts noslēgsies tikai nākamā gada vasaras beigās, tomēr – vai jau iespējams izdarīt kādus pirmos secinājumus?
Jā, var identificēt katras grupas raksturīgās kļūdas – vācieši, piemēram, lietvārdus vismaz sākumā raksta ar lielajiem burtiem, pavisam citādi veido teikumus, cenšas apstākļvārdus atdalīt ar komatiem.
Tāpat arī var secināt, kāds ir katrai augstskolai raksturīgais kopīgu vārdu krājums, kas ļoti atšķiras atkarībā no apgūstamās specialitātes. Bet ar vispārējiem secinājumiem vēl jāpagaida.