Lai mežā netup čikens. Ko spēj un ko (vēl) nespēj mašīntulkošanas programmas 3
“Tildes” pērn ieviestās neironu mašīntulkošanas sistēmas apmācībā angļu-latviešu un latviešu-angļu tulkošanas virzieniem tika izmantoti 46,1 miljons teikumu.
“LA” publikācija par Latvijas nozīmīgākajiem zinātnes sasniegumiem 2018. gadā “Eksperimentālās vakcīnas, neironu mašīntulks, neparasta DNS” (2018. 27. 12.) mudinājusi lasītāju Edgaru Vimbu dalīties pārdomās par mašīntulkošanu: “Rakstā teikts: “Latvijā izstrādāta jauna mašīntulkošanas tehnoloģija, kas balstās neironu tīklu dziļās mašīnmācīšanās metodēs un ir īpaši piemērota tulkošanai latviešu un citās mazākās valodās. AS “Tilde” un LU pētnieku radītais risinājums tiek izmantots praktiskos lietojumos, kas ir pieejami Latvijas sabiedrībai (“translate.tilde.com”), valsts pārvaldes valodas tehnoloģiju platformā “Hugo.lv” un nodrošina tulkošanu Eiropas Savienības Padomes tulkošanas risinājumā “translate2018.eu”.”
E. Vimba pamēģinājis ar “translate.tilde.com” iztulkot angļu valodas tekstu “On the tree was a nice chicken of the woods” un ieguvis teikumu “Uz eglītes bija smuks meža čikens”.
E. Vimba turpina: “Teikumu “The corncrake [grieze], corn crake or landrail is a bird in the rail family” man iztulkoja tā: “Kukurūzas krakšķis jeb zemūdene ir putns dzelzceļa saimē”. Vai kaut ko sapratāt?
Internetā daudziem rakstiem angļu valodā ir tādi “tulkojumi”, kuri speciālistiem un interesentiem ir absolūti nederīgi. Tos vienīgi varētu izmantot jokdari publikas smīdināšanai.
Vai tas rāda, ka mašīntulkošana nekur nebūtu derīga? Nebūt ne. Tas gan māca, ka mašīntulkošana pienācīgi ir jāsagatavo, ka nevar būt viena programma daiļliteratūras un zinātniskās literatūras tulkošanai. Pie tam arī zinātniskās literatūras tulkošanai nevar būt viena universāla programma, diemžēl katrai zinātnes nozarei ir nepieciešama sava programma.”
Kā šos tulkojumus komentē “translate.tilde.com” veidotāji? SIA “Tilde” pētnieks Mārcis Pinnis norāda, ka mašīntulkošanas tehnoloģiju tulkojumi šobrīd vēl nespēj pilnīgi aizvietot cilvēka tulkojumu. Tomēr tas ir būtisks palīgs, kas tulkošanas darbu padara ātrāku un lētāku. Plašas jomas mašīntulkošanas sistēmas pagaidām vēl nav pielāgotas, lai labi tulkotu šauru jomu tekstus, piemēram, publiskajā komunikācijā reti lietotus bioloģijas terminus. Šo sistēmu uzdevums ir nodrošināt pieņemamu kvalitāti dažādu jomu tekstiem vienlaicīgi.
M. Pinnis skaidro, ka ir vairāki mašīntulkošanas tehnoloģiju lietojumu veidi: “Pirmkārt, mašīntulkošanas sistēmas izmanto, lai piekļūtu informācijai, kas ir rakstīta svešvalodā, un saprastu galveno teksta domu, perfekts tulkojums tad nav nepieciešams.
Otrkārt, lai sagatavotu instrukcijas, tad kvalitātei ir jābūt perfektai. Treškārt, lai paātrinātu tulkošanas procesu, un tad kvalitātei ir jābūt tādai, lai mašīntulkošanas sistēmas izmantošana palielinātu produktivitāti, šeit kvalitāte ir pat sekundāra. Plašas jomas publiski pieejamās sistēmas (“translate.tilde.com”, “translate.google.com” u.c.) parasti pilda pirmo vai trešo lomu.”
Ar jaunajām (neironu tīklos balstītajām) mašīntulkošanas tehnoloģijām ir uzlabota kopējā tulkošanas kvalitāte piemēram, nodrošināts labāks saskaņojums starp vārdiem teikumā, pareizāk modelēta morfoloģija utt.
Tomēr atsevišķu leksikas vienību pareizākai tulkošanai šauru jomu tekstos vienmēr būšot nepieciešamas konkrētai jomai pielāgotas sistēmas. Jo, pirmkārt, valoda bieži ir neviennozīmīga, otrkārt, vispārīgāki vai plašāk izmantoti tulkojumi mēdz nomākt retākus tulkojumus. Visbeidzot, plašas jomas sistēmu apmācībā bieži vienkārši nav pieejami šauru jomu apmācības dati, kas saturētu konkrētās jomas terminoloģiju.
“Tildes” pērn ieviestās neironu mašīntulkošanas sistēmas “translate.tilde.com” apmācībā angļu-latviešu un latviešu-angļu tulkošanas virzieniem tika izmantots 46,1 miljons teikumu, kas iegūti no visdažādāko jomu publiski pieejamiem, kā arī “Tildes” tulkotāju sagatavotiem tekstiem.
“Vizualizējot tas ir aptuveni vienlīdzīgs teksta apjomam, ja saskaitītu vārdus Regīnas Ezeras 13 788 grāmatās “Aka”, Sudraba Edžus 62 130 grāmatās “Dullais Dauka”, kā arī apjomam, ko viens ļoti produktīvs tulkotājs, kas strādā astoņas stundas dienā un 231 dienu gadā, spēj paveikt 180 281 dienā vai 780 gados,” stāsta M. Pinnis.
“Tilde” veikusi analīzi, kāpēc bioloģijas zinātņu doktora Edgara Vimbas vēstulē minētie termini “chicken of the forest”, “chicken of the woods”, “corncrake”, “corn crake”, “landrail”, “rail family” nav iztulkoti pareizi.
M. Pinnis: “Iemesls ir tāds, ka paralēlajos un vienvalodas datos, kas ir izmantoti neironu mašīntulkošanas sistēmu apmācībai, visi dotie termini vai nu nav atrodami vispār, vai arī ir atrodami nepietiekami bieži, lai tiem būtu pietiekama ietekme uz mašīntulkošanas sistēmu.”