Razvijen je sustav strojnog učenja koji može dešifrirati davno izgubljene jezike, a da stroj pritom ne mora znati značenje rečenica u tekstu
Britanski arheolog Arthur Evans je 1886. godine našao drevni kamen s neobičnim setom znakova na njemu nepoznatom jeziku. Kamen je stigao s Krete, a Evans se odmah bacio na potragu za informacijama koje bi mu pomogle u dešifriranju.
Ubrzo je pronašao još kamenja i pločica sa sličnim zapisima koje je datirao na 1400. godinu prije Krista. Po tome bi ti zapisi bili među najstarijima do tada okrivenima. Evans je bio uvjeren kako je linearni oblik tog pisma razvijen iz slika koje pripadaju u rano doba umjetnosti.
Poslije su ustanovili kako je riječ o dva različita pisma. Jedno od njih (linear A) poticalo je iz razdoblja između 1800. i 1400. godine prije Krista, kada je Kretom dominirala minojska kultura brončanog doba. Drugo (linear B) je mlađe i javlja se tek nakon 1400. godine prije Krista, nakon što su otokom već zagospodarili Mikenci.
PRIRUČNIK ZA SUTRAŠNJICU
Bez ovih 12 riječi i izraza teško ćete razumjeti tehnologiju budućnosti
Evans i drugi godinama su bezuspješno pokušavali dešifrirati drevne zapise. Problem je djelomično riješen tek 1953. godine, kada je lingvist amater Michael Ventris dešifrirao linear B.
To mu je pošlo za rukom temeljem dva ključna postignuća. U prvom je Ventris pretpostavio kako brojne riječi koje se ponavljaju predstavljaju nazive lokacija na Kreti, što se pokazalo točnim, dok je u drugom pretpostavio kako je jezik kojeg pokušava dešifrirati rani oblik drevnog grčkog.
Bio je to ogroman napredak, ali linear A ostao je do dan danas zagonetkom. Sad bi se njime mogla pozabaviti umjetna inteligencija, oslanjajući se na napretke u području strojnog učenja.
To je područje već donijelo velike korake naprijed u lingvistici jer je omogućilo strojno čitanje i usvajanje ogromnih baza podataka. Zahvaljujući tome, između ostalog, danas imamo automatski strojni prijevod s jednog jezika na drugi. Nije savršen, ali otvara vrata sasvim novom pogledu na jezik.
Novi pristup
Jiaming Luo i Regina Barzilay s MIT-a te Yuan Cao iz Googleovog laboratorija za umjetnu inteligenciju razvili su sustav strojnog učenja koji može dešifrirati davno izgubljene jezike. Pokazna vježba bilo je dešifriranje upravo lineara B, što je po prvi put učinjeno automatski.
Pritom su koristili značajno drukčiji pristup od dosadašnjeg. Naime, strojni prijevod počiva na ideji kako su riječi u međusobno sličnom odnosu, bez obzira o kojem se jeziku radi. Stoga proces počinje mapiranjem tih odnosa specifilnih za pojedini jezik, što traži ogromne baze podataka teksta.
Stroj potom pretražuje tekstove kako bi uočio koliko često se svaka riječ pojavljuje uz neku drugu. Taj obrazac na jedinstven način postavlja riječ u prostor višedimenzionalnih parametara, pomoću kojeg stroj može naučiti kamo riječ pripada u prijevodu, a kamo ne.
Pritom za njega vrijede neka jednostavna matematička pravila - poput primjerice kralj - muškarac + žena = kraljica - a rečenicu je moguće promatrati kao set obrazaca koji slijede jedan drugog u svojevrsnoj putanji kroz prostor.
Ključan uvid koji je omogućio strojni prijevod bilo je to da riječi u raznim jezicima zauzimaju iste točke u njihovim zasebnim prostorima parametara, što je omogućilo mapiranje cijelog jezika na drugi. Tako je prijevod rečenica postao proces pronalaženja sličnih putanja kroz višedimenzionalne prostore, pri čemu stroj ne mora čak ni znati što rečenice znače.
novosti iz googlea
Google Assistant pričat će umjesto vas, Google Maps prepoznati sve što gledate - evo što nas još čeka
Kako bi ovaj pristup bio moguć, potrebno je imati ogromne količine podataka. No, prije nekoliko godina tim njemačkih znanstvenika pokazao je kako je moguće ostvariti slične rezultate s drastično manjim bazama podataka. Trik je bio u drukčijem načinu ograničavanja stroja, tako da se ne oslanja na baze podataka.
Stroj se ne umara
Luo i društvo otišli su korak dalje, oslanjajući se na poznate načine razvoja jezika tijekom vremena i pretpostavku kako se bilo koji jezik može mijenjati samo na određene načine. Taj pristup olakšava dešifriranje jezika ukoliko je izvorni jezik iz kojeg je razvijen poznat.
Svoj su pristup primijenili na linearu B i ugaritskom, ranom obliku hebrejskog jezika otkrivenog 1929. godine. Stroj je uspio točno prevesti 67,3 posto lineara B.
Hoće li uspjeti razriješiti i tajnu lineara A? Pred lingvistima su još brojne prepreke prije no što to postane moguće. Nova metoda ne može biti upotrijebljena dok ne bude pronađen jezik iz kojeg je linear A nastao.
Ali, velika prednost strojnog prijevoda što može testirati jezik za jezikom brzo, a da se pritom ne umoru. Stoga nije isključeno kako će problem lineara A lingvisti pokušati riješiti golom silom, odnosno pokušati dešifrirati ga u sve jezike kojima strojni prijevod već barata, piše Technology Review.