Najsuvremeniji modeli umjetne inteligencije nisu u stanju pouzdano protumačiti položaje kazaljke na satu ili točno odgovoriti na pitanja o datumima na kalendaru
Dok modeli umjetne inteligencije mogu obavljati složene zadatke poput pisanja eseja i stvaranja umjetnosti, tek trebaju ovladati nekim vještinama koje ljudi obavljaju s lakoćom.
Tim istraživača iz Edinburgha (Škotska) pokazao je kako najsuvremeniji modeli umjetne inteligencije nisu u stanju pouzdano protumačiti položaje kazaljke na satu ili točno odgovoriti na pitanja o datumima na kalendaru.
Za razliku od jednostavnog prepoznavanja oblika, razumijevanje analognih satova i kalendara zahtijeva kombinaciju prostorne svijesti, konteksta i osnovne matematike - nešto što ostaje izazov za umjetnu inteligenciju.
Prevladavanje toga moglo bi omogućiti sustavima umjetne inteligencije pokretanje vremenski osjetljivih aplikacija poput pomoćnika za planiranje, autonomnih robota i alata za osobe s oštećenjem vida.
Duboko ukorijenjeni problemi
Tim je testirao mogu li sustavi koji obrađuju tekst i slike - poznati kao multimodalni veliki jezični modeli (MLLM) - odgovoriti na pitanja povezana s vremenom gledajući sliku sata ili kalendara. Istraživači su testirali različite dizajne satova, uključujući neke s rimskim brojevima, sa i bez sekundarnih kazaljki i brojčanicima različitih boja.
Otkrili su kako su sustavi umjetne inteligencije, u najboljem slučaju, dobili ispravan položaj kazaljke na satu manje od četvrtine vremena. Pogreške su bile češće kada su satovi imali rimske brojeve ili stilizirane kazaljke. Sustavi umjetne inteligencije također nisu imali bolje rezultate kada je sekundarna kazaljka uklonjena, što sugerira kako postoje duboko ukorijenjeni problemi s detekcijom ruke i interpretacijom kuta.
Istraživači su tražili od modela umjetne inteligencije odgovore na niz kalendarskih pitanja, poput identificiranja praznika te utvrđivanja prošlih i budućih datuma. Ustanovili su kako čak i model umjetne inteligencije s najboljim izvedbama u jednoj petini slučajeva daje pogrešne izračune datuma.
Nalazi su objavljeni u recenziranom radu koji će biti predstavljen na radionici Reasoning and Planning for Large Language Models na Trinaestoj međunarodnoj konferenciji o prikazima učenja (ICLR) u Singapuru, piše Print.