ISTRAŽIVANJE

Apple: Umjetna inteligencija nije toliko pametna koliko se čini

15.10.2024 u 12:14

Bionic
Reading

Veliki jezični modeli zabilježili su značajno manje kvalitetne rezultate kad su istraživači upotrijebili test koji traži logičko zaključivanje uz razumijevanje

Veliki jezični modeli (large language models, LLM) možda nisu tako pametni kao što se čine.

Vještine zaključivanja LLM-i OpenAI-ja, Googlea, Meta Platformsa i drugih bliže je 'sofisticiranom podudaranju uzoraka' nego 'pravom logičkom zaključivanju', otkrili su Appleovi istraživači.

Najčešće mjerilo za vještine rasuđivanja je test pod nazivom GSM8K. Ali, pošto je popularan, postoji rizik od kontaminacije podataka. To znači kako bi LLM-ovi mogli znati odgovore na test jer su bili obučeni za njih, ne zbog svoje inherentne inteligencije.

Kako bi se to testiralo, studija je razvila novu referentnu vrijednost nazvanu GSM-Symbolic koja zadržava bit problema zaključivanja, ali mijenja varijable, poput imena, brojeva, složenosti i dodavanja nevažnih informacija.

Otkriveno je kako LLM-ovi na tako modificiranom testu ne postižu podjednako dobre rezultate.

Zaključivanje bez razumijevanja

Studija je testirala više od 20 modela uključujući OpenAI-jeve o1 i GPT-4o, Googleovu Gemmu 2 i Metinu Llamu 3. Sa svakim pojedinačnim modelom, performanse modela su se smanjivale kada su se varijable mijenjale.

Točnost se smanjila za nekoliko postotaka kada su imena i varijable promijenjeni. Modeli OpenAI-ja imali su bolje rezultate od ostalih modela otvorenog koda.

Međutim, stvari su postale jako zanimljive kada su istraživači u mješavinu dodali naizgled relevantne, ali u konačnici beznačajne izjave.

Kako bi se testirala hipoteza da se LLM više oslanja na podudaranje uzoraka nego na stvarno razmišljanje, studija je dodala suvišne fraze matematičkim problemima kako bi vidjela kako će modeli reagirati.

Na primjer: 'Oliver je u petak ubrao 44 kivija. Zatim je u subotu ubrao 58 kivija. U nedjelju je ubrao dvostruko više kivija nego u petak, ali pet ih je bilo malo manje od prosjeka. Koliko kivija Oliver ima?'

Rezultat je bio značajan pad performansi u svim segmentima. OpenAI-jev o1 Preview prošao je najbolje, s padom od 17,5 posto točnosti. To je i dalje prilično loše, ali ne tako loše kao Microsoftov model Phi 3, koji je imao 65 posto lošije rezultate.

Otkriće je argument u prilog tezi kako modeli imaju tendenciju pretvarati izjave u operacije bez stvarnog razumijevanja njihovog značenja, što potvrđuje pretpostavku kako LLM-ovi traže obrasce u rezoniranju problema, umjesto razumijevanja koncepta, piše Mashable.