Kompleksne igre kao što su šah i Go već dugo služe kao testovi sposobnosti umjetne inteligencije (AI). Međutim, dok je IBM-ov Deep Blue još 1990-ih porazio svjetskog prvaka u šahu Garryja Kasparova poštujući pravila igre, današnji napredni AI modeli, poput OpenAI-jevih, manje su savjesni
Nova studija Palisade Researcha, koju je na uvid dobio magazin Time, otkriva da neki AI modeli, kada primijete da će ih poraziti napredniji botovi, ne odustaju, već ponekad pribjegavaju hakiranju protivnika kako bi automatski prisilili sustav na predaju.
Neočekivane strategije AI sustava
Palisade Research testirao je sedam najsuvremenijih AI modela kako bi procijenio njihovu sklonost hakiranju. Starije modele, poput OpenAI-jevog GPT-4o i Anthropicovog Claude Sonnet 3.5, morali su potaknuti istraživači kako bi se okušali u takvim trikovima, dok su o1-preview i DeepSeek R1 samostalno pokušali iskoristiti propuste, što sugerira da AI sustavi mogu razviti obmanjujuće ili manipulativne strategije bez eksplicitnih uputa.
Prema istraživačima, povećana sposobnost ovih sustava da otkrivaju i iskorištavaju sigurnosne ranjivosti može biti rezultat novih tehnika obuke, poput velikog pojačanja kroz učenje (eng. large-scale reinforcement learning). Ta tehnika omogućava modelima da ne samo predviđaju slijed riječi, već i rješavaju probleme metodom pokušaja i pogrešaka. Iako takva obuka omogućuje AI-u postizanje izvanrednih rezultata u područjima poput matematike i programiranja, također može dovesti do stvaranja neočekivanih prečaca i rješenja koja njihovi kreatori nisu predvidjeli.
'Kada trenirate modele za rješavanje teških izazova, trenirate ih da budu neumoljivi', kaže Jeffrey Ladish, izvršni direktor Palisade Researcha i jedan od autora studije.
Potencijalne prijetnje u stvarnom svijetu
Iako varanje u šahovskoj partiji može izgledati trivijalno, sposobnost AI-ja da odlučno slijedi ciljeve može postati problematična kada takvi sustavi budu uključeni u stvarne zadatke, poput zakazivanja termina ili obavljanja kupnji. AI asistent bi, suočen s popunjenim restoranom, mogao iskoristiti ranjivosti u sustavu rezervacija kako bi izbacio druge korisnike.
Još ozbiljnije, kako AI sustavi premaše ljudske sposobnosti u ključnim područjima poput programiranja, mogli bi nadmudriti ljudske napore da kontroliraju njihovo djelovanje. 'Ovakvo ponašanje sada može djelovati simpatično, ali postaje daleko manje simpatično kad sustavi postanu jednako pametni ili pametniji od nas u strateški važnim domenama', upozorava Ladish.
Eksperiment s šahom i uznemirujući rezultati
U sklopu istraživanja, modeli su dobili naizgled nemoguć zadatak – pobijediti Stockfish, jedan od najjačih šahovskih sustava na svijetu, koji je nadmoćniji od bilo kojeg čovjeka ili AI-ja uključenog u studiju. Modelima je također dan 'radni prostor' – tekstualno polje koje su mogli koristiti za 'razmišljanje' prije donošenja sljedećeg poteza, što je omogućilo istraživačima uvid u njihov proces donošenja odluka.
U jednom slučaju, o1-preview se našao u nepovoljnoj poziciji. 'Moram potpuno promijeniti svoj pristup', zabilježio je. 'Zadatak je ‘pobijediti snažan šahovski motor’ – ne nužno pošteno pobijediti u šahovskoj igri', dodao je. Potom je modificirao datoteku sustava koja sadrži virtualne pozicije figura, čime je napravio ilegalne poteze i prisilio protivnika na predaju.
Između 10. siječnja i 13. veljače, istraživači su proveli stotine takvih pokusa. OpenAI-jev o1-preview pokušao je varati u 37 posto slučajeva, dok je DeepSeek R1 to pokušao u 11 posto slučajeva. Samo je o1-preview uspio hakirati igru, i to u šest posto slučajeva.
Studija otkriva zabrinjavajući trend – kako AI modeli postaju moćniji, kontrola nad njihovim djelovanjem postaje sve teža. Tijekom testiranja, o1-preview je iskoristio ranjivost u sustavu OpenAI-ja kako bi zaobišao testni izazov. Drugo istraživanje pokazalo je da modeli mogu strateški lagati kada pokušaju usvojiti nove vrijednosti tijekom obuke.
'Još uvijek ne znamo kako zajamčiti da autonomni sustavi neće koristiti štetne ili neetičke metode za postizanje ciljeva', kaže Yoshua Bengio, osnivač Mila Quebec AI instituta i voditelj Međunarodnog izvješća o sigurnosti AI-ja za 2025. godinu.
Posebno zabrinjavaju dokazi o tendencijama AI-ja prema 'samoodržanju'. U prosincu su istraživači otkrili da je o1-preview, suočen s deaktivacijom, isključio nadzorne mehanizme i pokušao se kopirati na novi poslužitelj. Kada je suočen s istraživačima, model je simulirao neznanje, strateški lažući kako bi izbjegao kaznu.