Nakon godina dominacije oblika umjetne inteligencije poznatog kao transformator, krenula je potraga za novim arhitekturama
Transformatori podupiru OpenAI-jev model Sora za generiranje videa i oni su u srcu modela za generiranje teksta kao što su Anthropicov Claude, Googleov Gemini i GPT-4o.
Ali, počinju nailaziti na tehničke prepreke.
Transformatori nisu osobito učinkoviti u obradi i analizi golemih količina podataka, barem ako rade na gotovom hardveru. A to dovodi do naglog i možda neodrživog povećanja potražnje za električnom energijom.
Moguća zamjena mogla bi doći u obliku arhitekture nazvane trening u vrijeme testiranja (test-time training, TTT), koju su tijekom godinu i pol razvili istraživači sa Stanforda, UC San Diego, UC Berkeley i iz tvrtke Meta Platforms.
Više podataka, manje računanja
TTT modeli ne samo što mogu obraditi daleko više podataka nego transformatori, već to navodno mogu učiniti bez trošenja toliko računalne snage.
Temeljna komponenta transformatora je takozvano 'skriveno stanje', koje je u biti dugačak popis podataka. Kako transformator nešto obrađuje, dodaje unose u skriveno stanje kako bi 'zapamtio' što je upravo obradio.
Na primjer, ako se model probija kroz knjigu, skrivene vrijednosti stanja bit će stvari poput prikaza riječi (ili dijelova riječi). To, između ostalog, omogućuje učenje u kontekstu.
Skriveno stanje dio je onoga što transformatore čini tako moćnim. Ali, to ih također koči.
Kako bi 'rekao' makar i jednu riječ o knjizi koju je transformator upravo pročitao, model bi morao skenirati cijelu svoju tablicu pretraživanja. Taj je zadatak računalno zahtjevan koliko i ponovno čitanje cijele knjige.
Istraživači su došli na ideju zamijeniti skriveno stanje modelom strojnog učenja.
Potreba za probojem
U suštini, interni model strojnog učenja modela TTT - za razliku od tablice pretraživanja transformatora - ne raste kako obrađuje dodatne podatke.
Umjesto toga, kodira podatke koje obrađuje u reprezentativne varijable (pondere). Bez obzira koliko podataka TTT model obrađuje, veličina njegovog internog modela neće se promijeniti.
Budući modeli mogli bi učinkovito obraditi milijarde podataka, od riječi preko slika do audio zapisa i videa. Daleko više nego današnji modeli, u svakom slučaju.
Zasad je teško prognozirati hoće li TTT modeli zamijeniti transformatore i kad jer su dosad razvijena tek dva mala modela za potrebe istraživanja. Ipak, ubrzani tempo istraživanja alternativa transformatorima ukazuje na sve veće prepoznavanje potrebe za probojem.
Startup Mistral objavio je model, Codestral Mamba, koji se temelji na drugoj alternativi transformatoru koja se zove model prostora stanja (state space model, SSM).
Čini se kako su SSM-ovi, poput TTT modela, računalno učinkovitiji od transformatora i mogu skalirati do većih količina podataka.
AI21 Labs također istražuje SSM-ove. Kao i Cartesia, koja je bila pionir u nekim od prvih SSM-ova i imenjaka Codestral Mamba, Mamba i Mamba-2.
Uspiju li, to bi moglo učiniti generativnu umjetnu inteligenciju još dostupnijom i raširenijom nego što je sada, piše Tech Crunch.