UMJETNA INTELIGENCIJA

Google predstavio Gemini 2.0: Novi AI model za više-manje sve

13.12.2024 u 08:47

Bionic
Reading

Gemini 2.0 može stvarati slike i zvuk, brži je i jeftiniji za pokretanje

Googleov najnoviji AI model pred sobom ima puno posla. Kao i sve druge tvrtke koje sudjeluju u utrci umjetne inteligencije, Google ubrzano integrira AI u gotovo svaki proizvod koji posjeduje, pokušava stvoriti alate koje drugi žele koristiti i postavlja infrastrukturu kako bi sve to bilo moguće bez prevelikih troškova. U međuvremenu, Amazon, Microsoft, Anthropic i OpenAI ulažu vlastite milijarde u rješavanje gotovo istih problema.

To možda objašnjava zašto je Demis Hassabis, izvršni direktor Google DeepMinda i voditelj svih AI projekata u Googleu, toliko uzbuđen oko Gemini 2.0 modela. Google je predstavio Gemini 2.0, otprilike 10 mjeseci nakon lansiranja verzije 1.5. Iako je model još uvijek u eksperimentalnoj fazi, Google je objavio manju verziju, 2.0 Flash. Prema Hassabisu, već sada donosi značajne pomake, piše Verge.

'Praktički,' rekao je Hassabis, 'model je dobar kao trenutni Pro model. Možete ga zamisliti kao boljeg za cijelu razinu uz istu troškovnu i izvedbenu učinkovitost te brzinu. Jako smo zadovoljni time.' Osim što poboljšava već postojeće mogućnosti, Gemini 2.0 donosi i nove značajke. Može nativno generirati zvuk i slike te ima multimodalne sposobnosti koje postavljaju temelje za sljedeći veliki korak u AI-ju: agente.

Agentički AI, kako ga svi nazivaju, odnosi se na AI sustave koji mogu izvršavati zadatke samostalno. Google već neko vrijeme demonstrira jedan takav sustav, Project Astra, vizualni sustav koji može prepoznati predmete, pomoći u navigaciji i pronaći izgubljene naočale. Gemini 2.0 donosi velika poboljšanja za Astru, tvrdi Hassabis.

Google također uvodi Project Mariner, eksperimentalni dodatak za Chrome koji doslovno može koristiti vaš preglednik umjesto vas. Tu je i Jules, agent namijenjen programerima za pronalaženje i ispravljanje grešaka u kodu, kao i Gemini 2.0 agent koji može analizirati vaš ekran i pomoći vam u igranju videoigara. Hassabis ovu funkciju opisuje kao 'uskrsno jaje' koje pokazuje što multimodalni model može postići.

'Godinu 2025. vidimo kao pravi početak doba agenata,' kaže Hassabis, dodajući kako su učinkovitost i brzina ključni napredci novog modela. Iako se industrija suočava s usporavanjem poboljšanja modela, Google nastavlja bilježiti napredak u obuci novih modela.

Googleov plan za Gemini 2.0 jest koristiti ga posvuda. Model će pokretati AI funkcije u Google pretraživanju, koje trenutno koristi milijardu ljudi, a sada će biti još složenije i sofisticiranije. Bit će integriran u Gemini bot i aplikaciju, a kasnije će pokretati i AI funkcije u Workspaceu i drugim Googleovim proizvodima. Cilj je stvoriti univerzalni model s multimodalnim mogućnostima.

Dok počinje doba agenata, Hassabis upozorava na stare i nove izazove. Stari problemi uključuju izvedbu i troškove, dok novi uključuju sigurnosne rizike koje agenti mogu predstavljati kada djeluju samostalno. Google istražuje sigurnosne mjere poput testiranja u kontroliranim okruženjima, no priznaje da je potrebno još istraživanja.

Iako je Gemini 2.0 još uvijek u eksperimentalnoj fazi, korisnici ga već sada mogu isprobati putem Gemini web aplikacije. Početkom iduće godine model će biti dostupan na ostalim Gemini platformama, u svim Googleovim proizvodima i na cijelom internetu. Blago nama.