ISTRAŽIVAČKI PROJEKT

Microsoft navodno ima umjetnu inteligenciju koja zvuči kao stvarni ljudi

12.07.2024 u 14:54

Bionic
Reading

Riječ je o novoj inačici njihovog jezičnog modela neuronskih kodeka Vall-E 2, koja još neko vrijeme neće biti dostupna široj javnosti

Uratci umjetne inteligencije postaju sve realističniji. Tvrtke poput OpenAI-ja izrađuju alate koji mogu replicirati slike, audio i video zapise na načine koje je sve teže prepoznati kao takve.

U Microsoftu su, navodno, razvili alat koji je toliko dobar u tome da su odlučili ne pustiti ga u javnost još neko vrijeme.

Riječ je o novoj inačici njihovog jezičnog modela neuronskih kodeka Vall-E 2, koju su opisali na službenom blogu.

Kako je navedeno, Vall-E 2 postiže 'ljudski paritet', što bi trebalo značiti kako odgovori koje daje zvuče kao da su ih dali pravi ljudi.

Čini se kako novi model nema problem s beskonačnom petljom koji je original imao prilikom obrade ponavljajućih tokena.

Vall-E 2 uzima u obzir tokene koji se ponavljaju i stoga može dekodirati uzorak koji ih sadrži. Osim toga, skraćuje duljinu zadane sekvence grupiranjem kodeka kodeka.

To bi, tvrde u Microsoftu, trebalo ubrzati interferencije i preskočiti probleme koji proizlaze iz modeliranja dugih sekvenci. Zbog toga postiže ljudski paritet u kategorijama kao što su robustnost govora, prirodnost i sličnost.

'VALL-E 2 može generirati točan, prirodan govor u točnom glasu izvornog govornika, usporediv s ljudskom izvedbom', ustvrdili su.

Velika mogućnost zlorabe

Microsoft nudi primjere kako Vall-E 2 može uzeti uzorak snimke glasa i replicirati ga kada dobije novi upit.

Tvrtka je također pružila primjere modela koji dovršava rečenicu nakon što su mu dani segmenti uzorka snimke, u dijelovima od tri, pet i 10 sekundi.

Ovo pokazuje kako je model sposoban uzeti vrlo kratak primjer glasa i replicirati ga s tekstom koji se ne pojavljuje u izvornoj snimci uzorka.

I dalje ima puno mana koje biste očekivali kod modela pretvaranja teksta u govor (netočan izgovor, zamuckujući govor i tome slično. No, napredak je vidljiv.

U Microsoftu su svjesni kako bi njegov model mogao biti opasan ako se koristi zlonamjerno (primjerice, lažno predstavljanje umjesto Andreja Plenkovića ili Zorana Milanovića).

Model je, naveli su, namijenjen korisnicima koji daju pristanak za replikaciju njihovog glasa, a također bi trebao imati i protokol za provjeru pristanka prije obrade zahtjeva.

Čini se kako takav protokol trenutno ne postoji, što je vjerojatno razlog zašto Microsoft zasad neće VALL-E 2 ponuditi široj javnosti, piše Life Hacker.