Umjetna inteligencija sada može imitirati bilo čiji glas

J.D.

08.05.2017 u 06:56

Mlada tvrtka iz Montreala uspješno je kreirala neuralnu mrežu s naizgled vrlo jednostavnom zadaćom - imitirati bilo čiji glas. Ne samo da je riječ o uobičajenom generatoru glasa kakvog koriste digitalni pomoćnici diljem svijeta, već sustav tvrtke Lyrebird može iskoristiti i glasovnu emocionalnu komponentu, čime postaje stvarniji

Zvukovi koje stvaraju aplikacije i digitalni pomoćnici jednostavno nisu dovoljno dobri. Unaprijed snimljeni sadržaj zvuči prirodno, no kada je riječ o generiranju glasa, stvari definitivno mogu zakazati. Lyrebird, AI startup, vjeruje kako rješenje za to leži u neuralnim mrežama.

Jasno, i njihov sustav je daleko od savršenog, no dobiveni glasovi su itekako bitan korak naprijed. U nastavku je moguće poslušati primjer razgovora Baracka Obame, Donalda Trumpa i Hillary Clinton:

Sve to izvedeno je korištenjem naprednih algoritama koji prepoznaju različite uzorke govora određene osobe. Ti uzorci stvaraju golemu količinu podataka, a neuralna mreža od njih radi smisao kada se zatraži reprodukcija nečeg napisanog. Rezultati su posebno impresivni kada se vidi moć različite intonacije:

'Trenirali smo naše modele s tisućama različitih govornika. Nakon toga smo za novog govornika komprimirali sve podatke u mali ključ koji sadrži njihovu srž glasa. Taj ključ onda koristimo kako bi radili nove rečenice', izjavio je za stranicu Gizmodo stručnjak tvrtke Lyrebird za sintezu govora Jose Sotelo.

U svom preslušanom materijalu ljudi će i dalje čuti različite digitalne artefakte, probleme s čujnosti i brojne sitnice koje daju za naslutiti kako je riječ o umjetnom glasu. Međutim, sintetizirani glas je itekako prepoznatljiv, posebno kada u računicu uđe i intonacija.

Lyrebird prikuplja još resursa i stručnjaka iz polja neuralnih mreža i sinteze glasa, a već sada najavljuju da su na pragu uklanjanja 'robotičnosti' glasa, karakterističnih za ovakve stvari.

Upravo zbog toga, već sada postoje značajni etički prijepori o imitiranju glasa. Kako će se ovakve stvari jednog dana u budućnosti drastično razviti, bit će moguće imitirati bilo koga. Lyrebird navodi kako je potpuno točno da dolazi kraj ere u kojoj se moglo vjerovati snimkama glasa. No, vjeruju da je kao i kod drugih tehnologija posrijedi svojevrsna utrka te mogućnost primjene za dobro (osobama koje su izgubile glas) i loše (kriminalcima).

Dok će ljudski sluh biti moguće prevariti vrlo brzo, računala i analize se neće dati tako lako.

Gizmodo