Speech2Face

Pomalo zastrašujuće: Umjetna inteligencija izrađuje portrete na temelju ljudskog glasa

15.06.2019 u 08:11

Bionic
Reading

Svatko od nas može stvoriti mentalnu sliku osobe koju nikad nije vidio, vodeći se asocijacijama na glas s druge strane linije ili na radiju. Istu stvar sad radi i umjetna inteligencija: Generira digitalnu sliku lica osobe koristeći se kratkim zvučnim zapisom kao referencom

Neuronsku mrežu Speech2Face, računalo koje misli na način sličan ljudskom mozgu, obučavali su znanstvenici na milijunima edukativnih videozapisa u kojima je prikazano više od 100.000 ljudi dok govore.

Iz tog skupa podataka Speech2Face je naučio povezivati glasove s određenim fizičkim značajkama ljudskih lica, napisali su istraživači u studiji. UI je zatim upotrijebio audiozapis kako bi modelirao fotorealistično lice koje odgovara glasu. Nerecenzirani nalazi objavljeni su krajem prošlog mjeseca u online izdanju magazina arXiv.

Stvar još nije savršena, ali...

Srećom, AI još ne zna kako točno izgleda određeni pojedinac na temelju samog glasa. Neuronska mreža prepoznala je određene znakove u govoru koji su upućivali na spol, dob i etničku pripadnost, značajke koje dijele mnogi ljudi, izvijestili su autori studije.

'Kao takav, model će proizvoditi samo lica prosječnog izgleda', zapisali su znanstvenici. 'To neće proizvesti slike stvarnih ljudi.'

Lica koja je generirao Speech2Face - sva okrenuta naprijed i s neutralnim izrazima - nisu točno odgovarala ljudima iza glasova. Međutim, slike su obuhvaćale točne dobne skupine, nacionalnosti i spolove pojedinaca, navodi se u studiji.

Umjetna inteligencija stvara sliku ljudskog lika na temelju zvučnog zapisa Izvor: Društvene mreže / Autor: Two Minute Papers

Međutim, interpretacije algoritma nisu bile savršene. Na primjer, kada je umjetna inteligencija slušala audiozapis Azijca koji govori kineski, program je stvorio sliku azijskog lica. Međutim, kada je isti čovjek govorio na engleskom jeziku, UI je stvorio lice bijelog čovjeka, izvijestili su znanstvenici.

Spolno pristrani program

Algoritam je također pokazao spolnu pristranost, povezujući niske glasove s muškim licima i visoke glasove sa ženskim licima. A budući da su podaci prikupljani s obrazovnih zapisa s YouTubea, oni ne predstavljaju cijelu svjetsku populaciju, napisali su istraživači.

Problem je nastao i kad je Nick Sullivan, voditelj kriptografskog odjela tvrtke za internetsku sigurnost Cloudflare, otkrio da se njegovo lice pojavilo kao jedan od primjera u programu Speech2Face. Sullivan nije dao svoj pristanak za pojavljivanje u studiji, ali smatra se da su videozapisi s YouTubea dostupni istraživačima bez dodatnih privola.