Aplikacija temeljenu na umjetnoj umjetnoj inteligenciji Emote Portrait Live može animirati fotografiju lica i sinkronizirati je sa zvučnim zapisom
Kineski inženjeri iz Instituta za inteligentno računalstvo pri grupaciji Alibaba razvili su aplikaciju temeljenu na umjetnoj umjetnoj inteligenciji Emote Portrait Live, koja može animirati fotografiju lica i sinkronizirati je sa zvučnim zapisom.
Tehnologija koja stoji iza ovoga oslanja se na generativne mogućnosti modela difuzije (matematički modeli koji se koriste za opisivanje kako se stvari šire ili difuziraju tijekom vremena), koji mogu izravno sintetizirati videozapise glave lika iz dostavljene slike i bilo kojeg audio zapisa.
Ovaj proces zaobilazi potrebu za složenom prethodnom obradom ili posrednim prikazima, čime se pojednostavljuje stvaranje videa glave koja govori.
Izazov leži u hvatanju nijansi i raznolikosti pokreta ljudskog lica tijekom video sinteze.
Tradicionalne metode to pojednostavljuju nametanjem ograničenja na konačni video izlaz, kao što je korištenje 3D modela za ograničavanje ključnih točaka lica ili izdvajanje sekvenci pokreta glave iz osnovnih videozapisa za usmjeravanje cjelokupnog kretanja.
Međutim, ta ograničenja mogu ograničiti prirodnost i bogatstvo rezultirajućih izraza lica.
Uskladiti zvuk i izraz lica nije lako
Cilj istraživačkog tima je razviti okvir za glavu koja govori i može uhvatiti širok raspon realističnih izraza lica, uključujući suptilne mikroizraze, te omogućiti prirodne pokrete glave.
Međutim, integracija zvuka s modelima difuzije predstavlja svoje izazove zbog dvosmislenog odnosa između zvuka i izraza lica.
To može rezultirati nestabilnošću u videozapisima koje proizvodi model, uključujući izobličenja lica ili podrhtavanje između okvira videozapisa.
Kako bi to prevladali, istraživači su u svoj model uključili stabilne kontrolne mehanizme, posebno regulator brzine i regulator područja lica, kako bi poboljšali stabilnost tijekom procesa generiranja.
Unatoč potencijalu ove tehnologije, postoje određeni nedostaci. Primjerice, proces je dugotrajniji od metoda koje ne koriste modele difuzije.
Osim toga, budući da nema eksplicitnih kontrolnih signala za usmjeravanje kretanja lika, model može nenamjerno generirati druge dijelove tijela, poput ruku, što može rezultirati artefaktima u videozapisu.
Istraživači su objavili svoj rad na web poslužitelju arXiv, a na ovom web odredištu možete pogledati što su napravili koristeći isječke Joaquina Phoenixa, Leonarda DiCaprija i Audrey Hepburn, piše Tech Radar.