Umjetna inteligencija nepovratno mijenja svijet umjetnosti: Hoće li strojevi istisnuti slikare, dizajnere i modele?

Dok jedni ulazak umjetne inteligencije u svijet umjetnosti zovu robotskom apokalipsom, drugi nalaze inspiraciju u demokratizaciji vizualnog izražaja. Jedna je stvar sigurna - uvođenjem alata za kreiranje umjetnom inteligencijom u javnu domenu stvari više neće biti iste

Premda se možda ne bavite umjetnošću, možda ste čuli za pojam AI image generation. Nedavno izdan model za sintezu slika Stable Diffusion svakom vlasniku računala s pristojnom grafičkom karticom omogućava stvaranje bilo kakve vizualne stvarnosti - jedina im je granica mašta. Sustav može imitirati apsolutno sve vizualne stilove te, ako mu date dovoljno dobre upute, poput čarolije stvoriti rezultate na ekranu.

Dok je dio umjetnika oduševljen ovom idejom, drugi nisu baš sretni, a društvo je u načelu nesvjesno ove tehnologije u razvoju koja u posljednje vrijeme prožima Twitter, Discord i Github. Sinteza slika donosi mogućnosti koje je nekad donio izum kamere ili čak sam nastanak vizualne umjetnosti. Na stolu je i naše poznavanje povijesti, ovisno o tome kako stvari na kraju ispadnu.

Kako god okrenuli, Stable Diffusion nalazi se na čelu novog vala alata dubokog učenja koji nastoje promijeniti kreiranje vizualnih medija.

Vizualni medij kojeg stvara računalo

Stable Diffusion tvorevina je Emada Mostaquea, bivšeg londonskog menadžera hedge fondova čiji je cilj bio stvoriti aplikacije za duboko učenje koje će biti dostupne masama, što je pokušao napraviti u kompaniji Stability AI. Ako ste mislili da se radi o novom polju, napomenimo da korijeni moderne analize slika sežu u 2014. godinu.

Također, Stable Diffusion nije prvi model sinteze slika (ISM) koji je ove godine privukao pažnju računalnog svijeta.

OpenAI je u travnju 2022. predstavio DALL-E 2, sustav koji je šokirao društvene mreže mogućnošću pretvaranja scene pisane riječima (pod imenom 'prompt') u niz vizualnih stilova koji mogu biti fantastika, fotorealizam i sve između. Ljudi s privilegiranim pristupom ovom alatu napravili su astronaute koji jašu na konjima, plišane medvjediće koji kupuju kruh u drevnom Egiptu, skulpture u stilu modernih umjetnika i tako dalje.

Ubrzo nakon DALL-E-a 2, Google i Meta objavili su svoje modele umjetne inteligencije za pretvaranje teksta u sliku. MidJourney, koji je od ožujka 2022. dostupan na Discordu te je postao otvoren javnosti nekoliko mjeseci kasnije, naplaćuje pristup te postiže slične efekte, samo s rezultatima koji više podsjećaju na slikarske radove ili ilustracije.

Umjetnost kreirana umjetnom inteligencijom u programu MidJourney Izvor: Licencirane fotografije / Autor: Damir Rukavina

Konačno, tu je i Stable Diffusion. Stability AI izbacio je model za izradu slika otvorenog izvora koji je jednako dobar kao i DALL-E 2. Također je otvorio stranicu DreamStudio, koja pruža pristup računalnim resursima za generiranje slika pomoću Stable Diffusiona. Za razliku od DALL-E-a 2, ovaj alat mogu koristiti apsolutno svi, a kako se radi o softveru otvorenog izvora, na temelju njega mogu se razvijati drugi projekti - uz jako mali broj ograničenja.

Samo tjedan dana nakon izlaska koda na internetu su se pojavili deseci projekata koji guraju Stable Diffusion u radikalnim novim smjerovima. Ljudi su, naprimjer, postigli fascinantne rezultate tehnikom img2img, koja je nadogradila MS-DOS grafiku u realistične slike, transformirala slike iz 'Aladina' u 3D, mijenjala dječje žvrljotine u kompleksne ilustracije i mnogo toga drugog. Sinteza slika donosi mogućnost bogate vizualizacije, sve je lakša za korištenje i ubrzava mogućnosti stvaranja umjetnika koji je odluče prihvatiti - kao što je to Adobe Photoshop napravio u devedesetima.

Izvor: Screenshot / Autor: img2img

Stable Diffusion možete pokrenuti i vi. Sučelje programa evoluira sve brže te se mijenja iz grubih komandi i Google Colab notesa u polirana, ali i dalje kompleksna grafička sučelja koja će postati sve jednostavnija. Ovo znači da, čak i ako niste tehnički nastrojeni, samo dajte da prođe malo vremena - jednostavnija rješenja su na putu, a ako sve propadne, uvijek možete isprobati demo na internetu.

Izvor: Screenshot / Autor: img2img

Čarolija Stable Diffusiona

Većina ISM-ova koristi tehniku latentne difuzije u kojoj model uči prepoznati oblike u metežu te ih postupno dovesti u fokus ako se podudaraju s riječima u upitu, odnosno promptu.

Kako bi ga izgradio, osoba ili grupa koja trenira model sakuplja slike s metapodacima (poput tagova ili opisa) te formira ogromnu bazu podataka. U slučaju Stable Diffusiona, riječ je o setu od pet milijardi dostupnih slika skinutih s interneta. Nedavna analiza podataka pokazuje da je velik broj tih slika uzet s Pinteresta, DeviantArat i čak Gettyja, što znači da je Stable Diffusion apsorbirao stilove brojnih živućih umjetnika, od kojih su neki, s opravdanjem, jako bijesni.

Model se nakon toga trenira na podacima slika uz pomoć stotina jakih grafičkih procesora poput Nvidije A100. Prema Mostaqueu, trening Stable Diffusiona koštao je 600.000 dolara (procjene o treniranju drugih ISM-ova kreću se u milijunima dolara). Model tijekom treninga asocira riječi povezane sa slikama pomoću tehnike CLIP (predtrening kontrastivnim jezikom - slikom), koju je OpenAI otkrio i najavio prošle godine.

Izvor: Društvene mreže / Autor: David Schnurr (via Twtiter)

ISM koji koristi latentnu difuziju tijekom treninga uči statističke poveznice gdje obojeni pikseli obično pripadaju u odnosu na druge objekte, što znači da ne mora razumjeti nešto u tradicionalnom smislu, no svejedno proizvodi impresivne rezultate, proizvodeći kombinacije stilova koji izgledaju jako inteligentno. Nakon završetka treninga model nikad ne kopira slike u izvoru, već kreira nove kombinacije stilova, temeljene na onome što je naučio. Rezultati su, očekivano, jako zabavni i interesantni.

Stable Diffusion, bar zasad, ne brine ima li osoba pet glava, osam prstiju ili četiri noge, što znači da, osim ako imate jako puno sreće, morate generirati hrpu slika s istom temom sve dok ne dobijete nešto što vas zadovoljava. U budućnosti ćemo vjerojatno nailaziti na modele koji će biti dovoljno dobri da smanje potrebu za kopanjem među tri tisuće slika ili ćemo imati neki interni filtar koji će odraditi biranje za vas.

Gdje je tu etika?

Javna verzija Stable Diffusiona podigla je uzbunu među ljudima koji se boje njezinog ekonomskog i kulturalnog udara. Za razliku od DALL-E-a 2, podaci za trening (ili 'utezi') dostupni su svima koji ih žele koristiti bez restrikcija. Službena verzija Stable Diffusiona (i DreamStudia) uključuje automatske filtre s golotinjom i nevidljiv watermark u slikama, no te se restrikcije mogu lako zaobići zato što je kod otvorenog izvora. Stable Diffusion se zato može koristiti za stvaranje slika koje mogu kršiti korporativna autorska prava, deepfakeove javnih osoba i još puno toga. Štoviše, već postoje privatni Discordovi serveri posvećeni pornografskim sadržajima stvorenima uz pomoć ovog modela.

Licenca Stable Diffusiona službeno zabranjuje većinu ovakvih primjena, no uz kod i utege, kojima može pristupiti apsolutno svatko, provođenje tih pravila postaje teško, ako ne i nemoguće. Mostaque kaže da vjeruje kako koristi postojanja ovakvog alata nadmašuju potencijalne nedostatke. 'Vjerujemo u osobnu odgovornost i savjest pojedinca', rekao je.

Stable Diffusion je na Twitteru izazvao bijes hrpe umjetnika zato što radovi imitiraju njihov stil. U vječitoj potrazi za podacima, set slika koji se koristi za trening Stable Diffusiona sadrži milijune radova koje su napravili umjetnici, a bez dogovora s njima, što povlači opravdana etička pitanja o autorskim pravima. Premda je sakupljanje podataka u Americi tehnički legalno, mnogi misle da zaostajanje za tehnologijom koja srlja naprijed zahtijeva drukčiji pristup javno dostupnim podacima.

A new AI image generator appears to be capable of making art that looks 100% human made. As an artist I am extremely concerned. pic.twitter.com/JUSW0x8Woa
— RJ Palmer (@arvalis) August 14, 2022

Ako tehnologija sinteze slika dođe u ruke korporacija (što bi se moglo vrlo skoro dogoditi), kompanije će svoje modele morati trenirati na 'čistim' podacima koji uključuju licencirani sadržaj, sadržaj koji je javno dostupan te slike javne domene kako bi se izbjegli etički problemi čak i ako je korištenje internetskog sakupljanja podataka tehnički legalno.

Što slijedi?

Velike su šanse da će, uz velik napredak tehnologije čipova, Stable Diffusion u manje od godinu dana proraditi i na smartfonima. Nove će tehnike također ovim modelima omogućiti treniranje na jeftinijoj opremi, što će rezultirati eksplozijom kreativnog sadržaja koji izbacuje umjetna inteligencija.

Stable Diffusion i ostali modeli već počinju ulaziti u domenu stvaranja i manipulacije videa, što znači da videoverzija sustava dolazi prije nego što su mnogi mislili. Logično je da će se nakon toga umjetna inteligencija proširiti na zvuk i glazbu, cijele videoigre i 3D iskustva u virtualnoj stvarnosti. Umjetna će inteligencija uskoro odrađivati većinu posla kreativaca i zabavljača - zamislite beskonačnu zabavu generiranu u stvarnom vremenu i prema zahtjevu klijenta.

Tu doduše u pitanje dolaze i manje optimistični scenariji u kojima cijeli produkcijski studiji gube posao u korist ravnatelja i art direktora koji cijeli dan piše promptove i 'pegla' slike koje izbacuje umjetna inteligencija. Umjetnost kreirana na ovaj način također je izazvala pobunu tradicionalnih umjetnika, od kojih mnogi tvrde da pisanje šifre i prebiranje kroz stotine slika nije umjetnost. Théâtre D’opéra Spatial, slika Jasona Allena koja je pobijedila na umjetničkom natjecanju, pobudila je raspravu o umjetnoj inteligenciji, kao i ulozi čovjeka u kreativnom procesu. Mnogi vjeruju da će klasične umjetnike za nekoliko godina zamijeniti strojevi.

Théâtre D’opéra Spatial Izvor: Licencirane fotografije / Autor: Jason Allen

Animator i redatelj Zach Hadel rekao je da će ovakav razvoj inteligencije dovesti do distopijske budućnosti u kojoj sva zabava funkcionira na proceduralnoj generaciji i stvaranju sadržaja koji od raznih izvora uzima najbolje elemente i stvara funkcionalnu sredinu koja, premda nema dušu, i dalje radi sve što bi sadržaj određene vrste trebao raditi.

Nažalost, tu postoje brojne implikacije, poput gubitka poslova u kreativnom sektoru, kao i nastanka modela za realistične slike koji se mogu rabiti za propagandu i dezinformiranje, uz mijenjanje povijesnih događaja, ubrzavanje političkih sukoba, napade na osobe imitacijom, uništavanje pravne vrijednosti videosnimke ili fotografije i tako dalje. U budućnosti, u kojoj umjetna inteligencija preuzima skoro sve funkcije društva, kako ćemo točno znati dolazi li bilo koji vizualni medij iz prave kamere ili je generiran umjetnom inteligencijom. Konačno - hoćemo li znati vršimo li interakciju s pravim ljudima?

Mostaque je optimističan: 'Postavit će se sustavi za provjeru, a otvorene verzije ovih alata za sobom će povući javnu debatu o njihovom razvoju i etičnosti', rekao je.

Sretno s time.