MGIE koristi multimodalne velike jezične modele (MLLM) za tumačenje vaših riječi
Premda Apple nije ni blizu vodećih igrača u polju AI-ja, njihov novi AI model otvorenog koda za uređivanje slika pokazuje koliko kompanija može doprinjeti. Model nazvan MLLM - Guided Image Editing (MGIE), a koristi multimodalne velike jezične modele (MLLM) za tumačenje tekstualnih naredbi prilikom manipuliranja slikama. Drugim riječima, alat ima mogućnost uređivanja fotografija na temelju teksta koji korisnik upisuje. Iako to nije prvi alat koji to može učiniti, 'ljudske su upute ponekad prekratke da bi ih trenutne metode uhvatile i slijedile', piše u opisu projekta.
Tvrtka je MGIE razvila s istraživačima sa Sveučilišta Kalifornije u Santa Barbari. MLLM-ovi imaju moć transformirati jednostavne ili dvosmislene tekstualne upute u detaljnije i jasnije upute koje sam uređivač fotografija može slijediti. Na primjer, ako korisnik želi urediti fotografiju pizze s kobasicom kako bi je 'učinio zdravijom', MLLM-ovi to mogu protumačiti kao 'dodati nadjeve od povrća' i urediti fotografiju kao takvu.
MGIE također može obrezati, promijeniti veličinu i rotirati fotografije, kao i poboljšati svjetlinu, kontrast i ravnotežu boja -sve putem tekstualnih upita. Također može uređivati određena područja fotografije te, primjerice, modificirati kosu, oči i odjeću osobe na fotografiji ili ukloniti elemente u pozadini.
Kao što VentureBeat primjećuje, Apple je izdao model putem GitHuba, dok zainteresirani također mogu isprobati demo koji se trenutno nalazi na Hugging Face Spaces. Apple tek treba reći planira li koristiti ono što je naučio iz ovog projekta u alatima ili značajkama koje može ugraditi u neke od svojih proizvoda, zaključuje Engadget.