Novi model još nije dostupan javnosti, a koristi tekstualne instrukcije uparene s informacijama koje mogu uključiti 'pjevušenje i zviždanje'
Google je predstavio umjetnu inteligenciju koja može stvarati petominutne pjesme temeljene na zviždanju. Najnoviji znanstveni rad opisuje program pod imenom MusicLM - sustav koji po mnogočemu podsjeća na već postojeće modele koji konstruiraju sadržaje na osnovi tekstualnog unosa, izvještava Euronews.
Iz Googlea tvrde da njihov model 'nadmašuje dosadašnje sustave po kakvoći zvuka i pridržavanju sadržaja tekstualnih poruka'. Uzorci koje su objavili dolaze u obliku isječaka od 30 sekundi te sadrže instrukcije poput:
'Glavna glazbena tema za arkadnu igru. Mora biti vedra i energična uz zarazan rif električne gitare. Glazba mora biti repetitivna i lako pamtljiva, samo s neočekivanim zvukovima poput cimbale i bubnjeva.'
'Mješavina reggaetona i elektroničke plesne glazbe s prostornim i vanzemaljskim zvukom. Stvara osjećaj izgubljenosti u svemiru - uz plesni ritam.'
'Uzdižući zvuk sintesajzera svira u arpeggiju. Prate ga lagani bubnjevi i bas. Glazba je puna sintesajzerskih zvukova koji stvaraju opuštajuću i avanturističku atmosferu. Može svirati na festivalu tijekom dvije pjesme kao buildup.'
Korištenje umjetne inteligencije za stvaranje glazbe nije ništa novo, no alat koji može proizvesti glazbu prolazne kvalitete temeljenu na tekstualnom unosu - jest.
Stručnjaci koji stoje iza ovog alata objašnjavaju razne izazove s kojima se suočava generiranje glazbe umjetnom inteligencijom - prvo što fali je povezivanje uparenog zvuka i tekstualnih podataka - za razliku od modela koji stvaraju slike, jer velike količine postojećeg i nerijetko ukradenog digitalnog sadržaja 'pomažu pri razvoju kvalitete produkcije'.
Još jedan problem prilikom stvaranja umjetnom inteligencijom je to što se glazba strukturira unutar vremenskog raspona - skladba traje određeno vrijeme, a statičnu sliku može se proizvesti jednostavnim opisom. MusicLM je uspio prevladati tu prepreku, kažu iz Googlea. Riječ je o 'hijerarhijskom modelu sekvence-do-sekvence koji služi za generiranje glazbe', što uz pomoć strojnog učenja proizvodi sljedove za razne razine glazbe, poput strukture, melodije i pojedinih zvukova.
Model se, kako bi naučio to raditi, trenirao na velikoj količini neoznačene glazbe i podatkovnih uzoraka od preko 5500 primjera koje su razvili glazbenici. Podatkovni paket je objavljen javno da bi podržao buduća istraživanja. Model također dozvoljava zvučni unos u obliku zviždanja ili pjevušenja, kojim se melodija skladbe može bolje definirati.
MusicLM još nije dostupan javnosti jer autori, citiramo izvor, 'razumiju rizik potencijalnog nezakonitog prisvajanja kreativnog sadržaja' pjesme koja je jako slična nečemu što je zaštićeno autorskim pravima. Zašto se o ovakvim temama nije govorilo tijekom razvoja računalnih generatora ilustracija poput MidJourneyja ili Dall-e 2, nije poznato.