ALARMANTNO IZVJEŠĆE

Google i OpenAI su svoje modele navodno trenirali na milijunima YouTube videa

08.04.2024 u 10:51

Bionic
Reading

Tvrtke su, prema izvoru, možda prekršile autorska prava brojnih YouTube kreatora

OpenAI i Google su trenirali svoje AI modele na tekstu prepisanom s YouTube videa, potencijalno kršeći autorska prava kreatora, piše New York Times. Izvješće, koje opisuje koliko su daleko OpenAI, Google i Meta kako bi maksimalno povećali količinu podataka koju mogu hraniti svojim AI-jevima, citira brojne ljude koji poznaju prakse tvrtki.

Ove informacije dolaze samo nekoliko dana nakon što je izvršni direktor YouTubea Neal Mohan rekao u intervjuu za Bloomberg Originals da bi navodna upotreba YouTube videa od strane OpenAI-ja za treniranje njegovog novog generatora teksta u video, Sora, bila u suprotnosti s politikom platforme.

OpenAI je kršio pravila YouTubea?

Prema NYT-u, OpenAI je svoj alat za prepoznavanje govora Whisper koristio za transkripciju više od milijun sati YouTube videa koji su zatim korišteni za treniranje GPT-4. The Information je ranije objavio kako je OpenAI koristio YouTube videozapise i podcaste za treniranje dvaju AI sustava. Predsjednik OpenAI-ja Greg Brockman navodno je bio među ljudima u ovom timu.

Prema Googleovim pravilima, 'neovlašteno skrapiranje ili preuzimanje YouTube sadržaja' nije dopušteno, rekao je Matt Bryant, glasnogovornik Googlea, za NYT, također rekavši da tvrtka nije znala za bilo kakvu takvu upotrebu od strane OpenAI-ja.

Google je radio sličnu stvar

U izvješću se, međutim, tvrdi da su u samom Googleu postojali ljudi koji su znali, ali nisu poduzeli mjere protiv OpenAI-ja jer je Google koristio YouTube videozapise za treniranje vlastitih AI modela. Google je rekao NYT-u da to radi samo s videozapisima kreatora koji su na to pristali.

Izvješće NYT-a također tvrdi da je Google zatražio od tima da prilagodi svoju politiku privatnosti u lipnju 2023. kako bi šire pokrio svoju upotrebu javno dostupnog sadržaja, uključujući Google Docs i Google Sheets, za obuku svojih AI modela i proizvoda. Promjene, za koje Google kaže da su napravljene radi jasnoće, objavljene su u srpnju.

Bryant je za NYT rekao da se ova vrsta podataka koristi samo uz dopuštenje korisnika koji se uključe u Googleove eksperimentalne testove značajki i da tvrtka 'nije započela obuku o dodatnim vrstama podataka na temelju ove promjene' - koja je, podsjetimo, dodala Barda kao još jednu stvar za koju bi se ti podaci mogli koristiti.