NEUGODNO IZNENAĐENJE

Velike tehnološke tvrtke koristile su YouTube za obuku umjetne inteligencije bez dozvole

17.07.2024 u 14:00

Bionic
Reading

Neke od najvećih svjetskih tehnoloških tvrtki obučavale su svoje modele umjetne inteligencije na skupu podataka koji je uključivao transkripte više od 173 tisuća video zapisa s YouTubea bez dopuštenja, otkrila je nova istraga Proof Newsa

Skup podataka neprofitne tvrtke EleutherAI sadrži transkripte videa s više od 48 tisuća kanala na YouTubeu. Koristili su ga Apple, Nvidia i Anthropic, između ostalih.

Skup podataka ne uključuje nikakve videozapise ili slike s YouTubea, ali sadrži video transkripte najvećih kreatora, uključujući Marquesa Brownleeja i MrBeasta, kao i velikih medijskih kuća kao što su New York Times, BBC i ABC News.

Iz Googlea su za Engadget poručili kako i dalje vrijedi ono što je glavni izvršni direktor YouTubea Neal Mohan rekao: korištenje podataka s te platforme za obuku modela umjetne inteligencije kršenje je uvjeta korištenja. Istog je stava i glavni izvršni direktor Alpabeta Sundar Pichai.

Tvrtke do sad nisu bile transparentne u pogledu podataka koje se koristi za treniranje modela umjetne inteligencije.

Umjetnici i fotografi kritizirali su Apple jer nije otkrio izvor podataka o obuci za Apple Intelligence, koji će ove godine doći na milijune Appleovih uređaja.

YouTube je zlatni rudnik ne samo transkripta, već i audiozapisa, videa i slika, što ga čini atraktivnim skupom podataka za obuku modela umjetne inteligencije.

Ranije ove godine, OpenAI-jeva tehnološka direktorica Mira Murati izbjegla je pitanja Wall Street Journala o tome je li tvrtka koristila YouTubeove videozapise za obuku Sore, OpenAI-jevog nadolazećeg alata za generiranje videa s umjetnom inteligencijom.

Ako želite provjeriti jesu li titlovi s vaših videozapisa ili omiljenih kanala na YouTubeu postali dio spornog skupa podataka, upotrijebite alat za traženje Proof Newsa.