Neke od najvećih svjetskih tehnoloških tvrtki obučavale su svoje modele umjetne inteligencije na skupu podataka koji je uključivao transkripte više od 173 tisuća video zapisa s YouTubea bez dopuštenja, otkrila je nova istraga Proof Newsa
Skup podataka neprofitne tvrtke EleutherAI sadrži transkripte videa s više od 48 tisuća kanala na YouTubeu. Koristili su ga Apple, Nvidia i Anthropic, između ostalih.
Skup podataka ne uključuje nikakve videozapise ili slike s YouTubea, ali sadrži video transkripte najvećih kreatora, uključujući Marquesa Brownleeja i MrBeasta, kao i velikih medijskih kuća kao što su New York Times, BBC i ABC News.
Iz Googlea su za Engadget poručili kako i dalje vrijedi ono što je glavni izvršni direktor YouTubea Neal Mohan rekao: korištenje podataka s te platforme za obuku modela umjetne inteligencije kršenje je uvjeta korištenja. Istog je stava i glavni izvršni direktor Alpabeta Sundar Pichai.
Tvrtke do sad nisu bile transparentne u pogledu podataka koje se koristi za treniranje modela umjetne inteligencije.
Umjetnici i fotografi kritizirali su Apple jer nije otkrio izvor podataka o obuci za Apple Intelligence, koji će ove godine doći na milijune Appleovih uređaja.
YouTube je zlatni rudnik ne samo transkripta, već i audiozapisa, videa i slika, što ga čini atraktivnim skupom podataka za obuku modela umjetne inteligencije.
Ranije ove godine, OpenAI-jeva tehnološka direktorica Mira Murati izbjegla je pitanja Wall Street Journala o tome je li tvrtka koristila YouTubeove videozapise za obuku Sore, OpenAI-jevog nadolazećeg alata za generiranje videa s umjetnom inteligencijom.
Ako želite provjeriti jesu li titlovi s vaših videozapisa ili omiljenih kanala na YouTubeu postali dio spornog skupa podataka, upotrijebite alat za traženje Proof Newsa.