TEHNO PREGLED

Velike društvene mreže i izdavači ne daju Appleu podatke za obuku AI-ja

03.09.2024 u 10:39

Bionic
Reading

Facebook, Instagram, Craigslist, Tumblr, New York Times, Financial Times, Atlantic, Vox Media, USA Today i Condé Nast su među medijima i izdavačima koji su Appleu uskratili pristup podacima

Manje od tri mjeseca prošlo je od trenutka kad je Apple potiho predstavio alat za izdavače pomoću kojeg mogu uskratiti dozvolu korištenja njihovih podataka za obuku umjetne inteligencije.

Brojne istaknute novinske kuće i društvene platforme odlučile su iskoristiti tu mogućnost.

Kako piše Wired, na tom popisu su Facebook, Instagram, Craigslist, Tumblr, New York Times, Financial Times, Atlantic, Vox Media, USA Today i Condé Nast, između ostalih.

Odbijenice odražavaju značajan pomak u percepciji i korištenju robotskih pretraživača koji su pretraživali web desetljećima. Sada kada ti botovi igraju ključnu ulogu u prikupljanju podataka za obuku umjetne inteligencije, postali su zona sukoba oko intelektualnog vlasništva i budućnosti weba.

Nova uloga za dobri stari robots.txt

Alat Applebot-Extended proširenje je Appleovog bota za indeksiranje weba koji izričito omogućuje vlasnicima web stranica uskraćivanje dozvole za korištenje njihovih podataka pri obuci umjetne inteligencije.

Izvorni Applebot, najavljen 2015., u početku je indeksirao web za Appleove proizvode za pretraživanje kao što su Siri i Spotlight. U Appleu tvrde kako Applebot-Extended poštuje prava izdavača.

Uskraćivanje dozvole ne ometa indeksiranje web odredišta jer bi to dovelo do problema u radu tražilice, ali ne prikuplja podatke za treniranje Appleovih velikih jezičnih modela i drugih projekata generativne umjetne inteligencije.

Izdavači mogu blokirati Applebot-Extended ažuriranjem tekstualne datoteke na svojim web stranicama poznate kao Robots Exclusion Protocol (robots.txt). Ova je datoteka desetljećima upravljala načinom na koji botovi stružu web. Omogućuje vlasnicima web stranica blokiranje ili dopuštanje robota od slučaja do slučaja.

Iako ne postoji zakonska obveza za botove da se pridržavaju onoga što piše u tekstualnoj datoteci, usklađenost je dugotrajna norma, koju se ipak povremeno krši.

Razmjerno malo blokada

Applebot-Extended toliko je nov da ga još relativno malo web stranica blokira. Startup za otkrivanje umjetne inteligencije Originality AI analizirao je uzorak od 1.000 web stranica s velikim prometom. Otkrio je kako približno sedam posto blokira Applebot-Extended. Pretežno su to bile novinske i medijske kuće.

Servis AI Dark Visitors provela je vlastitu analizu na uzorku od 1.000 web stranica s velikim prometom, otkrivši kako je približno šest posto imalo blokiran bot.

Novinar Ben Welsh otkrio je kako nešto više od četvrtine web stranica s vijestima koje je ispitao (294 od 1167 publikacija uglavnom na engleskom jeziku sa sjedištem u SAD-u) blokiraju Applebot-Extended. Za usporedbu, 53 posto web stranica s vijestima u njegovom uzorku blokira OpenAI-jev bot.

Google je prošlog rujna predstavio vlastiti bot specifičan za umjetnu inteligenciju, Google-Extended, kojeg blokira gotovo 43 posto tih stranica.

Čini se kako se velika većina vlasnika web stranica ili ne protivi Appleovim praksama obuke umjetne inteligencije ili nisu svjesni kako je mogu blokirati.

Strategija pritiska?

Prošle je godine New York Times objavio kako Apple pokušava sklopiti ugovore o umjetnoj inteligenciji s izdavačima. Od tada su konkurenti kao što su OpenAI i Perplexity najavili partnerstva s raznim novinskim kućama, društvenim platformama i drugim popularnim web stranicama.

Moguće je kako je uskraćivanje dozvole dio strategije kako bi bio sklopljen sporazum o partnerstvu. Pošto robots.txt treba uređivati ​​ručno, a ima sve je više alata koji traže materijale za obuku umjetne inteligencije, može biti zahtjevno održavati ažuran popis blokiranih.

New York Times - koji tuži OpenAI zbog kršenja autorskih prava - kritičan je prema Applebot-Extendedu i sličnim alata zbog toga što preskaču izravno traženje dozvole za korištenje autorskih prava i intelektualnog vlasništva.