IZMJERILO SRCE

Znate li koliko je velik hrvatski web?

15.02.2017 u 16:19

Bionic
Reading

Sveučilišni računski centar (SRCE) ove godine obilježava 15 godina mjerenja hrvatskog web prostora. Prema rezultatima zadnjeg istraživanja, domaći webovi su i dalje prilično jednostavni

Mjerenje hrvatskog prostora weba počelo je 2002. godine, kada su od 29. ožujka do 7. svibnja zahvaćeni elektronički resursi dostupni protokolima http/https s poslužiteljima u vršnoj internerskoj domeni .hr. Obavljeno je pomoću domaćeg softvera na domaćoj infrastrukturi, što je slučaj i danas.

Tada zahvaćeni uzorak, veći od 300 GB, obuhvatio je 4.667.920 objekata dostupnih webom. Dominirao je HTML (67 posto), dok je na slikovne elemente (uglavnom u formatu .jpg) otpalo daljnjih 23 posto. Svi ostali formati nagurali su se u preostalih deset posto.

Temeljem rezultata prvih šest mjerenja nastao je Hrvatski arhiv weba u suradnji s Nacionalnom i sveučilišnom knjižnicom, kaoi projekta Digitalnog arhiva mrežnih izvora Republike Hrvatske DAMIR, u suradnji s nekadašnjom agencijom HIDRA, danas Središnjim uredom za razvoj digitalnog društva.

Oba arhiva su u produkcijskom radu dulje od deset godina. Izgrađeni su korištenjem programske podrške Digitalni arhiv mrežnih publikacija (DAMP), razvijene u Srcu na čijoj se mrežnoj opremi i nalaze.

Hrvatski arhiv weba je arhiv čija je svrha preuzimanje i trajno čuvanje publikacija s interneta kao dijela hrvatske kulturne baštine. Sastoji se od sustava za selektivno pobiranje/arhiviranje i sustava za arhiviranje nacionalne domene i tematska arhiviranja, u sklopu kojeg prikuplja i arhivira, recimo, sadržaje vezane za izbore ili nesvakdiašnje događaje poput poplava. U Srcu kažu kako je bolji i temeljitiji od arhivske građe koju je moguće naći u Internet Archiveu.

DAMIR prikuplja i čuva sadržaje koji su javnosti dostupni kroz internetske usluge Središnjeg državnog ureda za razvoj digitalnog društva. oba arhiva udomljena na računalnoj opremi Srca.

Metodologija je s vremenom promijenjena, pa podaci nisu posve usporedivi. No, prema posljednjem mjerenju - provedenom krajem prošle i početkom ove godine - obuhvaćeno je 77 milijuna datoteka, teških 7,7 terabajta. Tekst u HTML formatu i dalje drži najveći udio (51,3 posto), a slike zauzimaju daljnjih 33,8 posto. Istim je istraživanjem utvrđeno kako postoji 96.671 aktivna .hr domena, kao i 80 tisuća aktivnih web odredišta.

Probirači (crawleri) bilježe korištene formate datoteka prema standardu MIME, omjer teksta, slike, audio i video zapisa te obim i sadržaj meta podataka.

Kako je rekao Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu, mjerenje domaćeg web prostora zahvaća tek dio vidljivog dijela interneta.

U prikupljanju podataka velike izazove predstavljaju forumi, katalozi, beskonačna web sjedišta (imaju isti sadržaj na svakoj stranici s drukčijim linkom), galerije, kao i to što ne postoji jedinstveni standard kojeg bi se svi koji izrađuju i objavljuju web stranice u Hrvatskoj morali pridržavati.

'Bilo bi jednostavnije kad bi se svi pridržavali Googleovih uputa za optimizaciju sadržaja za tražilice', rekao je Milinović.