Istraživanje u realnom vremenu pokazalo je kako više od 40 posto podataka nije na bilo koji način taknuto minimalno tri godine, što stvara bespotrebni trošak
Nakon prve runde istraživanja Indeks genomike podataka tvrtka Veritas Tehnologies je objavila prvi točan pregled sastava podataka koji se kriju po tvrtkama i korporacijama.
Indeks otkriva da slike, datoteke vezane uz razvoj softvera i sažete (komprimirane) datoteke čine gotovo jednu trećinu svih datoteka u okruženju.
Datoteke vezane uz razvoj softvera čine velikih 20 posto u ukupnoj količini datoteka. Kada se pogledaju trendovi u posljednjih 10 godina, u odnosu na ostale vrste datoteka, količina prezentacijskih datoteka pala je za čak 500 posto.
Najviše novih podataka stvaramo tijekom jeseni. Najdramatičnije povećanje vidi se u vidu 91 posto više tekstualnih datoteka, 48 posto više proračunskih tablica te čak 89 posto više podataka vezanih uz geografske informacijske sustave.
Tijekom jeseni očito se najviše bavimo i snimanjem videa, odnosno snimke napravljene tijekom ljeta stavljamo na diskove tvrtke. Količina videozapisa, naime, raste 68 posto tijekom jeseni.
Čak 41 posto podataka u poslovnom okruženju nikad ne bude taknuto. Uz izuzetak zahtjeva vezanih uz usklađenost sa zakonodavnim okvirom i drugim standardima poslovanja kojih se tvrtke moraju pridržavati, granica od tri godine smatra se općim standardom koji definira trenutak u kojem podaci više nisu relevantni već zastarjeli.
Uzmemo li u obzir ovaj standard, čak 41 posto podataka u tvrtkama može se proglasiti takvima jer nisu promijenjeni, na bilo koji način, tijekom protekle tri godine.
Napušteni podaci nepotrebno opterećuju sustave. Podaci kojima se ne zna vlasnik – a što je situacija do koje je došlo zbog promjena poslovnih zadataka kod pojedinaca ili odlaska zaposlenih iz tvrtke - smatraju se napuštenima.
Napušteni podaci često nisu primarna briga tvrtki jer ih ne vide i o njima ne razmišljaju. No, ti ih podaci zbog toga koštaju. U pravilu se radi o vrstama datoteka s bogatim sadržajem, poput videozapisa, slika ili prezentacija.
Osim što je rizično ostaviti ih bez nadzora, ove vrste podataka također zauzimaju više prostora na disku u odnosu na broj samih datoteka – razlika je više od 200 posto.
Naprave li sličan uvid u vlastite podatke, tvrtke i organizacije svih vrsta mogu pronaći prioritetna područja u kojima mogu ostvariti uštede.
U velikoj tvrtki koja posjeduje 10 petabajta (PB) podataka, što je bio prosjek u ovom istraživanju, projekt kojim bi se arhivirale zastarjele i nepotrebne prezentacije, dokumenti, proračunske tablice i tekstualne datoteke na godišnjoj bi razini rezultirao s uštedom od dva milijuna dolara, procjenjuju u Veritasu.
Indeks genomike podataka prvo je istraživanje koje mjeri točne podatke i detalje o stvarnim poslovnim okruženjima - od vrsti datoteka koje su spremljene pa do prosječne starosti datoteka i njihovog proporcionalnog udjela u ukupnoj količini.
Projekt Data Genomics je, kažu u Veritasu, prva inicijativa ove vrste koja omogućava organizacijama bolje razumijevanje prave naravi nestrukturiranih podataka koje stvaraju, pohranjuju i kojima se koriste svakoga dana.
Cijeli će projekt uključivati rad podatkovnih znanstvenika, vodećih stručnjaka u ovom industrijskom sektoru i drugih stručnjaka koji će pomoći definirati genomiku upravljanja podacima te koji će svoje rezultate podijeliti s organizacijama što se susreću s ovim problemima rasta.