rudarenje podataka

Ne pamti se ovakva znanstvena eksplozija: Svijet preplavili radovi o koronavirusu, a dvije su metode za čišćenje nereda

22.05.2020 u 22:59

Bionic
Reading

Samo od siječnja o Covidu-19 objavljeno je više od 23.000 znanstvenih radova i ta količina materijala udvostručuje se svakih 20 dana. Umjesto složene i pregledne arhive, u znanstvenoj literaturi vlada nered koji pokušavaju raščistiti stotine timova stručnjaka. Dvije su osnovne strategije: Stvoriti lako dostupne kolekcije radova, hijerarhijski složenih po važnosti, i izraditi automatizirane alate za pretragu korištenjem umjetne inteligencije

Znanstvenicima je sve teže pratiti ogromne količine znanstvenih radova koji im se gomilaju na stolovima, u papirnatom obliku ili u porukama koje im stižu na njihova stolna računala.

'Jednostavno više ne stižem držati korak', požalio se magazinu Science Timothy Sheahan, virolog sa Sveučilišta Sjeverna Karolina koji proučava Covid-19. Samo prošli tjedan pristiglo mu je više od 4000 novih znanstvenih informacija. Procjenjuje se da je od siječnja o Covidu-19 objavljeno više od 23.000 znanstvenih radova i da se ta količina materijala udvostručuje svakih 20 dana. Takva se eksplozija znanstvene literature ne pamti u ljudskoj povijesti.

'Ljudi nemaju vremena pročitati cijele članke i shvatiti njihovu suštinu, dodanu vrijednost i ograničenja', kaže Kate Grabowski, epidemiolog s Bloombergove škole javnog zdravstva pri Sveučilištu Johnsa Hopkinsa.

Nered u znanstvenoj literaturi

Umjesto složene i pregledne arhive, u znanstvenoj literaturi vlada nered koji pokušavaju raščistiti stotine timova stručnjaka. Dvije su osnovne strategije: stvoriti lako dostupne kolekcije radova, hijerarhijski složenih po važnosti, i izraditi automatizirane alate za pretragu korištenjem umjetne inteligencije.

Sredinom ožujka uz podršku Bijele kuće pokrenut je CORD-19, najveća zbirka podataka koja sadrži više od 59.000 objavljenih članaka, uključujući studije o koronavirusima iz sredine prošlog stoljeća.

Google, Inicijativa Chan Zuckerberg i Allenov institut za UI surađivali su s američkim Nacionalnim institutom za zdravlje i drugim skupinama kako bi identificirali i prikupili radove metodama što uključuju obradu prirodnog jezika, a brojne PDF datoteke pretvorene su u oblik čitljiv algoritmima strojnog učenja. CORD-19 ne bi trebao samo pomagati istraživačima u pretraživanju literature, on bi trebao moći izvlačiti smislene uzorke iz nalaza u arhiviranim radovima.

Otežano rudarenje podataka

Giovanni Colavizza, bibliometričar sa Sveučilišta u Amsterdamu, otkrio je neke rupe u tom planu. Naprimjer, više od 60 posto radova u CORD-19 u pojmovima za pretraživanje uopće ne spominju riječi kao što su 'koronavirus' ili 'SARS-CoV'. Uz to, mnogi radovi nisu objavljeni u cijelosti, što otežava rudarenje podataka.

Grabowski i njen tim sa Sveučilišta Johnsa Hopkinsa koriste drugačiji pristup pa se umjesto na količinu radije fokusiraju na značenje nekog rada. Zbog toga je 40 znanstvenika pročistilo literaturu i iz nje odabralo više od 80 radova, podijeljenih na teme, da bi svakom napisali sažetke.

'Postoji puno informacija, ali mnogo studija nije dobro provedeno', kaže Grabowski, stoga su izbacili većinu članaka koji sadržavaju samo komentare i protokole, ali ne i originalne nalaze.

Nerecenzirani radovi pritom uopće nisu toliki problem kao što se mislilo. Do 14. travnja pregledano je više od 11.000 radova o Covidu-19, a njih otprilike 80 posto recenzirano je u stručnim časopisima.

CORD-19 je mjesto na kojem su prikupljene skoro sve znanstvene informacije o koronavirusu Izvor: Društvene mreže / Autor: Abdallah Sobehy

Od početka pandemije 14 medicinskih časopisa u kojima je objavljeno najviše sadržaja o Covidu-19 prepolovilo je prosječno vrijeme od prijave do objave na otprilike 60 dana. Neki strahuju da bi se zbog toga mogla smanjiti kvaliteta radova.

Znanstvena eksplozija na društvenim mrežama

S druge strane, eksplodiralo je praćenje znanosti na društvenim mrežama: ove godine objavljeni radovi o Covidu-19 spominju se deset puta češće po članku nego sve znanstvene publikacije tijekom prvih pet mjeseci prošle godine! Tako barem pokazuje Altmetric.com, a koji prati i mjeri sve što se objavljuje na Twitteru, Facebooku i drugim društvenim mrežama.

Belgija
  • Njemačka
  • Španjolska
  • Chile
  • Argentina
  • New York
    +5
Koronavirus u svijetu Izvor: EPA / Autor: ARIS OIKONOMOU

Kako bi obuzdali poplavu papira, mnogi se timovi okreću naprednim računalnim alatima. Bijela kuća je od informatičara zatražila da razviju alate za analizu skupa podataka CORD-19 što bi pomogli istraživačima da odgovore na deset visoko prioritetnih pitanja vezanih uz pandemiju. Na Kaggleu, mrežnom čvorištu za znanstvenike o strojnom učenju u vlasništvu Google Clouda, navedeno je više od 1500 takvih projekata.

Među prvim plodovima rada na iskopavanju podataka nalazi se i 'pregled literature usmjeren na UI'. Koristeći algoritme, istraživači su grupirali 783 rada u 17 kategorija i potom stvorili stranicu za svaku temu posebno. Rad je daleko od potpuno automatiziranog i algoritmi ne iščitavaju uvijek najtočnije podatke pa su studenti medicine i drugi volonteri osobno provjeravali ispravnost svakog rukopisa.

Povratak starim izvorima informacija

Veliki je izazov napraviti alate za pretragu što jednostavnijim za upotrebu, a treba ih i približiti korisnicima koji za njih uglavnom nikad nisu čuli niti znaju da postoje. Uostalom, ljude treba naviknuti na promjene.

'Čak i ako imate savršen alat, teško je promijeniti navike', kaže Jevin West, podatkovni znanstvenik sa Sveučilišta Washington. 'Treba vremena da ljudi promijene svoje navike.'

U međuvremenu, mnogi istraživači vraćaju se starim običajima pa se oslanjaju na biltene znanstvenih društava i članke nekoliko vodećih časopisa, a na važnosti opet dobiva stara dobra usmena predaja, uključujući tvitove ljudi od povjerenja.