One Nice Data Science Story

Track

Keynote speech

Datum i vrijeme

četvrtak, 11. svibanj 2017., 09:10

Dvorana

Dvorana A

Trajanje

45'

Na prvome europskom Big Data Hackathonu, čije su pokretanje inicirali Eurostat i Europska komisija, hrvatski tim, koji je putem javnog poziva odabrao Državni zavod za statistiku, osvojio je prvo mjesto. Ovo je priča o pobjedničkom rješenju koje korištenjem rezultata statističkih istraživanja te javno dostupnih podataka pruža uvid u obilježja tržišta rada, odnosno prikazuje regionalni raskorak u trenutačnim vještinama osoba u potrazi za zaposlenjem i potrebama pojedinih radnih mjesta širom EU-a.

Tim Visokog Učilišta Algebra i tvrtke IN2data u sradnji sa Državnim zavodom za statistiku pobijedio je na prvom EU Big Data Hackathonu organiziranom od strane Europske Komisije i EUROSTAT-a. Tim se natjecao na temu osmišljavanja načina i vizualizacije velikih setova podataka u svrhu upravljanja regulativom na tržištu rada. U okviru natjecanja pobjednički tim je osmislio potpuno fukcionalnu web aplikaciju uključivo 12 radnih pregleda (dashboard) povezanu sa big data sustavom za pohranu podataka. Izrada aplikacije uključivala je pripremu tenološke platforme, pripremu podataka, optimizaciju podataka, osmišljavanje i izvođenje transformacija/povezivanja podataka te primjenu analitičkih metoda nad podacima, naprednu vizualizaciju podataka uključivo korištenjem interaktivnih mapa EU. Prototip je baziran na podacima EUROSTAT-ovih registara i baza, pojedinačno oko 5.0 mil životopisa iz EURES baze, oko 22.0 mil oglasa za posao iz EURES baze, oko 1.0 mil zapisa iz SILC ankete, 0.2 mil zapisa PIAAC ankete, oko 1.4 mil zapisa iz LFS ankete te 25.0 mil zapisa pripremljenih od stane CEDEFOP-a koji su za potrebe projekta modelirani od strane tima u 20ak tablica od čega najveća ima 1.0 mlrd zapisa (prstorno veličine oko 250Gb).
Opseg rješenja strukturian je u grupe: #1 Ponuda vještina (s mogućnošću interaktivnog pregleda po razinama EU regija); #2 Potražnja za vještinama (s mogućnošću interaktivnog pregleda po razinama EU regija); #3 Nesrazmjer („skill gap“) u ponudi i potražnji vještina; #4 Upravljanje politikama tržišta rada (kao rezultat svih predstavljenih analiza).
Tehnološki stack baziran je na Google Cloud Platformi. Izvorni podaci najprije su spremljeni na Google Cloud Storage koji je korišten kao „data lake“. Nakon pretprocesiranja, podatkovni setovi spremljeni su u Google BigQuery, analitičku bazu koja omogućava procesiranje milijardi zapisa uz izuzetne performance. Za pripremu podataka, porocesiranje i modeliranje korištena je Google Compute Engine instanca sa 64 CPU i 240 GB RAM sa instaliranim: Debian OS, Anaconda distribution of Python 3.6, Jupyter with python, R i Octave kerneli, JupyterHub za višekorisničku kolaboraciju, razni python paketi (numpy, pandas...), R jezik i R Studio Server za višekorisničku kolaboraciju. Za procesiranje velikih setova podataka korišten je Google Dataflow, najnovija generacija distribuiranog sustava (Apache Beam). Kao front end, korišten je alat Tableau odnosno tehnologije Tableau javascript API, D3.js, Google Search trends itd. Sva dokumentacija spremljena je kroz sustav za održavanje i distribuciju verzija Git (Google Source Repositories). Sva popratna dokumentacija spremljena je korištenjem Google Docs.
U sklopu natjecanja, javno je publiciran prototip sa svim razvijenim funkcionalnostima i na live podacima koji će biti uživo pokazan i biti dostupan na web poveznici: http://eubdhack.in2data.eu. Obzirom na regulatorna ograničenja i zaštitu privatnosti podataka, molim Vas da lozinke ne distribuirate izvan kruga poznanika (username: [email protected]; password: <upitati autore mailom>)