DATA - Internet ogledalo specijalno izdanje IO 191 DATA SPECIJAL | Page 48
Rafinerija podataka nam omogu-
ćava da na licu mesta izvršimo različite
izmene sirovih podataka, pre njihove
dalje obrade. Neke od osnovnih akcija
koje ovde možemo obaviti su:
● preimenovanje ili promena tipa
kolone (string, integer, itd.) ukoliko au-
tomatski prepoznat tip nije adekvatan
● kreiranje novih kolona kalkulaci-
jom ili reformatiranjem postojećih,
npr. u našem slučaju možemo kreirati
kolonu profit_margin kao količnik uku-
pne zarade na kreditu (total_rec_int) i
visine izdatih sredstava (funded_amnt)
● Join ili Merge podataka iz različitih
izvora (baze, fajlovi itd), po različitim
kriterijumima
Bitno je naglasiti da rafinerija po-
dataka pamti sve naše akcije i od
njih kreira tzv. Refinery flow (sekven-
ca akcija), koja se može scheduleova-
ti da se izvršava periodično (npr. svake
noći) i time kontinuirano vršiti akcije
pripreme podataka iz stalno rastućih
baza. Kada se flow izvrši, podaci se
mogu upisati u polaznu bazu/fajl ili
se može kreirati novi target. U našem
slučaju kreiraćemo novi CSV fajl kao
target, da ne bismo prebrisali origi-
nalne podatke.
Automatska priprema
podataka za modeliranje
Kada smo završili „grubu obradu” u-
laznih podataka, vreme je da se pre-
đe na finalno prečišćavanje i katego-
rizaciju podataka, kako ML model ne
bi bio opterećen irelevantnim poda-
cima. Ovu aktivnost možemo obavi-
ti još jednim drag&drop alatom koji
je deo Watson Studio platforme, pod
imenom Flow Modeler. Ovaj alat, kako
mu i samo ime kaže, omogućava
Internet ogledalo - specijalno izdanje - DATA
povezivanje različitih operacija nad
podacima (predstavljenim različitim
nodovima u paleti) u sekvencijalni flow
koji se izvršava nad zadatim setom po-
dataka. U našem slučaju, pripremni
deo flowa će sadržati sledeće nodove:
● Data source (u kome ćemo oda-
brati naš novi CSV fajl nastao kao re-
zultat Refinery flowa)
● Auto Data Prep, čiji je posao da
odstrani kolone sa podacima nedo-
voljnog kvaliteta (npr. kolone popu-
njene ispod 25%), kolone sa proi-
zvoljnim tekstom ili kolone sa jednom
vrednošću (koje ne doprinose kvalite-
tu modela), kao i da automatski klasifi-
kuje preostale kolone kategorijama za
za drugi model naša nova kolona pro-
fit_margin (projektovana profitabilnost
kredita u procentima)
● Partition node, čiji je zadatak da
celokupan opseg podataka podeli na
podskup za trening i podskup za testi-
ranje modela
Veoma je zgodno što u realnom vre-
menu, prilikom dodavanja ili izmene
parametara bilo kog nodea, imate o-
pciju Preview podataka na izlazu sva-
kog nodea, čime se odmah vidi da li je
izabrani node izazvao željenu transfor-
maciju na podacima. Podatke možete
pregledati u tabelarnoj formi, ali i kroz
bogatu paletu automatski generisanih
vizuelizacija. (Slika 4)
Slika 4
statističku obradu (Ordinal, Nominal,
Continuous …), formatira datume ili
šifrira diskretne vrednosti kolone (npr.
Male ili Female) u integer vrednost (0
ili 1) radi brže statističke obrade pri-
likom treniranja i upotrebe modela
● Type, u kome se definišu inpu-
ti (ulazni parametri) i targeti (izlazni
parametri) modela, u našem slučaju za
prvi model target je kolona loan_status
(da li kredit treba da bude odobren), a
Kreiranje modela
Watson Studio čak i početnicima
u ovom domenu daje mogućnost
da se automatski isproba nekoliko
različitih relevantnih algoritama za
zadati problem i zatim uporedi re-
zultat (kvalitet odgovarajućih mode-
la), čime se lako dolazi do odluke koji
je model optimalan za korišćenje u
datom slučaju.