DATA - Internet ogledalo specijalno izdanje IO 191 DATA SPECIJAL - Page 47
Upload podataka u Watson
Studio i preliminarna analiza
Watson Studio zna da radi sa naj-
različitijim vrstama izvora podataka,
od relacionih on premise ili cloud baza
(open source i svih relevantnih vendor-
skih), noSQL baza, BigData (hadoop)
instanci, cloud storage instanci, cloud
repozitorijuma (tipa Dropbox i sl.), pa
je lako kreirati konekciju direktno sa
vaše baze podataka. U našem slučaju
možemo jednostavnim drag&dropom
uploadovati naš CSV fajl, čime se od
njega automatski kreira tzv. Data Asset.
Treba napomenuti da Watson Studio
nudi mogućnost korišćenja posebnog
IBM Aspera upload protokola putem
jednostavne instalacije browser plugi-
na. Uz ovaj dodatak upload podataka
će biti ubrzan nekoliko puta, što je jako
bitno za velike data fajlove. (Slika 2)
Klikom na novi Data Asset otvara se
preview podataka, u kome nam je dat
pristup ka dve veoma moćne opcije:
Data Profile i Data Refine.
Profajler podataka nam odmah uka-
zuje na atribute (kolone) u našem CSV
fajlu u kojima kvalitet podataka nije
zadovoljavajući (npr. pretežno prazne
kolone ili kolone u kojima je svuda
jedna te ista vrednost), koje statistički
ne doprinose kvalitetu modela, a sa
druge strane usporavaju i komplikuju
kreiranje kvalitetnog modela. Takođe,
možemo na lak način videti koji se
skupovi diskretnih vrednosti mogu
naći u pojedinim kolonama, npr. nama
posebno zanimljiva kolona loan_status
može sadržati samo vrednost „Fully
Paid” ili „Charged Off”. Treba napome-
nuti da u ovoj fazi profajler može da
otkrije i taguje karakteristične tipove
podataka (npr. brojeve kreditnih kar-
Slika 1
Slika 2
Slika 3
tica), što vam omogućava da Data
Governance polisom ograničite pri-
stup takvim podacima, ili da ih u real-
nom vremenu platforma zameni „bez-
bednim” vrednostima (npr. xxxx xxxx
xxxx xxxx). (Slika 3)
Internet ogledalo - specijalno izdanje - DATA