DATA - Internet ogledalo specijalno izdanje IO 191 DATA SPECIJAL - Page 48

Rafinerija podataka nam omogu- ćava da na licu mesta izvršimo različite izmene sirovih podataka, pre njihove dalje obrade. Neke od osnovnih akcija koje ovde možemo obaviti su: ● preimenovanje ili promena tipa kolone (string, integer, itd.) ukoliko au- tomatski prepoznat tip nije adekvatan ● kreiranje novih kolona kalkulaci- jom ili reformatiranjem postojećih, npr. u našem slučaju možemo kreirati kolonu profit_margin kao količnik uku- pne zarade na kreditu (total_rec_int) i visine izdatih sredstava (funded_amnt) ● Join ili Merge podataka iz različitih izvora (baze, fajlovi itd), po različitim kriterijumima Bitno je naglasiti da rafinerija po- dataka pamti sve naše akcije i od njih kreira tzv. Refinery flow (sekven- ca akcija), koja se može scheduleova- ti da se izvršava periodično (npr. svake noći) i time kontinuirano vršiti akcije pripreme podataka iz stalno rastućih baza. Kada se flow izvrši, podaci se mogu upisati u polaznu bazu/fajl ili se može kreirati novi target. U našem slučaju kreiraćemo novi CSV fajl kao target, da ne bismo prebrisali origi- nalne podatke. Automatska priprema podataka za modeliranje Kada smo završili „grubu obradu” u- laznih podataka, vreme je da se pre- đe na finalno prečišćavanje i katego- rizaciju podataka, kako ML model ne bi bio opterećen irelevantnim poda- cima. Ovu aktivnost možemo obavi- ti još jednim drag&drop alatom koji je deo Watson Studio platforme, pod imenom Flow Modeler. Ovaj alat, kako mu i samo ime kaže, omogućava Internet ogledalo - specijalno izdanje - DATA povezivanje različitih operacija nad podacima (predstavljenim različitim nodovima u paleti) u sekvencijalni flow koji se izvršava nad zadatim setom po- dataka. U našem slučaju, pripremni deo flowa će sadržati sledeće nodove: ● Data source (u kome ćemo oda- brati naš novi CSV fajl nastao kao re- zultat Refinery flowa) ● Auto Data Prep, čiji je posao da odstrani kolone sa podacima nedo- voljnog kvaliteta (npr. kolone popu- njene ispod 25%), kolone sa proi- zvoljnim tekstom ili kolone sa jednom vrednošću (koje ne doprinose kvalite- tu modela), kao i da automatski klasifi- kuje preostale kolone kategorijama za za drugi model naša nova kolona pro- fit_margin (projektovana profitabilnost kredita u procentima) ● Partition node, čiji je zadatak da celokupan opseg podataka podeli na podskup za trening i podskup za testi- ranje modela Veoma je zgodno što u realnom vre- menu, prilikom dodavanja ili izmene parametara bilo kog nodea, imate o- pciju Preview podataka na izlazu sva- kog nodea, čime se odmah vidi da li je izabrani node izazvao željenu transfor- maciju na podacima. Podatke možete pregledati u tabelarnoj formi, ali i kroz bogatu paletu automatski generisanih vizuelizacija. (Slika 4) Slika 4 statističku obradu (Ordinal, Nominal, Continuous …), formatira datume ili šifrira diskretne vrednosti kolone (npr. Male ili Female) u integer vrednost (0 ili 1) radi brže statističke obrade pri- likom treniranja i upotrebe modela ● Type, u kome se definišu inpu- ti (ulazni parametri) i targeti (izlazni parametri) modela, u našem slučaju za prvi model target je kolona loan_status (da li kredit treba da bude odobren), a Kreiranje modela Watson Studio čak i početnicima u ovom domenu daje mogućnost da se automatski isproba nekoliko različitih relevantnih algoritama za zadati problem i zatim uporedi re- zultat (kvalitet odgovarajućih mode- la), čime se lako dolazi do odluke koji je model optimalan za korišćenje u datom slučaju.