DATA - Internet ogledalo specijalno izdanje IO 191 DATA SPECIJAL - Page 49
Kreiranje modela je jednako lako
- u flow se dodaju ili Auto Classifier
(za probleme u kojima se kao od-
govor očekuje diskretna vrednost,
npr. naše pitanje da li će kredit biti
vraćen ili ne, tj. za target kolonu
loan_status), ili Auto Numeric node,
za probleme u kojima se kao odgo-
vor modela očekuje konkretan broj
iz nekog opsega (u našem slučaju
odgovor na pitanje koliko ćemo
zaraditi od ovog konkretnog kredi-
ta, target kolona je profit_margin).
Nakon dodavanja jednog od ova dva
noda, pazeći da se u njima pravilno
definišu target veličine (navedene
iznad) i input veličine (podskup ili
čitav skup podataka koji ćemo ima-
ti na raspolaganju u online formula-
ru za kredit i u korisničkom profilu),
Watson Studio će automatski kreirati
nekoliko instanci modela (obeležene
novonastalim narandžastim nodom
u flowu) i dati vam opciju da ih ana-
lizirate i uporedite.
Studio će vam predstaviti sve mo-
dele koje je uspeo da kreira (nisu
svi algoritmi primenljivi na sve pro-
bleme i setove ulaznih podataka),
uz osnovne informacije o njihovom
kvalitetu (npr. Classification Accuracy,
odnosno Model Accuracy), kao i de-
taljne prikaze tačnosti samih mode-
la i rezultata testiranja. U modelima
(zavisno od tipa) ćete tipično naći
i informacije o težinskoj vrednosti
(važnosti) određenih parametara u
modelu, kao i statističke opise mode-
la (npr. grafove raspodela oko krive,
ili tabelarni prikaz kvadratne devija-
cije i sl).
I konačno - blago!
Kada smo došli do ove tačke, red
je da pogledamo i ono što smo sve
vreme očekivali - na koji je to način
online loan provider zaključivao da li
nekome da odobri zahtev za kredit, i
koji su to parametri koji na to najviše
Slika 5
Kvalitet modela
Klikom na View Model opciju, Watson
utiču, a koji parametri utiču na pro-
fitabilnost kredita za banku.
Korišćenjem opcije View Model
i klikom na izabrani tip modela/al-
goritma dobijamo pristup ka još ne-
koliko veoma važnih opcija:
● Top Decision Rules, u ko-
joj nam Watson Studio, na ekspli-
citan, algoritamski način prikazu-
je pojedinačna pravila odlučivanja
o odobravanju kredita, sa procen-
tom pouzdanosti. Na primer, ana-
lizom podataka utvrđeno je da po-
stoji pravilo:
total_acc > 2.0 and int_rate <=
0.1115 daje rezultat “Fully Paid” u
89.5% slučajeva
Dakle, aplikanti koji imaju dva i više
bankovnih računa će sa verovatnoćom
89,5% uspešno otplatiti kredit sa ka-
matnom stopom manjom od 11,5%.
● Tree Diagram, koji predstavlja
grafičko stablo odlučivanja, sa težin-
skim faktorom predstavljenim deblji-
nom grane. Praćenjem debljih gra-
na od „korena” ka „listovima” stabla
moguće je kompletno rekonstruisati
set ulaznih parametara i njihovih opti-
malnih vrednosti da bi se stiglo do
željenog rezultata (u našem slučaju,
na primer, najveći profit po kredi-
tu se dobija za slučajeve kredita od
36 meseci sa kamatnom stopom
između 10 i 11.5%… ). (Slika 5)
Upravo ovde dolazimo do „tajnog
koda” sakrivenog u ovim podacima:
gledajući ove dve opcije, mogli biste
lako sesti i u bilo kom program-
skom jeziku implementirati kom-
pletno znanje/algoritam koji naš
online loan provider koristi prilikom
odlučivanja o kreditu. Zamislite sada
da ne govorimo o našem online loan
provajderu, već da ste recimo po-
datke sakupili u sopstvenoj firmi - na
ovaj način iz podataka možete da „is-
cedite” kompletnu ekspertizu koju su
Internet ogledalo - specijalno izdanje - DATA