Entertech Dergi - Sayı 1 Entertech Dergi - Sayı 1 | Page 21
Veri madenciliğini
etkileyen faktörler
bulunuyor
Haldun Akpınar’a göre veri
madenciliği temel olarak beş
ana faktörden etkilenmekte-
dir. Bunlardan ilki veridir. Veri,
veri madenciliği alanının iler-
lenmesinde en önemli faktör
olarak karşımıza çıkmaktadır.
İkinci sırada donanım kavramı
yer almaktadır. Gelişen bellek
ve işlem hızı kapasitesi saye-
sinde, birkaç yıl önce maden-
cilik yapılamayan veriler üze-
rinde çalışmayı mümkün hale
getiren donanım kavramıdır.
Üçüncü sırada bilgisayar ağ-
ları yer almaktadır. Bilgisa-
yar ağları; yeni nesil internet,
çok yüksek hızları kullanmayı
sağlamıştır. Bu doğrultuda bir
bilgisayar ağı oluşturulduktan
sonra, dağınık verileri analiz
etmek ve farklı algoritmaların
kullanımı da mümkün bir hale
gelecektir. Dördüncü sırada
ise bilimsel hesaplamalar bu-
lunmaktadır. Günümüz bilim
insanları ve mühendisleri; si-
mülasyonu, bilimin üçüncü
yolu olarak görmektedirler.
Veri madenciliği kavramı ve
bilgi keşfi, teori, deney ve si-
mülasyonu birbiri ile bağlantılı
bir hale getirmekte önemli rol
oynamaktadır. Beşinci ve son
olarak ticari eğilimler ön pla-
na çıkmaktadır. Günümüzde
kurum, kuruluş ve işletmeler
rekabet ortamında varlıklarını
koruyabilmek için daha hızlı
hareket etmek zorundadır ve
rekabet stratejilerinde farklılık-
lara gitmelidir. Bundan dolayı
daha yüksek kalitede hizmet
sunmalıdır. Bütün bunları ya-
parken de minimum maliyeti
ve en az insan gücünü göz
önünde bulundurmalıdırlar.
Ortaya çıkan sorunlara
dikkat edilmesi gerek
Büyük hacimli veri depolarının
bulunduğu veri ortamlarında
büyük sorunların ortaya çık-
ma riski oldukça yüksektir.
Dolayısıyla küçük veri kümele-
rinde, benzetim ortamlarında
hazırlanmış veri madenciliği
sistemlerinin, büyük hacimli,
eksik, gürültülü, boş, atık, ay-
kırı veya belirsiz veri kümele-
rinin bulunduğu ortamlarda
yanlış çalışabilme olasılığı da
bulunmaktadır. Bu nedenle
veri madenciliği uygulamaları
sistemleri geliştirilirken, bu tür
sorunların da çözümlenmesi
gerekmektedir. Veri madenci-
liği uygulamalarında karşıla-
şılabilecek sorunlar şunlardır:
Veribilimciler, veri hacminin her iki yılda ikiye
katlandığını ve böylece 2020’ye kadar 40 ZB
noktasına ulaşacağını düşünüyorlar.
Artık Veri: Bu kavram, prob-
lemde istenilen sonucu elde
etmek için kullanılan örnek-
lem kümesindeki gereksiz
nitelikleri kapsamaktadır. Bu
durumun gerçekleşme olası-
lığı oldukça yüksektir ve pek
çok işlem sırasında karşılaşıl-
maktadır.
Belirsizlik: Yanlışlıkların şid-
19