Entertech Dergi - Sayı 1 Entertech Dergi - Sayı 1 | Page 22
detini ve verideki gürültünün
derecesini ifade etmektedir.
Boş Veri: Bir veri tabanındaki
boş değer, birincil anahtarda
yer almayan herhangi bir ni-
teliğin değerinin olma olasılı-
ğını ifade etmektedir. Boş de-
ğer, tanımı gereği kendisi de
dahil olmak üzere hiçbir de-
ğere denk olamayan değerleri
içermektedir.
Dinamik Veri: Kurumsal çev-
rimiçi veri tabanları dinamik-
tir ve içeriği sürekli olarak
değişim göstermektedir. Bu
durum bilginin keşfedilme sü-
recinde büyük sakıncaları da
ifade etmektedir.
Eksik Veri: Veri kümesinin
hacminden ya da doğasın-
dan kaynaklanan bir durumu
ifade etmektedir. Eksik veriler
ile karşılaşıldığında yapılması
gerekenler şunlardır:
• Eksik veri içeren kayıt
veya kayıtlar çıkarılabilir.
• Değişkenin
ortalaması
eksik verilerin yerine kul-
lanılabilir.
• Var olan verilere daya-
lı olarak en uygun değer
kullanılabilir.
20
Eksik veriler, yapılacak olan is-
tatistiksel analizlerde önemli
problemlerin doğmasına se-
bep olmaktadır. İstatistiksel
analizler ve bu analizlerin ya-
pılmasına olanak veren ilgili
paket programlar, verilerin tü-
münün var olduğu durumlar
için geliştirilmiştir.
Farklı Tipteki Verileri Ele
Alma: Gerçek hayattaki uygu-
lamalar makine öğreniminde
olduğu gibi yalnızca sembo-
lik veya kategorik veri türle-
ri değil, fakat aynı zamanda
tamsayı, kesirli sayılar, çoklu
ortam verisi, coğrafi bilgi içe-
ren veri gibi farklı tipteki veri-
ler üzerinde işlem yapılmasını
gerektirmektedir.
Gürültülü ve Kayıp Değerler:
Veri girişi veya veri toplanma-
sı esnasında oluşan sistem
dışı hatalar gürültü olarak
adlandırılmaktadır. Büyük ha-
cimli veri tabanlarındaki pek
çok nitelik değer açısından
yanlış olabilmektedir. Verilerin
toplanması esnasında oluşan
hatalara ölçümden kaynakla-
nan hatalar da dahil edilmek-
tedir. Bu hataların neticesinde
niteliğin değerinin yanlış olma
ihtimali söz konusudur ve bu
yanlışlardan dolayı veri ma-
denciliği uygulamaları amacı-
na kesin olarak ulaşamamak-
tadır.
Sınırlı Bilgi: Veri tabanları, ge-
nellikle basit öğrenme işlerini
sağlayan özellik ya da nite-
likleri sunmak gibi veri ma-
denciliği dışındaki amaçları
için hazırlanmaktadır. Bundan
dolayı öğrenme yetisini ko-
laylaştıracak bazı özelliklerin
bulunmama olasılığı da söz
konusudur.
Veri Tabanı Boyutu: Veri ta-
banı boyutları gün geçtikçe
büyük bir hızla artmaktadır.
Veri tabanı algoritması çok
sayıda küçük örneklemi ele
alabilecek biçimde gelişti-
rilmiştir. Aynı algoritmaların
katsayı olarak çok büyük ör-
neklemlerde kullanılabilmesi
için dikkat edilmesi gerek-
mektedir.
Her dakikada
Facebook kullanıcıları
yaklaşık 31.25 milyon
mesaj gönderiyor ve
2.77 milyon video
izliyor.