Entertech Dergi - Sayı 1 Entertech Dergi - Sayı 1 | Page 22

detini ve verideki gürültünün derecesini ifade etmektedir. Boş Veri: Bir veri tabanındaki boş değer, birincil anahtarda yer almayan herhangi bir ni- teliğin değerinin olma olasılı- ğını ifade etmektedir. Boş de- ğer, tanımı gereği kendisi de dahil olmak üzere hiçbir de- ğere denk olamayan değerleri içermektedir. Dinamik Veri: Kurumsal çev- rimiçi veri tabanları dinamik- tir ve içeriği sürekli olarak değişim göstermektedir. Bu durum bilginin keşfedilme sü- recinde büyük sakıncaları da ifade etmektedir. Eksik Veri: Veri kümesinin hacminden ya da doğasın- dan kaynaklanan bir durumu ifade etmektedir. Eksik veriler ile karşılaşıldığında yapılması gerekenler şunlardır: • Eksik veri içeren kayıt veya kayıtlar çıkarılabilir. • Değişkenin ortalaması eksik verilerin yerine kul- lanılabilir. • Var olan verilere daya- lı olarak en uygun değer kullanılabilir. 20 Eksik veriler, yapılacak olan is- tatistiksel analizlerde önemli problemlerin doğmasına se- bep olmaktadır. İstatistiksel analizler ve bu analizlerin ya- pılmasına olanak veren ilgili paket programlar, verilerin tü- münün var olduğu durumlar için geliştirilmiştir. Farklı Tipteki Verileri Ele Alma: Gerçek hayattaki uygu- lamalar makine öğreniminde olduğu gibi yalnızca sembo- lik veya kategorik veri türle- ri değil, fakat aynı zamanda tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafi bilgi içe- ren veri gibi farklı tipteki veri- ler üzerinde işlem yapılmasını gerektirmektedir. Gürültülü ve Kayıp Değerler: Veri girişi veya veri toplanma- sı esnasında oluşan sistem dışı hatalar gürültü olarak adlandırılmaktadır. Büyük ha- cimli veri tabanlarındaki pek çok nitelik değer açısından yanlış olabilmektedir. Verilerin toplanması esnasında oluşan hatalara ölçümden kaynakla- nan hatalar da dahil edilmek- tedir. Bu hataların neticesinde niteliğin değerinin yanlış olma ihtimali söz konusudur ve bu yanlışlardan dolayı veri ma- denciliği uygulamaları amacı- na kesin olarak ulaşamamak- tadır. Sınırlı Bilgi: Veri tabanları, ge- nellikle basit öğrenme işlerini sağlayan özellik ya da nite- likleri sunmak gibi veri ma- denciliği dışındaki amaçları için hazırlanmaktadır. Bundan dolayı öğrenme yetisini ko- laylaştıracak bazı özelliklerin bulunmama olasılığı da söz konusudur. Veri Tabanı Boyutu: Veri ta- banı boyutları gün geçtikçe büyük bir hızla artmaktadır. Veri tabanı algoritması çok sayıda küçük örneklemi ele alabilecek biçimde gelişti- rilmiştir. Aynı algoritmaların katsayı olarak çok büyük ör- neklemlerde kullanılabilmesi için dikkat edilmesi gerek- mektedir. Her dakikada Facebook kullanıcıları yaklaşık 31.25 milyon mesaj gönderiyor ve 2.77 milyon video izliyor.