Veri madenciliği başlığı altında hangi tür işler yapılabilir?


Veri madenciliği, reklam etkisi de hayli yüksek olan bir kalıp. Ama acaba ne demek? Veri madenciliği yaparken, aslında hangi alt görevleri gerçekleştiriyoruz.

Bunları şu şekilde sıralayabiliriz:

– Classification
– Estimation
– Prediction
– Affinity Grouping
– Clustering
– Description and Profiling

Terimlerin Türkçelerini tabii ki düşünmeliyiz.

Classification sınıflandırma olarak adlandırılabilir. Clustering ise kümeleme.

Sınıflandırma ve kümeleme birbirlerine bir hayli yakın kavramlar. Ama aralarında önemli bir fark var: Sınıflandırma yaparken elimizde referans sınıflar var ve yeni kayıtların bu sınıflardan hangisine uygun olduğunu tahmin etmeye çalışıyoruz. Kümelendirme yaparken ise elimizde belirli sınıflar yok. Verinin içindeki anlamlı kümeleri bulmaya çalışıyoruz.

Örnek düşünelim. Diyelim ki müşterilerimizin şirkete toplam getirisine göre belirli sınıflarımız henüz yok. Bu durumda kümeleme çalışması yaparak anlamlı sınıflandırma nasıl yapılmalı diye belirlemeye çalışabiliriz. Ama eğer altın, gümüş ve bronz müşteriler olarak zaten bir sınıflama yapmışsak, o zaman yeni müşteri adaylarının hangi sınıfa karşılık geldiğini tahmin etmek için sınıflandırma çalışması yapabiliriz.

Birbirine yakın bir başka kavram ikilisi de Estimation ve Prediction. Estimation’a tahmin, prediction’a ise öngörü diyebiliriz. Ama estimation için tahmin yerine çıkarsama da diyebiliriz. Aralarındaki en önemli fark şudur: Estimation şu an var olan veriler içindeki desenleri tahmin etmek içindir. Prediction ise, şu anki veriler ışığında gelecekteki bir durumu tahmin etmek içindir. Bu fark projenin geliştirilmesini de çok derinden etkiler. Estimation (çıkarsama) yaparken, şu anki verilerin içinde şu an geçerli olan desenleri bulmaya çalışırsınız. Oysa prediction (tahmin) yaparken, verilerin mesela 6 ay önceki hallerinin şu an ne sonuç doğurduğuna bakıp, şu anki verilerin 6 ay sonra ne sonuç doğuracağını tahmin etmeye çalışırsınız.

Estimation ve Classification arasında da bir hayli benzerlik var. Burdaki farkı bir örnekle anlatmak daha iyi olacak:
Diyelim ki kredileri risk açısından değerlendiriyorsunuz. Eğer risk sınıfları oluşturup kredileri bunlara eşlemeyi düşünüyorsanız, classification yapıyorsunuz demektir. Bunun yerine tüm krediler için 1-100 arasında bir risk puanı verecekseniz, estimation yapmanız gerekir.

Affinity Grouping Association Rules olarak da adlandırılabilir. Birliktelik kuralları olarak çevirebiliriz. Neler birlikte olur? Hangisi hangisini tetikler? Hangi ürün diğer ürününün satışını tetikler? Hangi suçlar bir arada işlenir? Bu gibi soruların yanıtı aranır bu görev tipinde.

Profiling ise, profil çıkarımı olarak düşünülebilir. 40 yaş üstü ekonomik durumu iyi bayanların oy verirken yoğunlukla belirli bir partiyi tercih etmesi bir profil örneği olarak verilebilir.

Bu yazı Veri madenciliği içinde yayınlandı. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s