Veri madenciliğinde model kümesi gerçeği ne kadar iyi temsil ediyor olmalı?


Öncelikle gerçeği iyi temsil etmek ne demek? Buna kafa yormak gerekir.

Diyelim ki, kredi ödemesini geri hiç yapmayacak, geciktirerek yapacak, bir de hiç bir sorun olmadan yapacak kişileri ayrıştırmak istiyorsunuz. Geçmiş deneyimlerinizden yüzde 2 geri ödemeyi hiç yapmayacak, yüzde 5 sorunlu yapacak, yüzde 93 de sorunsuz yapacak insan olacağını biliyorsunuz. Model kümenizde her üç durumla sonuçlanmış kayıt örnekleri bulunmalı. Bu kesin. Her üçünden de yeteri kadar örnek bulunmalı bu da kesin.

Peki bunların oranları gerçekte olduğu gibi mi olmalı? Hayır.

Her üç duruma ilişkin yeterince kayıt olması yeterli. Hatta sorunsuz geri ödeyenlerin oranı üçte bir gibi falan olmalı, yüzde 93 değil.

Biraz kafa karıştırıcı gibi geliyor belki, ama amacınız insanların yüzde kaçının geri ödeme sorunu çıkaracaklarını bulmak değil! Amacınız, kişilerin hangi özelliklerinin kredi geri ödemesinde belirleyici olduğunu bulmak.

Bu yazı Veri madenciliği içinde yayınlandı. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s