Veri madenciliğinde örnek seçiminde alt kümeler ve rassallık


Veri madenciliğinde genellikle yüksek miktarda veriyle uğraşırız. Yüzbinlerce satır sıradandır, milyonlarca satırlık veriler olabilir. Ama bu kadar yüksek miktardaki veriyi özellikle modeli henüz geliştirme aşamasındayken kullanmak teknik olarak önemli zorluklar doğurabilir.

Daha kolay çalışabilmek için örnekleme yoluna gidilir. Çünkü yeterince büyük bir örnek, ana kitledeki durumla ilgili istatistiksel olarak anlamlı (mesela yüzde 95’ten fazla) sonuçlar çıkarmaya yetebilir. Seçim anketlerini düşünün: Birkaç bin kişiyle hayli yüksek bir tahmin başarısı sağlanabilmektedir.

Ancak verilerin gerçekten rassal seçilebilmesi çok kritiktir. Mesela bir ürünle ilgili olumlu, olumsuz ve çekimser görüş belirtmiş insanlar olsun. Bunların oranı da sırasıyla yüzde 40, yüzde 50 ve yüzde 10 olsun. Toplam kitle de 100 bin kişi olsun. Buradan 10 bin kişilik bir örnek seçimiyle ilk çalışmalarımıza başlayacağımızı düşünün.

Seçimi sizce nasıl yapmalıyız?

Doğru cevabı yok bu sorunun, çünkü soru yanlış. Öncelikle ne elde etmek istediğimize karar vermeliyiz. İş için önemli olan ne? Belki sadece çekimser olanlarla olumlu cevap verenler arasındaki farkı anlamaya çalışmamız gerekiyor! İş gereksinimlerinde kısıtlarımız olduğunu her zaman aklımızda tutmalıyız. Mesela bütçe ve zaman. Müşteri davranışını detaylı analiz etmek entellektüel bir çaba olarak bize hoş geliyor olabilir, ama bütçe ve zaman kısıtlarımız belki sadece çekimserleri olumluya dönüştürebilecek kadar bir kaynak içeriyor.

Diyelim ki çekimserlerle olumlu cevap verenler arasındaki farkları incelemek istiyoruz. 10 bin kişilik kitlede 4 bin olumlu, bin çekimser var. Bu durumda bin kişiyi nasıl seçmeliyiz? 4 bin olumludan 500 rassal, bin çekimserden 500 rassal.

İki soru gelebilir hemen akla: Rassallığa ne oldu? Olumluyla çekimser arasında hile yapmış olmadık mı?

Rassallığa bir şey olmadı merak etmeyin. Ayrıca hile de yapmadık. Amacımız olumlu ve çekimser oranını bulmak ya da tahmin etmek değildi. Onu zaten biliyoruz. Amacımız olumlu ile çekimser arasındaki farklılık örüntülerini bulmaktı. Bunun için de genel kitleyle büyük ölçüde paralel olacak şekilde doğrudan rassal seçim yapmış olsak çekimser kitleyi epey azaltmış olacağımız için oradaki bazı örüntüleri kaybetme riskimiz artacaktı. Yani oranları dikkate almayarak hile yapmamış olduk ve oluşturduğumuz iki ayrı kümenin kendi içlerinde rassal seçim yaptığımız için rassallığı da bozmadık.

Bu yazı Veri madenciliği içinde yayınlandı. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s