Serimizin devamında Excel üzerinden veri madenciliğinin uygulamalarını göreceğiz. Ancak daha başlamadan yaygın olarak görülen bazı yaklaşım hatalarından bahsetmekte büyük fayda var.
Matematiksel ve istatistiksel yaklaşımları karıştırmak:
Cebir gibi matematiğin kesinlik içeren alanlarında beklentilerimiz kesindir: İki artı iki eşittir dört! İki artı ikinin dört etmediği tek bir durum bile beklemeyiz.
İş hayatında ise belirsizliklere daha alışığız. Beklentilerimizin gerçekleşmeyebileceğini düşünür, ona göre önlemler alırız.
Her nedense, iş hayatında belirsizliklerle uğraşmaya alışık pek çok insan, veri madenciliği gibi bir yapının çıktılarına matematiksel kesinlik beklentisiyle bakabiliyor. Oysa veri madenciliği kesin matematiğe değil, istatistiğe dayanır.
İstatistiği şöyle hatırlayın: Hilesiz bir parayı attığınızda yazı ya da tura gelme olasılığı eşit ve yüzde ellidir. Bir parayı çok kere attığınızda yüzde elliye daha yakın bir dağılım beklemeniz makuldür. 1000 kere attığınızda muhtemelen 500’er kereye yakın yazı ve tura gelecektir. Ancak 1000 tanesinin de yazı gelme olasılığı da çok çok çok küçük olmakla birlikte vardır. Son attığınız beş kerede yazı geldi diye altıncıda tura gelme olasılığı da artmaz üstelik: Hala yüzde ellidir.
Gördüğünüz gibi bir kesinlik yok. Yine de olasılıklarını bilip ona göre hareket eden iş insanları, daha başarılı olmayı bekleyebilirler.
Veri madenciliği istatistiksel bir yapıdır ve pek çok adımında içinde rassallık barındırır.
Birkaç örnek:
Veri modelleme yapıları kurulurken pek çok aracımızda verdiğimiz verinin rassal bir yüzdesi test için ayrılır. Bu da aynı veri setiyle iki ayrı makinede yapacağımız çalışmalar arasında bile farklılık olabileceği anlamına gelir. Aynı veri seti olsa da iki ayrı makinedeki test için ayrılan veriler büyük olasılıkla farklılıklar içerecektir, aynı satırlar seçilmemiş olacaktır. Sadece bu bile ufak oynamalara yol açabilir.
Bazı veri madenciliği algoritmaları işe rassal bir çözümle başlar ve adım adım bunu iyileştirmeye yönelik çalışmalar yapar. İlk çözümün farklı olması sebebiyle ulaştığımız sonuçlarda da bir miktar farklılıklar olacaktır.
Gördüğünüz gibi veri madenciliğine kesinlik beklentisiyle yaklaşmak oldukça sakıncalı. Özellikle bu konuda çıktı verdiğimiz karar alıcılarda böyle bir kesinlik algısı oluşturmamız çok riskli olacaktır. Şirketinizde veri madenciliği çalışmalarının gelişemeden ölmesine sebep olabilir böyle bir hata.
Peki istatistiksel, rassal, kesinlik yok; ne diye uğraşıyoruz? Herşey ‘lift’ yani kaldıraçla ilgili.
Diyelim ki bir aday müşteri kitlemiz var. Rastgele gidersek biliyoruz ki yaklaşık yüzde alıcı çıkacak. Veri madenciliğiyle oluşturacağımız modeller hatalar da yapmakla beraber tüm kitle yerine mesela yarısına giderek aynı yüzde yirmiyi yakalamamızı sağlayabilir. Bu da aynı satışı değişken harcamaların sadece yarısını yaparak yapabilmemizi sağlamış olacaktır. Yerine göre bunun anlamı yüzbinlerce, belki milyonlarca lira olabilir.
Veri madenciliğinin kolayca öğrenilebilecek ve uygulanılabilecek bir yetenek seti olduğunu düşünmek:
Bir bakıma doğru: Excel eklentisiyle veri madenciliğini uygulamak çok kolay. 3 günlük bir eğitimle, analist seviyesinde iyi bir Excel kullanıcısı, veri madenciliğinin temel kavramlarını öğrenip hem table tools / analyze hem de data mining tablarıyla gayet başarılı çalışmaya başlayabilir.
Ama iki bakımdan yanlış: Veri madenciliği araçlarını kullanmaya başlamadan öncesi ve kullanmaya başladıktan sonrası.
Araçları kullanmaya başlamadan önce yapmamız gereken birkaç önemli adım:
– İşle ilgili bir problem belirleyip bunu uygun şekilde veri madenciliği problemi olarak ifade etmek
– Bu problemle ilgili veri kaynaklarını tarayarak etkili olabilecek veri kolonlarını belirlemek, olası başka veri kolonlarının edinilmesi için çalışmaları yapmak, veri madenciliği çalışmaları boyunca bu kolonları gerektiği şekilde çeşitlendirmek, zenginleştirmek, başka bakış açılarıyla yoğurmak
– Veri temizliği ve doğrulama ile ilgili çalışmaları yapmak
Araçları kullandıktan sonrasıyla ilgili önemli birkaç adım:
– Oluşan çıktıları iş için doğru bir şekilde yorumlayabilmek
– Birden fazla veri modeli çalışmasını araçları kullanarak karşılaştırıp hangisinin tercih edilmesi gerektiğini belirleyebilmek
– Sonuçları yorumlayarak yapılması gerekli ek veri madenciliği çalışmalarını belirleyip başlatabilmek
– Modelin sonuçlarını iş hayatında parasal ve/veya değer olarak anlamlı sonuçlara dönüştürebilmek
Hak verirsiniz ki, bunların hiçbiri 3 günlük bir eğitimle tamamen edinilebilecek yetenekler değil. Başlangıç fikirleri eğitimde oluşabilse bile, yıllar içinde sahada uygulama yaparak pişmesi gereken yetenekler.
Veri madenciliğinin matematiksel kesinlikte olmasa da her zaman doğru sonuçlar verdiğini düşünmek:
Evet bu da bir hata! Veri madenciliği araçları onlara verdiğiniz girdiler üzerinden sonuçlar üretirler. Girdilerdeki eksik ya da hatalar sonuçların da eksik ya da hatalı olmasına sebep olacaktır.
Mesela sizin için yaşamsal öneme sahip bir çıktıyla ilgili girdileri eklerken en önemli etkiye sahip birkaç girdiyi eklemezseniz, sistem eklenmemiş girdilerin önemli olduklarını size herhangi bir şekilde ifade edemez.
Mesela hafta içi günler bazında davranış değişikliklerini incelediğiniz bir çalışmada, insanların davranışlarını gösterdikleri gün bilgisi sisteme bazı durumlarda bir, bazı durumlarda iki, hatta üç gün gecikmeli giriyorsa, davranış kalıbı gerçekle alakasız bir şekilde ortaya çıkacaktır.
Nasıl ki bir spora başlarken nasıl düşüleceğini öncelikle öğrenmek gerekiyorsa, veri madenciliğine başlarken de bu olası ve yaygın hata kalıplarının farkında olmak son derece faydalı olacaktır.