Veri madenciliği kavramları


Özel bir uzmanlık alanıyla ilgili aşılması gereken ilk bariyer, kavramlardır.

Jargonunu bilmediğiniz bir alan, sizin için keşfedilmemiş vahşi bir orman gibidir.

Veri madenciliği konusunda bu yabancılığı aşmanıza yardımcı olmak için bazı kavramları ve bunların anlamlarını aktarıyorum:

– Algoritma:
Verideki ilişki ya da örgüleri belirlemekte kullanılan programatik tekniklerdir.

– Model:
Algoritma tarafından belirlenen ilişkilerin tanımıdır. Bu tanım genelde kurallar kümesi, karar ağacı, denklemler ya da ilişkiler ağı şeklinde ifade edilir.

– Vaka:
Tekil bir nesneyle ilişkilendirilen özellikler ve ilişkiler koleksiyonudur. Gözlem olarak da adlandırılır.

– Vaka kümesi:
Aynı özellikleri paylaşan vakalar grubudur. Bunu bir tablo gibi düşünebilirsiniz, tablonun her satırında bir vaka yer alır. Tek tablo yerine birbiriyle ilişkili iki ayrı tablo kullanılması da sözkonusu olabilir. Bu durumda ana tablodaki her satır için yavru tabloda birden fazla satır bağlantılı olarak eklenebilir. Gözlem kümesi olarak da adlandırılır.

– Bağımlı değişken (ya da tahmin edilen özellik):
Algoritmanın tahmin etmek ya da gruplamak için model inşa edeceği değişken.

– Bağımsız değişken (ya da tahmin eden özellik):
Modeli inşa ederken kullanılan ve tarif edici bilgilere sahip olan değişkenlere denir. Bağımsız değişkenlerin içlerindeki çeşitli kombinasyonlar ele alınarak algoritma tarafından gruplamalar ve tahminler oluşturulur.

– Kesikli ya da sürekli değişkenler:
Kesikli ya da sürekli değerlere sahip olan sayısal kolonlar. Mesela maaşlarla ilgili gerçek değerleri içeren bir kolon süreklidir. Ama maaş aralıkları belirler ve gerçek değerleri bu aralıklara karşılık gelen 0, 1, 2… gibi bir sayı dizisiyle ifade ederseniz, kesikli bir kolon elde etmiş olursunuz. Daha yeni araçlarda, kesikli kolonlar için sayısal değerler yerine tarif edici karakter ifadelerine de izin verilmektedir. Kolon tipinin kesikli ya da sürekli olması, kullanılan veri madenciliği algoritmaları için önemli olabilmektedir.

– Regresyon:
Bir veri kümesini temel alarak en iyi uyan formülü oluşturan bir istatistik tekniği. Bulunan formül, yeni girdiler için tahmin üretmek üzere kullanılabilir. Lineer regresyonda formül bir doğruyu ifade eden bir denklemdir.

– Sapma:
Regresyon formülünün, oluşturulmasında kullanıldığı veri kümesine ne kadar iyi uyduğunun bir ölçütüdür.

– Madencilik çatısı: (Mining Structure) (Not: Bunun Türkçesi kulağıma hiç hoş gelmedi, ama en azından madencilik yapısından daha iyi.)
Microsoft tarafından kullanılan bir tanımdır. Analysis Services’daki bir vaka kümesini temsil eder. Aslında alttaki veri yapısı üzerinde yer alan bir metadata katmanıdır. Verilerin temel özellikleri yanısıra veri madenciliği açısından çeşitli özelliklerini de barındırır. Bu yapı üzerine modeller kurulur.

– Madencilik modeli:
Belirli bir algoritmanın belirli bir madencilik çatısı üzerine uygulanmış halidir. Aynı çatı üzerine farklı algoritmalar ya da farklı parametrelerle birden fazla model oluşturabilirsiniz.

Bu yazı Veri madenciliği içinde yayınlandı ve olarak etiketlendi. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s