SQL Server Integration Services’ta Data Profiling


Veri ambarı projelerinde proje vaktinin ve harcanan emeğin yüzde 70-80’ini veri ambarının tasarlanması, tarihi aktarımın yapılması ve periyodik aktarmaların tasarlanıp otomasyona bağlanması oluşturur.

Bu sürecin bu kadar uzun sürmesindeki en önemli sebeplerden birisi de veri kalitesidir. Çoğu durumda verilerde beklenmedik değerlerle karşılaşılır, başka problemler de olur, ve otomasyonu oluşturana kadar ha bire karşınıza çıkan bu veri problemleriyle uğraşırsınız.

Veri profili çıkarmak, bu tür sorunları daha derli toplu bir şekilde bulup çözebilmeyi sağlar. Microsoft, SQL Server 2008’de Integration Services’a bu yeteneği kazandırmış.

İki temel araç kullanıyoruz: Bir paketin içinde Data Profiling görevini kullanarak çıkarmak istediğimiz profili oluşturuyoruz. Oluşanlar aslında xml dosyaları. Bu xml dosyalarını da dataprofileviewer adlı araçla inceliyoruz.

Çıkarabileceğiniz profillemelere bazı örnekler:

– Null değerlerin oranı
– Kolondaki verilerin dağılımı
– Sayısal kolonlar için kolon istatistikleri
– Metin kolonları için regular expression karşılaştırmaları
– Kolonlar arasındaki ilişkilerin doğrulanması
– Aday anahtar kolonlar
– Kolonlar arasında işlevsel bağımlılıklar (ilçe ve posta kodu bağımlılığı gibi)
– Bir kolondaki değer kümesinin bir başka kolondaki değer kümesinin alt kümesi olup olmadığının incelenmesi

Bu yazı SQL Server 2008, SSIS, Veri ambarı içinde yayınlandı ve olarak etiketlendi. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s