İş zekasına zekice yaklaşın


Parlayan yeni yıldız ya da gelecek on yıl için olası bir kariyer

İş zekasıyla aslında epeydir ilgileniyordum, ama kıvılcım anı oldu tabii. Tek sorun, o anı hatırlamıyorum. Bildiğim şu: SQL Server 2005’in getirdiği imkanları ve çıkışı görmemle birlikte, iş zekasının parlayan bir yıldız olduğunu ve benim için de hayli uygun olduğunu keşfettim.
Parıldayan ip uçlarından biri, Gartner’in geleneksel araştırmasında, IT yöneticilerinin en çok bütçe ayıracakları konu olarak yıllardır gösterdikleri bilgi güvenliği yerine iş zekasına işaret etmeleriydi.

Ama çok kişinin bir konuya ilgi gösterecek olması ya da gösteriyor olması benim için asla tek başına çok ilgi çekici olmaz. Beni asıl çeken, sanırım, iş zekasında uzmanlığın birbirinden farklı ve insanlarda pek bir arada bulunmayan özellikler gerektirmesiydi. Bu özelliklerin bende olduğuna, en azından rahat geliştirilebilir olduğuna inanıyordum ve bu, bana büyük bir rekabet avantajı sağlıyordu.

Arz talep dengesinin önemine inanırım. İş zekasının çok hızlı parlayacağına emindim. Yani talep hızlı büyüyecekti. Bu konuda üst seviye bilgi ve deneyim birikimine sahip insanların ise aynı hızda artmayacağını düşünüyordum. Hala öyle düşünüyorum. Çünkü iş zekası çok boyutlu yetenekler ve birikimler gerektiriyor.

Mavi Okyanus stratejisini duydunuz mu? Rekabetle karşılaşmayacağınız bir alan oluşturursunuz kendinize. Ben bu kitabı duymadan çok önce, başkalarına zor gelen ama bana keyifli gelen alanları bulup oralarda gelişme stratejimi oluşturmuştum.

Mesela yeni şeyler öğrenmeyi ve onları anlatarak/yazarak paylaşmayı çok severim. Şimdiki danışmanlık/eğitmenlik kariyerimde öğrenmek ve anlatmaktan duyduğum keyif yaşamsal bir avantaj sağlıyor. İş zekasında başarılı olacak bir kişinin, hem teknik insanların, hem üst yönetimin, hem analistlerin, hem de tasarımcıların dilinden anlaması gerekiyordu. Bu ve bunun gibi farklı tipteki insanların hepsiyle iletişim kurabilecek donanımda insan az vardır. Böylelikle bu yeteneklere sahip ya da bunları geliştirebilir durumda olan kişiler büyük bir rekabet avantajı yakalar.

Yazıyı okuyun, gelecek on yıl için bir çizgi çizmenize ya da çizmiş olduğunuz çizgide değişikliklere gitmenize sebep olabilir.

Veri çok da anlam yok

Veri toplamak, bunları sınıflandırmak ve anlamlandırmak, insanlık tarihi kadar eski bir olgu. Avcılıkla geçinilip mağaralarda yaşanılan dönemlerde, insanlar duvarlara avlarla ilgili resimler yapıyorlardı. Burada bile deneyimlerden elde edilen verilerin depolanması duygusunu hissedersiniz.

Daha eski çağlarda veriyi işlemek, saklamak ve veriye hızlı erişmek için neler yapıldığıyla ilgili çok bilgim yok. Avrupa medeniyetinde ise bu konuların Fransız Devrimi civarlarında ansiklopedi kavramının gelişmesine kadar geriye gittiğini düşünüyorum.

Günümüz ilişkisel veritabanının pek çok kavramı ansiklopedi yaklaşımında kendisini göstermiş şeylerdir.

İlişkisel veritabanı yapılarının oluşumunda en önemli öncülüğü ise Edgar F. Codd yapmıştır.
Meşhur veritabanlarının hemen tamamı OLTP yapılar için tasarlanmıştır. OnLine Transaction Processing. Çevrim içi işlem işleme diye çevrilebilir, ama bu çeviri kulağa korkunç geliyor tabii… OLTP sistemlerin temel özelliği, hem okuma hem de yazma işlemleri için optimize edilmiş olmalarıdır. Veritabanı tasarımından indekslerin kullanımına kadar, her iki tip sorguya iyi cevap verebilme kaygısı öndedir.

Oysa verilerin yığınlar halinde birikmesi, işlemlerin tekil anlamlarından öte, bu işlemlerden yönelimler, gruplamalar, sonuçlar çıkarabilmeyi ve bunlarla ekonomik değeri yüksek atılımlar yapabilmeyi olanaklı kılmıştır.

Yine Codd’un 1990’lı yılların ilk yarısında bu yoğun analiz gereksinimlerini ve imkanlarını fark etmesiyle ve yine Codd’un ismini bile vererek ilkelerini belirlediği yaklaşımla OLAP ortaya çıkmıştır: OnLine Analytical Processing.

OLAP sistemleri yoğun veriden anlam çıkarmak üzere tasarlanan sistemlerdir. Verinin tutulduğu yapıdan indeksleme yapılarına kadar her yönden analiz için tasarlanırlar. OLTP’de normalizasyon esasken, OLAP’ta denormalizasyon esastır.

Günümüzde pek çok sistemde, veri yokluğu değil veri çokluğu sorundur. Çok veriniz varsa, tutarlı bir analiz yapabilmeniz artık zorunludur. Veri ne kadar çoksa, analizin başarılı olma şansı o kadar yüksektir. Ama uygun araçlarınız ve deneyiminiz yoksa, veri çokluğu sizi boğabilir.

Gerçek bir iş zekası sistemi kurabilmiş bir ülkede, büyük ölçekte yolsuzluk yapılması ve bunun saklı kalması hemen hemen imkansızdır.

Depremle ilgili yeterince veri birikmiş olsaydı, iş zekası uygulamalarının günümüzde ulaştığı olgunlukla, gelecek depremler ve deprem gelişimleri hayli tutarlı olarak tahmin edilebilirdi.
İş zekası, yapay zekanın yaşayan bir örneğidir.

Şu an içinde bulunduğumuz dönemi anıştıran çok güzel bir anekdot var.

Hani adam sormuş:
– Un var mı?
– Var.
– Şeker var mı?
– Var.
– Yağ var mı?
– Var.
– E, helva yapsana…

Bakalım, iş zekasının unu, yağı, şekeri neymiş ve bunlar olduğu halde helva yapmak neden o kadar da kolay değilmiş…

İş zekasını son dönemlerde parlatan gerçekler

Son dönemlerde iş zekasının hızlı yükselişini destekleyen bir sarmal oluşmaya başladı. Birazdan sayacağımız etkenlerin gelişimiyle iş zekası projelerinin uygulanabilirliği arttıkça yeni yeni projelerle sağlayacağı faydaların çarpıcı örnekleri oluşuyor. Bu örnekler görüldükçe yapılabilecekler hakkında farkındalık artıyor. Farkındalık, konu üzerinde çalışmaların daha da derinleşmesine tetikliyor. Çalışmaların derinleşmesi ile de iş zekası projelerinin uygulanabilirliğini artıran etkenlerin hızı artıyor. Ve sarmal yeniden başlıyor. Peki nedir bu uygulanabilirliği artıran etkenler:

Donanımın ucuzlaması

Donanım ucuzluyor. Bu haber yeni değil. Hatta hayli bayat. Her bilgisayar aldığınızda, o bilgisayar altı ay sonra alsanız ödeyeceğiniz fiyata göre daha yüksek bir fiyat ödüyorsunu.
Ama bu ucuzlamanın boyutları konusunda size bir örnek vereyim, bu ölçekte bir ucuzlama olduğunu şahsen ben duyana kadar düşünmemiştim. Gartner’ın 2006 yılında Türkiye’de yaptığı bir etkinlikteki sunumlardan birinde anlatılmıştı:

1991 yılında dünyanın en gelişmiş süper bilgisayarının ücreti 40 milyon dolar. 7 yıl sonra, 1998’te aynı işlem gücüne sahip bir bilgisayarın maliyeti 1 milyon dolar. Bir 7 yıl daha sonra, 2005’te aynı işlem gücünü 4 düğümlü bir cluster’la 4 bin doların altına elde etmek mümkün.

Ben buna ucuzlama derim! Fiyattaki bu hızlı düşüşün aslında daha çarpıcı başka bir boyutu var: Yetenek ve kapasitedeki patlama! İş zekası çok büyük miktardaki verilerin çok hızlı sorgulanabilmesini gerektirdiğinden, donanımdaki bu ucuzlama ve yetenek artışı iş zekasının yaygınlaşması için çok faydalı olmuştur. O kadar ki, böyle bir ucuzlama ve yetenek artışı olmasa, günümüzde anladığımız türde bir iş zekasından bahsedilmesi hiç mümkün olmayabilirdi.

Araçların gelişmesi

Alet işler el öğünür diye boşa dememişler.

İnsan algısı bazı açılardan çok gelişmiş, ama dikkatte seçicilik gibi bir özelliğimiz de var. Çok fazla alternatif arasında kaldığımızda beynimizin süzme mekanizmaları devreye giriyor ve karar alabilmemizi mümkün kılacak şekilde verilerde elemeler yapıyor. Bu elemelerin doğru elemeler olacağı da kesin değil.

Bu durumda, yüklü miktardaki veri içindeki eğilimleri, desenleri belirlemek için araçlar kullanmak gerekiyor. Bu yeteneklere sahip olan araçlar son dönemlerde giderek daha çok güçlenmeye başladı.

Bir örnek olarak SQL Server’ı alalım. SQL Server 2000 versiyonunda iş zekasının çok önemli bazı unsurlarını geniş bir piyasaya uygun bir fiyatla sunmuştu. Veri madenciliğini bazı algoritmaları, data aktarımları için DTS ve küpler için Analysis Services.

Analysis Services 2000 versiyonunda bile, yüzde 25 civarında bir pazar payıyla alanında liderliği elde edecek kadar iyiydi. DTS’in çok iyi bir ürün olduğu söylenemezdi, ama veri aktarımlarında yine de işe yarıyordu. Raporlama için başlangıçta SQL 2000’de bir araç yoktu. 2003’te Reporting Services’in ilk sürümü çıktı.

2005’e geldiğimizde SQL Server iş zekası alanında çok büyük bir atılım getirdi. Sadece 5 yıl sonra SQL Server kullanarak bir iş zekası çözümünün pek çok unsurunu sağlamak mümkün hale gelmişti. Bunun yanına bir de Excel’in istemci tarafındaki bağlanabilirlik ve analiz yeteneklerini ekleyince Microsoft uçtan uca bir iş zekası çözümü sunar hale gelmişti.

Şu an SQL Server’da DTS’in yerine gelen Integration Services data aktarımı işlerinizin neredeyse tamamını başka bir ürün kullanılmasına gerek kalmadan yapıyor. Daha da gelişmiş olan Analysis Services liderliği hala kaptırmadı, üstelik Pazar payı da yüzde 35’lere çıktı. Reporting Services raporlama alanında ihtiyaçların büyük kısmını tek başına karşılayabilir hale geldi. Daha veri madenciliği kavramı dünyada halen çok iyi biliniyor değilken, Analysis Services türevleriyle birlikte 10’ya yakın veri madenciliği algoritmasını hazır olarak sunuyor. Hayretlerle izlenebilecek bir konu, Excel’in Analysis Services’la çok iyi paslaşarak, neredeyse konuyla ilgili hiçbir fikri olmayanların bile veri madenciliği yapabilmesini sağlayacak bir data mining add-in’i sunuyor olması.

Dünyada çok yaygın olarak kullanılan bir üründe iş zekası ile ilgili bu kadar çok hazır imkanın olması, donanımdaki ucuzlama/yeteneklenme hızı kadar önemli ve iş zekası için faydalı bir gelişme.

Sıfır maliyetle deneme şansı

İş zekası uygulamalarını daha 5-10 yıl öncesine kadar denemek için bile büyük maliyetlere katlanmak gerekirdi. Şirketler için bile büyük olan bu maliyetleri üstlenerek bu alanda bağımsız olarak bireylerin kendilerini yetiştirmeye çalışması da pek olası değildi.

Oysa şimdi, veritabanı olarak SQL Server Standard ya da Enterprise Edition, çizelge programı olarak da Excel kullanan bir firma, başka hiçbir lisans ya da donanım maliyetine katlanmadan, iş zekası ile ilgili pilot çalışmalar yapabilir. Hatta küçük çaplı uygulamaları devreye bile alabilir. Eğer SQL Serverın yüklü olduğu makinenin kapasitesi iyiyse ve iş zekasından beklentileri düşük/orta seviyedeyse, lisans ya da donanım maliyetine hiç katlanmadan gerçek uygulamayı devreye alması bile söz konusu olabilir.

Kişiler için de son derece uygun bir maliyeti olan SQL Server Developer Edition’la ve ortalama bir makine kullanarak iş zekası ile ilgili her türlü deneme/öğrenme/geliştirme çalışmasını yapmak mümkün.

İş zekası gibi şu an gelişmesinin hızını kesen en önemli unsur ‘farkındalık’ olan bir alanda “sıfır maliyetle deneme şansı”nın çok önemli olduğunu ve bunu hem bireylere hem de şirketlere çok iyi şartlarda sunabilen Microsoft’un iş zekasında çok hızlı büyümeye devam edeceğini düşünüyorum.

Algoritmaların sokağa inmesi

Bilim adamları, mühendislerin matematiğini “bakkal matematiği” gibi görür. Mühendis, bilimin kendisi için aşk duymaktan çok bilimsel araçlarla yapabildiği işlere kafa yorar ve bu faydaların peşinden koşar çünkü. İş zekası ile ilgili algoritmalar yakın zamanlara kadar akademisyenlerin tekelindeydi. Bu algoritmaları kullanabilmek için bol unvanlı akademisyenlerle çalışmak gerekebiliyordu. Bu akademisyenlerle bir alıp veremediğim yok, ama sayıları iş zekasının hızla yayılmasını destekleyebilecek kadar çok değil.

SQL Server’ın 2005 versiyonunda veri madenciliği ile ilgili türevleriyle birlikte 10’a yakın algoritmanın hazır bulunması, üstelik Excel’de veri alanlarını ve menüleri kullanmayı bilen bir kişinin yararlanabileceği basitlikte bu algoritmaların kullanıma sunulmuş olması bir devrimdir.
Aynı şekilde küp yapıları bir kez kurulduktan sonra özet tablo (pivot table) kullanmayı bilen herhangi bir kişinin bunlara bağlanıp çeşitli yorumlar yapabileceği şekilde veriyi evirip çevirebiliyor olması da son derece önemlidir.

Algoritmalar artık sokağa inmiştir arkadaşlar. Matematiği hayata katan, mühendislerdir.

Bilgi birikiminin yaygınlaşması

İş zekasıyla ilgili 2000’lerin başında bir şeyler öğrenmeye kalkmak zor işti. Şimdi çok daha kolaylaştı.

İsterseniz, sözleri bırakıp sayısal bir analizle durumu inceleyelim.

“Data Warehouse” kavramı iş zekasıyla ilgili kullanılan en eski terimlerden biri. Bakın Amazon’da “data warehouse” u arattığınızda, karşınıza çıkan kitapların yıllara göre dağılımı nasıl:

Data Warehouse
1996 1
1997 1
1998 3
2000 3
2001 3
2002 3
2003 4
2004 1
2005 4
2006 3
2007 2

Görece eski olan data warehouse hakkında basılı kitap sayısının 10’u geçtiği yıl bile 2001 kadar yeni.

“Data mining” de epeydir akademisyenler arasında konuşulan bir şey. Bakın “Data mining”le ilgili yine Amazon’un gösterdiği kitapların basım yılı dağılımı nasıl:

Data Mining
1999 3
2000 2
2001 3
2002 4
2003 1
2004 7
2005 8
2006 6
2007 3

10 kitabın geçildiği yıl 2002. 2004’ten itibaren çok daha hızlandığı çok açık görülüyor.
Doğrudan “Business Intelligence” kelimesine baktığımızda ise şöyle bir sonuç alıyoruz:

Business Intelligence
1999 1
2002 2
2003 6
2006 7
2007 6

Bilginin yaygınlaşmasında da SQL 2000’in bir ölçüde etkisi olduğunu, ama SQL 2005’in çok büyük bir etkisi olduğunu düşünüyorum.

Emeğin yaygınlaşması

Algoritmaların sokağa inmesi, araçların gelişmesi, kitapların çoğalıp bilgi birikiminin yaygınlaşması, donanımın ucuzlaması gibi şu ana kadar yazdığımız etkiler, iş zekası ile ilgili üretim yapabilecek emeğin de yaygınlaşmasını sağlıyor. Emek yaygınlaşmadan kullanımın yaygınlaşması pek olası değil zaten. Ama emek arzının emek talebi kadar hızlı gelişmeyeceğini düşünüyorum. Bunun sebebini sonlara doğru konuşacağız.

Güvenlik paranoyası

Şu ana kadar saydıklarımız kadar olmasa da dünyada oluşan güvenlik paranoyası da iş zekasının yaygınlaşmasında bir etkiye sahip. 11 Eylül olaylarından sonra, ABD hükümetinin çok veriye sahip olmasına rağmen bunları yeterince anlamlandıramadığını düşünmesi, iş zekası ile ilgili çalışmaların yaygınlaşmasında bir ölçüde etken oldu.

Hem genel olarak bilişimde hem de iş zekası alanında kamunun müşteri olması son derece önemli. Türkiye’de de kamu bilişime müşteri oldukça devlet önemli tasarruflar sağlarken bilişimin gelişimi de artıyor. İş zekasının güvenlik yönüyle ilgili kamunun yapmaktan yarar sağlayacağı çok iş var.

GIGO ya da parlayan yıldızın görünmeyen çukurları

Şu ana kadar yeterince ilginizi çekmişimdir. Zaten buraya kadar okuduysanız, konuyla ilgilenmeye başladınız demektir. Belki de önceden beri ilgiliydiniz. Her iki durumda da artık bir çekinceyi belirtebileceğim kadar konuya dalmış durumdasınız. Hani o bazı olumlu övgü cümleleri olur da sonra “… ama” diye devam eder ya… İşte şimdi o aşamadayız.

Un helvası yapmayı deneyenleriniz varsa bilirler, elinizde tarif olsa bile un helvasını öyle hakkını vererek yapmak öyle pek de kolay değildir.

İş zekası da uzaktan parlayan bir yıldız olsa da, her yıldız gibi yakından baktığınızda çukurlar hatta uçurumlar dikkatinizi çekmeye başlar. İş zekası veri demektir, verinin analizi demektir, analize dayalı olarak kararlar almak, o kararları uygulamak ve uygulamanın sonuçlarıyla oluşan verileri de yine analiz etmek demektir. Peki bunu kim yapacak? Şirketini amca/dayı/hala ilişkileriyle yöneten birisi böyle bir çevrime yanaşır mı sizce? Ya da yönetim kuruluna kısa vadeli hisse senedi fiyatına göre hesap veren bir genel müdürün işine bu yaklaşım ne kadar gelir?

Bir rivayete göre (Rivayet Harvard Business Review’in Decision Making üzerine özel sayısından.) Amerika’da iş zekasını iyi uygulayan ve çok üstün sonuçlar alan bir şirketin genel müdürünün masasında ‘In God we trust / All others bring data’ yazılıymış. Yani: ‘Tanrıya inanırız, kalan herkes veri getirsin’.

İş zekası uygulamaları CRM uygulamaları ya da ERP uygulamaları gibidir: Üst yönetimin inisiyatif ve desteğiyle başlamamışlarsa ve bu destekle ilerlemiyorlarsa pek bir hayırları dokunmaz; ne kendilerine ne de şirkete.

Belki de mutlu bir azınlıktasınız ve “Neyse ki bu ‘ama’ benim için geçerli değilmiş, bizim şirket bu anlamda yeterince duyarlı” diye düşünüyorsunuz. Acele etmeyin, bir ama daha var: İş zekası projelerinde izlenecek yöntemler, veri ambarındaki tasarım yaklaşımı ve veri aktarımlarında dikkate alınması gereken şeyler daha önce böyle bir proje bitirmediyseniz, size çok farklı gelecektir. En sonlarda bahsedeceğimiz istatistik, veritabanı ve iş üç ayaklı sac ayağının üçüne de hakim olma gerekliliği sorunlardan birisi… Bu amayı nasıl aşacağınızla ilgili önemli bir ipucunu da ben vereyim: Mesela Microsoft araçlarıyla iş zekası uygulaması geliştirecekseniz ve Analysis Services, Integration Services ve Reporting Services’tan yeterince anlar hale geldiyseniz tasarım ve proje yol haritası için elinizden tutacak önemli bir kaynak var: Ralph Kimball. Tarif ettiğim konumdaysanız “The Microsoft Data Warehouse Toolkit” isimli kitabı çok işinize yarayacaktır.

Ama üçüncü bir ama daha var! FIFO ve LIFO’yu duymuşsunuzdur değil mi? First in first out – İlk giren ilk çıkar. Last in first out – Son giren ilk çıkar. Bir de GIGO var: Garbage in garbage out. Türkçe’ye kelime kelime çevirmek yerine ‘ne ekersen onu biçersin’ ya da ‘kılavuzu karga olanın burnu çöplükten kurtulmaz’ diyebiliriz. Ya da kelimesi kelimesine: Çöp içeri çöp dışarı! Eğer iş zekası sistemine veri sağlayacak uygulamalar doğru verileri toplamıyorsa, doğru şekilde toplamıyorsa, topladıklarını da doğru şekilde saklamıyorsa, iş zekası uygulaması sihirbaz değil; size çöpten bir saray inşa edemez!

Aç tavuk kendini darı ambarında görürmüş ya da ideal veri ambarı

Anlamlı en küçük birim pek çok konuda önemli bir yaklaşım tarzı olmuş. Mesela biz ilkokuldayken, atomu maddenin bölünmez en küçük parçası diye öğrenmiştik. Canlıları incelerken hücre önemli bir kavramdır. Veri ambarına yaklaşırken de ‘darı’ önemlidir.

Ne demek darı?

Veri ambarı yaklaşımında tasarım yaparken birbiriyle ilişkili küçük küçük çok sayıda tablo yerine, denormalize ve iki temel tip tabloya sahip olmak isteriz. Gündelik işlemlerimizin sayısal değerlerini ifade eden ‘fact’ (gerçek) tabloları ve bunlara çeşitli açılardan bakmamızı sağlayan boyut (dimension) tabloları. Gerçek yerine bundan sonra fact kullanacağız, çünkü gerçek tablosu kulağa biraz garip geliyor. Ama boyut, yeterince yerine oturan bir kelime.

Fact tablolarında (evet, birden fazla olabilirler) ya takip etmek istediğimiz sayılar ya da bu sayıları boyutlara bağlayan yabancı anahtarlar bulunur. Boyut tablolarında ise fact tablolarının da referans aldığı birincil anahtarların yanı sıra, o boyuta ilişkin sorgulama yaparken filtre unsuru olacak ya da raporda yer alacak bilgilerin her biri birer kolon olarak yer alır.

Şirketin çeşitli fonksiyonları (satış, finans, müşteri şikayetleri, üretim vb) bir ya da daha fazla fact tablosunun konusu olabilirler. Tanım unsuru oluşturan boyutlar ise (zaman, müşteri, ürün, satış organizasyonu vb…) tüm veri ambarında mümkünse tek olarak yer alırlar ve hangi fact tablolarına bakışta boyut olarak kullanılacaklarsa onunla ilişkilendirilirler. İlgili tüm factlere aynı ürün boyutunun bağlanması sayesinde, bir ürünle ilgili maliyet, karlılık, müşteri şikayeti gibi ayrı factlere konu olan bilgileri paralel olarak incelememiz mümkün olur.

Peki darı bunun neresinde? Boyutların factlerle kesiştiği en küçük birim o boyutta inceleyebileceğimiz en küçük birimdir. Raporda alınabilecek en küçük dilimi bu unsur belirler. Mesela satış işlemlerinin zaman bilgisiyle boyut tablosunu ilişkilendirirken, en küçük birim olarak yarım saat mi, saat mi, gün mü, ay mı ele alınacak? Eğer lüks konut satıyorsanız, belki hafta sizin için yeterlidir. Araba satıyorsanız, gün esas olabilir. Ama marketler zinciri için analiz yapıyorsanız, muhtemelen yarım saatlik dilimleri de karşılaştırabilmek isteyeceksiniz.

Bu veri ambarının eldeki verilerle doldurulabilir olarak uygun şekilde tasarımı ve hem tarihi hem de aşamalı doldurulmasının otomasyonu, bir iş zekası projesinin zaman ve emek olarak yaklaşık yüzde 80’i demektir.

Kısaca, veri ambarı ile darı ambarını karıştırmamanızda fayda var. Aslında veri ambarı ile ilişkisel bir veritabanını da karıştırmamanızda fayda var.

ETL ne ki?

Veri ambarının tasarımının bambaşka olduğunu sanırım anladınız. Üstelik bu tasarımı dolduracak veri kaynağı da genelde hatta neredeyse hiçbir zaman tek değildir.

Bakın olası bazı veri ambarını besleyecek olası bazı veri kaynaklarımız neler:

– Şirketin temel işlerini yönettiği veritabanı, mesela bir ERP veritabanı, belki SAP.
– Pazarlama departmanının kendi içinde analizlerini yapıp karar almada kullandıkları Access veritabanları.
– Muhasebe departmanının Türkiye ve yabancı ortağın sistemleri arasındaki uyuşmazlıktan dolayı ayrıca Excel’de tuttukları ve düzenlemeler yaptıkları dosyalar.
– Pazar araştırmaları ve rakip bilgileri konusunda üye olunan 2 ayda bir sağlanan XML dosyaları.
– Genel sistemden ayrı çalışan ama çeşitli verileri paylaşan CRM veritabanı.
– Geçen sene satın alınmış bir başka şirketin sisteme henüz tam entegre olmamış veritabanları ve veri kaynakları.
– ….

Bu böyle gider.

Tüm bu sistemler aynı konularda bile farklı şemalarla veri tutmaktadırlar. Şemaların aynı olduğu durumlarda bile kolonların alabileceği değerler farklı şekilde ifade edilmiş olabilir. Kısaca üzerinde durulması gereken bin türlü ayrıntı vardır.

Üstelik genel olarak veritabanı sistemleri geçmişe dönük bilgi tutmazlar. Gerçeklerin sadece son halleriyle ilgilenirler.

Bir özel üniversitenin veritabanını düşünün. 10 yıldır aktif olan bir üniversite olsun. Bugün şöyle bir soruyla karşılaşıyorsunuz: Acaba on yılda derslerimizin yüzde kaçını profesör ünvanlı akademisyenler verdiler?

Ne kolay bir soru değil mi? Peki diyelim ki ben Mustafa Acungil olarak şu an bu üniversitede profesörüm. Oysa 4 sene önce doçenttim. 8 sene öncede yardımcı doçenttim. Sizce bu veritabanı size tüm akademisyenlerin on yıldır aldıkları unvanlara göre verdikleri dersleri sınıflayarak cevap verebilir mi? Sanmıyorum. Çok büyük olasılıkla akademisyenleri tutan tablo sadece son unvanlarını tutuyor olacaktır. Bir arşiv tablosunda ise önceki unvanlarıyla yer alan kayıtlarının eski halleri bulunacaktır. Bu arşiv tablosunda muhtemelen her bir kaydın ne zaman güncellendiği de bulunabilir. Arşiv tablosunda çok zahmetli desteklerle soruyu belki doğru cevaplayabilirsiniz.

Oysa veri ambarı geçmişi de tutuyor olmalıdır. Mesela akademisyenlerle ilgili boyutta, her bir akademisyen için her bir değişmiş unvanıyla, bu satırın geçerli olduğu tarih aralığını da belirtecek şekilde birer kayıt bulunur. Ya da doğru tasarlanmış bir veri ambarında durum budur.

Yani tek bir veri kaynağınız olsa bile bu veri kaynağından veri ambarını beslerken en azından yavaşça değişen boyutlarla uğraşmanız gerekecektir.

İnanın, veri ambarı tasarımını doğru yapmaktan daha zor bir şey varsa, o da veri ambarını ilk başlamanızda eldeki verilerin bir kereliğine aktarılması anlamına gelen tarihi doldurma ve muhtemelen gündelik yapacağınız aşamalı doldurma işlemlerini tasarlamak ve bunları otomatikleştirmektir.

Bu işe ETL adı verilir. Extract, Transform ve Load kelimelerinin ilk harfleri. Yani Data çek, Dönüştür, Yükle… SQL Server 2005’le gelen yeni bir ürün olan Integration Services hayli iyi bir ETL aracıdır.

Küp küp dedikleri, birkaç gerçek tablosu daha çok da boyut

İş zekası ile ilgili olarak küp diye bir kavramı duymuş olabilirsiniz. Aslında konunun küple pek ilgisi yok. Doğru isimlendirme, çok boyutlu yapı. Şöyle düşünün, değeriyle ilgilendiğiniz y’ler ve bunların durumlarını etkileyen x’ler var.

Y1 = f(x1, x2, x3,…, xn)
Y2 = f(x1, x2, x3,…, xn)
Vb.

Peki niye küp kelimesi kullanılıyor. Çünkü insanın canlandırabildiği boyut sayısı 3’le sınırlı. En azından Einstein’in izafiyet teorisiyle pek ilgilenmeyenlerimiz için sınır bu. Oysa araçlar kullanılarak çok boyutlu yapılar da matematik olarak ifade edilebiliyor. İşte küp dediğimiz ve Microsoft’un Analysis Services aracı gibi araçlarla oluşturulup kullanıma sunulan yapılar, işimizle ilgili verilere çok boyutlu bakabilmemizi sağlıyorlar.

Küp haline gelen bir yapıya, Excel pivot table’dan bağlanıp pivot table’ın tüm yeteneklerini kullanarak bu veri üzerinde ‘gezebilirsiniz’. Etkileyici olmakla birlikte, büyük zorluğu olmayan bir adım. Özellikle Analysis Services’ın gelişmiş özellikleriyle, eğer iyi tasarlanmış ve doldurulması doğru bir şekilde otomatikleştirilmiş bir veri ambarınız varsa, küp üretmeniz ve zengin özelliklerle bu küpü donatmanız kolay olacaktır. Olsa olsa karmaşık istekler için küp yapısını biraz MDX’le (küplere özel sorgulama dili) desteklemeniz gerekir.

Analiz başka, veri madenciliği başka

İş zekasında pivot table’la görsel olarak veri üzerinde dolaşmakla çözemeyeceğiniz sorularınız da olabilir. Mesela hangi ürünler bir arada daha çok satılıyor? Müşterilerimizi nasıl sınıflandırabiliriz? Bizim için kritik bir müşteri kararında müşterilerimizin hangi özellikleri etkin rol oynuyor?

Bu tür durumlarda, gözle yapılabilecek olandan çok daha karmaşık analizler yapmak gerekir. Böyle olunca da devreye istatistiksel algoritmalar girer. Naive Bayes, nöral networkler, clustering ve diğerleri.

Verinin analiz edilmesi ile veri madenciliği birbiriyle çok yakından ilgili ama çok farklı şeylerdir.
Veri analizinde, insan gözüyle incelenebilir bir yapı kurulup o yapı üzerinde analizler yapılır. Oysa veri madenciliği, çok daha yüklü miktardaki veri üzerinde, insan gözüyle fark edilmesi imkansız desenleri bulmayı hedefler.

Veri madenciliğinin temel yaklaşımında öncelikle bir hipotez geliştirilir. Sonra da o hipotezi gerçeklemek üzere istatistiksel model kurulur. Kurduğunuz bu modeli elinizde sonucunu bildiğiniz bir grup örnek verinin ayrılmış bir bölümüyle ‘eğitirsiniz’, daha sonra da sonucunu bildiğiniz verinin kalan kısmıyla ne kadar tutarlı olduğunu test edersiniz. Modeliniz yeterince tutarlı hale geldikten sonra da bu modeli uygulamaya koyar, belirli aralıklarla da oluşan yeni verilerle tekrar ‘eğitirsiniz’.

Veri madenciliğini iş başında görmek istiyorsanız, amazon.com’u ziyaret edin. Bir kitap seçin. Seçtiğiniz kitabın web sayfasında, bu kitabı tercih edenlerin başka hangi kitapları da tercih ettiklerine dair bilgiler göreceksiniz. Bu öneri, insan çalışmasıyla değil, veri madenciliğine dayalı olarak kurulmuş bir modele sizin seçtiğiniz kitapla birlikte hangi kitapların tercih edildiğine dair gönderilmiş bir sorguya dayanır.

Kabaca şöyle bir yapı vardır. İnsanların kitap alışverişleri üzerinde veri madenciliğinin ilkelerine dayalı olarak yukarıda belirttiğim şekilde bir model kurulur ve model eğitilir. Sonra sizin kullandığınız internet sitesinde yaptığınız kitap tercihi bu modele bir DMX (veri madenciliğinde kullanılan sorgu tipi) sorgusu gönderir. Bu sorgunun saniyeler içinde alınan cevabı, karşınıza çıkan sayfaya dahil edilir.

Tabii belirli aralıklarla insanların yaptığı yeni alışverişlerle ilgili yeni veriler kullanılarak arkadaki model yeniden eğitilir.

Veri madenciliği, bildiğiniz yapay zekanın yaşayan bir uygulamasıdır. Günaydın arkadaşlar, yapay zeka hayatımıza girdi bile.

Programcının hakkı programcıya, kullanıcının hakkı kullanıcıya

Programcı kelimesini kullanmak ne kadar doğru tartışılır aslında. İş zekasını geliştiren bir programcı değildir, başka bir şeydir. Temelde tek bir şapka da yoktur, bir şapkalar takımı söz konusudur. İşte bu şapkalar takımında başarılı bir sonuç elde edilebilmesi için kullanıcı temsilcilerinin en baştan sürece dahil olmaları son derece kritik.

İş zekasının temel amacı iş süreçlerine doğrudan ya da dolaylı katkı sağlayan katma değerli kararlar alınmasını sağlamak olduğuna göre, ne yapmak gerektiğini, nasıl yapmak gerektiğini, neyi iyi neyin kötü olacağını kullanıcılar bilir. Hiçbir IT ekibinin işle bu kadar içli dışlı olup bunları kendiliğinden bilmesi olası değildir. Öte yandan bu işin teknik ve istatistik temelleri de önemli. Ürünleri ve yapabileceklerini bilmeyen kullanıcıların da neler isteyebileceklerini hayal etmeleri pek kolay değil.

O zaman programcının hakkı programcıya, kullanıcının hakkı kullanıcıya! Projenin başından itibaren iş zekası projesini geliştiren ekibin içinde, yazılımcıların, veri tabanı yöneticilerinin, veri ambarı uzmanlarının, kullanıcıların ve diğer pek çok fonksiyonun etkin olarak yer alması gerekiyor.

En iyi rapor, kullanılan rapordur.

İki acı örnek anlatacağım. İş zekası uygulaması geliştirirken bunların kulağa küpe olmasında fayda var.

Bir tanesi Türkiye’de yaygın kullanılan bir muhasebe programı ile ilgili. Çok karmaşık bir rapor geliştiriyor arkadaşlar. Hayli maharetli. İki sene sonra bir müşteriden raporla ilgili sorun bildirimi geliyor. Bir bakıyorlar ki, raporda bug var ve bu bug’la çalışması mümkün değil. Yani hayli uğraşarak geliştirdikleri raporu iki yıl boyunca kimse kullanmaya kalkışmamış!

Bir başka olay, Amerika’nın en büyük otomotiv firmalarından birinin başına gelmiş. Bu firma 1999’da pek çok farklı uygulama kullanılan satın alma sürecini tek bir program altında toplamaya karar verip yola çıkmış. Üstelik de projede ortak olarak dünyanın en büyük ve yetenekli yazılım evlerinden birini almış. 5 yıl ve 400 milyon dolar harcamanın ardından proje rafa kalkmış! Sebebi projenin bitirilememesi değil. Çalışır durumda bir proje çıkmış ortaya. Ama kullanıcılar eski alışkanlıklarını bırakıp yeni programı kullanmaya geçiş yaptırılamamışlar.

Kullanılmayacak bir sistem tasarlamanızın hiç gereği yok.

Kullanılan ve verim sağlayan bir iş zekası projesi başarılı kabul edilebilir. Çok yetenekli bir sistem geliştirmiş olsanız bile, kullanılmıyorsa, bir değeri yoktur. Kullanılan bir sistem geliştirmek için birkaç küçük ipucu:

– Aşamalı çalışın. İlk 6 aylık süreçte, kullanıcı tabanının büyük kısmının en yaygın kullandıkları işlerle ilgili geliştirilmesi de en dertsiz olan parçaları belirleyip onları yapın. Böylece hem fazla zorlayıcı unsurlara baştan dalmamış olursunuz, hem de daha rahat olacak olan bu dilimde kendi yeteneklerinizi geliştirmenin yanı sıra kullanıcıları işin içine çekmeye yönelik politik çalışmalara da daha fazla ağırlık verebilirsiniz.

– Kullanıcı temsilcilerini daha analiz aşamasından itibaren işin içine dahil edin.

– Üst seviye yönetimden destek sağlayın ve bu desteği kullanıcılara en baştan itibaren tatlı sert hissettirin.

– Kullanıcılara gerçekleştirilen uygulamanın kendi işlerini yapabilirliklerine büyük katkı sağlayacağını hissettirmek için en baştan itibaren zaman harcayın.

Üç ayaklı sac ayağı ya da kaç ayağınız yere basıyor

İş zekası üzerine bir ufuk turu atmış olduk. Bu alanda uzmanlaşmayı düşünüyorsanız, üç farklı dayanak noktasına ihtiyaç olduğunu bilmelisiniz. Bunlardan en az birine çok iyi hakim olmalı, diğerleri hakkında da epeyce bir şey bilmelisiniz. Bu alanlardan herhangi biri ya da ikisi üzerine temeliniz varsa, iş zekası alanında başarılı bir uzmanlık edinme şansınız çok daha yüksek olur. İstatistik, business (iş) ve veritabanı ve araçlar.

İstatistik

Özellikle veri madenciliği tarafı büyük ölçüde istatistiğe dayalı. Küpleri kullanabilmek için pivot table bilgisi ve iş bilgisi büyük ölçüde yeterli olurken, veri madenciliğinden yararlanabilmek için istatistiksel sonuçları en azından yorumlayabiliyor olmak gerekli. Bu sonuçları belirleyen algoritmaların çalışma mekanizmalarını bilmek şart değil, ama en azından her bir algoritmanın parametrik değerlerini bilmek gerekiyor.

Bundan bir on sene önce iş zekası ile uğraşmak için gerekli olan istatistik bilgi seviyesine göre, şu an çok daha düşük bir bilgi seviyesi yeterli. Üniversitede mühendislik istatiği okumuş olmak ve sevmiş olmak bile yeterli kabul edilebilir. Ama istatistiği pek sevmiyorsanız, iş zekası alanı size göre olmayabilir.

Business (İş)

İş zekası, adı üstünde işe ilişkin bir şey. Hatta İngilizce ismi olan Business Intelligence’in Türkçe’ye tam çevirisi: İş istihbaratı. Hani CIA (Central Intelligence Agency) adlı örgütün isminde geçtiği gibi. İş zekası daha şatafatlı ve reklam kokan bir isim olmakla birlikte asıl yaptığımız iş istihbaratı. İş istihbaratından anlam çıkarabilmek için, işten anlıyor olmak gerekli.

İş tarafıyla ilgili değilseniz, en azından satış/pazarlama/finans vb yöneticileriyle oturup iş üzerine konuşmaktan hoşlanmayacaksanız, yine iş zekasının size uygun bir alan olmadığına dair bir işaret olabilir bu durum.

Veritabanı ve araçlar

İş zekasındaki hızlı gelişimin en temel sebeplerinden birisi, bu alandaki araçların gelişimi. Temel bir veritabanı bilgisi gerekli. Veri ambarı tasarımı konusunda iyi bir bilgi gerekli. Veri aktarımı konusuna da hakim olmak gerekli.

Veritabanı alanında uzmansanız ve istatistik ve iş taraflarına da ilgi duyuyorsanız, iyi bir başlangıç noktasındasınız demektir. İstatistik veya işle ilgili bir temeliniz varsa, veritabanı ve araçlarla ilgili en azından baz seviyede kendinizi geliştirmeye istekli olmalısınız.

Son söz

Bu yazıyı buraya kadar 4 binin üzerinde kelime okuyarak bitirdiyseniz, konuya ilginiz ilk testi geçmiş demektir. İş zekası alanında uzmanlığın çekici olmasının temel sebebini hatırlatayım: Bu alan hızlı gelişiyor ama iş yapabilecek kişilerin yetenek setleri bu kadar hızlı gelişmeyecektir. Arz talep dengesi bu alanda uzmanlığını geliştirmek isteyen ya da başlatmak isteyenlerin lehine! Ama bu şimdilik böyle. 1 seneye kadar durum biraz değişebilir. 3 seneye kadar avantajı büyük olasılıkla kaçırmış olursunuz. 10 seneye kadarsa, çok daha yeni kavramlarla ilgili konuşuyor olma ihtimalimiz son derece güçlü.

Karar verin ve harekete geçin!

Bu yazı KırkAmbar içinde yayınlandı ve olarak etiketlendi. Kalıcı bağlantıyı yer imlerinize ekleyin.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s