Analitik Dikeyler ve Tidy Data’nın Önemi (büyük veri ile çalışan kurumlar için )
Büyük veri tamam peki ya büyük verinin analitiği?
Büyük veri analitiğininde de çözülmüş olduğu durumda peki ya büyük veri kullanılarak üretilen veri bilimi projelerinin verimi, ölçeklenebilirliği, sürekliliği ve el değiştirme hızı?
Yazının amacı veri bilimi projelerinin verimini artırmak, keşifsel analiz süreçlerini hızlandırmak ve keşiflerin kümülatif olarak değer yaratmasına ortam sağlamak üzere tavsiyelerde bulunmaktır.
İki bölümden oluşacak yazının birinci bölümü kavramsal ikinci bölümü R ile bir uygulama gerçekleştirilerek yapılacaktır.
Büyük veriden büyük keşifler, büyük faydalar yaratabilmek için neye ihtiyacımız var? Bu sorunun cevabı için bir çok durum söz konusudur fakat mevcut durumda ihtiyaçlardan sadece bir tanesi olan analitik dikeylere değinilecektir.
Analitik Dikey Nedir?
“Analitik Dikey” kavramı kurumun ilgilendiği ve kendisinden analizler yapılarak fayda çıkarılmasını beklediği tüm gelir/gider/ürün kalemleridir. Belirlenen bu dikeyler bir veri setinin gözlem birimlerini oluşturacaktır. Örneğin tidy_bireysel isimli veri setinin gözlem birimleri(satır elemanları) kurumun tüm bireysel müşterilerinden meydana gelmektedir. Ve değişkenlerde (sütunlar) bu bireyler ile ilgili elde olan tüm bilgilerden meydana gelmektedir. Dolayısıyla kurumun sürekli analiz, keşif, tahminsel modeller ile bir takım aksiyonlar beklediği tüm kalemler analitik dikey olmaktadır.
Örneğin bir banka için bankamatikler de bir analitik dikey olabilir. Tüm bankamatiklerin bilgileri, içerisinde aylık ortalama ne kadar para olduğu, ortalama ayda kaç kullanıcı tarafından kullanıldığı, işlem hacmi ortalaması gibi değişkenlerden oluşacaktır.
Telekom için tüm aboneler, mikro segmentler, mağazalar vs.
E-Ticaret için reklam gelirleri, kurumsal üyeler, satılan ürünler vs.
Analitik dikey bakış açısı, ilgilenilen her bir analitik alanın öneminin anlaşılması ve bu alanların odak noktası haline getirilmesini amaçlamaktadır. Odak noktasına gelen dikeylerden elde edilecek tüm bilgilerin kümülatif olarak elde tutulması kısmının dayanağı ise tidy data yaklaşımıdır.
Tidy Data Nedir?
Tidy data akademisyen ve R-Studio’un Chief Scientist’i olan Hadley Wickham tarafından 2014 yılındaki The Journal of Statistical Software’da dile getirilmiştir.
Veri analizi süreçlerinin yüzde 80’i veri temizleme ve veriyi hazırlamak ile geçmektedir. (Dasu and Johnson 2003)
Veri hazırlığı ilk basamak değildir fakat her yeni problemde, her veri güncellenmesinde ve her yeni analiz denemesinde tekrar edilen zaman kaybettiren bir süreçtir.
Tidy data bu süreçleri optimize etmek ve yapısal, tekrar edilebilir, yeni analizleri hızlıca uygulama imkanı veren bir veri tutma şeklidir.
Tidy data keşifçi veri analizi, veri görselleştirilmesi, veri analitiği, makine öğrenmesi süreçleri, istatistiksel modeller için analizlere başlamadan önce verinin getirilmesi gereken son halidir.
Özetle veri analizinden önce verinin düzenli bir formata getirilmesidir. Bu format aşağıdaki özelliklere sahip olmalıdır:
- Veri setindeki her bir değişken kendi sütununda olmalıdır. Yani bir sütunda ancak bir değişken ve onun değerleri yer almalıdır.
- Veri setindeki her bir gözlem kendi satırında olmalıdır. Yani her bir gözlem bir satır üzerinde ve değişkenler bazında alacakları değerlerden oluşmalıdır.
- Her değer kendi hücresinde yer almalıdır. Yani her bir hücre elemanı değişken ve gözlem kesişiminde olmalıdır.
İş birimlerinin analitik dikeyleri belirlemesi ve veri tutma yaklaşımının bu analitik dikeylere göre oluşturulan tidy data formatında olması şu olası katkıları sağlayacaktır:
- Tüm analitik çalışmaların çıktıların kümülatif olarak elde tutulmasını ve keşfedilen hiç bir değerin kaybolmamasını sağlayacaktır. Bu en önemli maddedir, bir örnek ile açıklamak gerekirse; bir kurumun bireysel müşterilerinin gelir düzeyi tahmini için geliştirdiği bir makine öğrenmesi modeli olsun ve bu model ile tüm bireysel müşterilerin gelir düzeyleri tahmin ettiğini düşünelim. Gelir düzeyi tahminlerine göre iş birimlerinin aldığı bir takım aksiyonlar sonrasında bu projenin rafa kalktığını düşünelim. Bir sonraki bireysel müşteri projesinde bir şekilde gelir düzeylerine ihtiyaç olduğu düşünülsün. Şimdi ne yapılacak? Daha önce bir gelir tahmin modelimiz vardı onu tekrar kuralım mı denilecek? Tekrar bütün veri madenciliği süreçleri işletilecek ve yeni bir proje daha başlamış olacak. Bu tür durumlar için daha önce tahmin ettiğimiz bireylerin gelir düzeylerini veri setine bir değişken olarak her bir birey için eklemiş olsaydık ikinci projeye başlarken birinci projenin tüm gücünü arkamıza almış olacaktık.
- Aksi durumda farklı veri analistleri, farklı veri bilimciler tarafından yapılan farklı çalışmalarda elde edilen keşifler kaybolacak ve her benzer proje sürecinde aynı zihinsel yorgunluklar meydana gelecektir.
- Bunun yerine bir kurum toplamsal olarak ilgili bir analitik dikeyde elde ettiği tüm içgörü ve keşifleri kümülatif olarak biriktirmelidir. Yeni yapılacak bir çalışma arkasına tüm projelerin gücünü almalıdır.
- Veri bilimi proje süreçlerinin yüzde 80’lik kısmını oluşturan veri hazırlama süreçlerinin maliyetini yüksek ölçüde azaltacaktır.
- Her veri bilgini (Eren Hoca’dan alıntı :)) keşfetmek istediği bir algoritma ya da yaklaşımı hızlıca test edebilecek ve deneyimini hızlıca arttırabilecektir.
- Verinin ruhunu görmek adına, betimsel istatistikler ya da popüler adıyla keşifçi veri analizi ve veri görselleştirme uygulamaları hızlıca gerçekleştirilebilecektir.
Tek bir ifade ile tidy data veri bilimi süreçlerini bir kaç basamak yukarıya taşıyacaktır.
Sonuç olarak belirlenen analitik dikeyler için oluşturulacak tidy formatlı veri saklamak veri bilimi süreçlerine çok ciddi katkılar sağlayacaktır. En azından yapıldığını bildiğim bir kaç şirket için bunu çok rahat dile getirebilirim.
İkinci bölümde tidy olmayan yani “messy” data için sık karşılaşılan vakalar verilecek ve dplyr, tidyr ve reshape kütüphaneleri kullanılarak tidy süreçlerinin nasıl işletileceğine yönelik bir uygulama yapılacaktır.
Değerli katkı ve eleştirilerini esirgemeyiniz.