Microsoft Excel [2013] – İki Farklı Tablonun Tek PivotTable’ da Birleştirilmesi Bölüm-1/3
Bu yazımda birden fazla veriye ait tablonun tek bir pivottable da birleştirilmesi anlatılacaktır.Yapılan işlemlerin Excel 2013 ve 2016 sürümlerinde ki farkları da ele video da...
Microsoft Excel [2013] – İki Farklı Tablonun Tek PivotTable’ da Birleştirilmesi Bölüm-1/3
Bu yazımda birden fazla veriye ait tablonun tek bir pivottable da birleştirilmesi anlatılacaktır.Yapılan işlemlerin Excel 2013 ve 2016 sürümlerinde ki farkları da ele video da...
Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay
Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme...
Büyük Veri Nedir?
Google’a “büyük veri nedir?” diye sorduğumuzda birçok tanım, birçok “V”, birçok bir şeyler denk gelecektir. Önemli bir etkinlikte bir Doçent hocamızın şu ifadesi çok güzeldi:...
Analitik Dikeyler ve Tidy Data’nın Önemi (büyük veri ile çalışan kurumlar için )
Büyük veri tamam peki ya büyük verinin analitiği? Büyük veri analitiğininde de çözülmüş olduğu durumda peki ya büyük veri kullanılarak üretilen veri bilimi projelerinin verimi,...
Artık Büyük Veri Var, İstatistiğe Gerek Yok (mu?)
Mesele “Big data” değil kardeeeş, bak resimdeki abileri kızdırıyorsun. 🙂 Bu büyük veri denilen şey nedir? Teknik olarak boyutundan dolayı geleneksel yöntemlerle işlenmesi mümkün olmayan...
Windows 10 Spark-2 Kurulumu
Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor....
Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması
Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer...
Hadoop HDFS Nedir?
HDFS Hadoop projesinin en temelinde bulunan çok büyük hacimli verileri depolamak için tasarlanmış java tabanlı dağıtık bir dosya sistemidir. Hatalara karşı dayanıklıdır. Ölçeklenebilir. Düşük maliyetlidir....
Çoklu Doğrusallık Sorunu Çözümünde VIF
Çoklu regresyon analizinde bağımsız niteliklerin bağımlı nitelik üzerindeki etkisi incelenir. Bazı bağımsız nitelikler birbirleriyle yüksek doğrusal korelasyona sahip olduğundan bağımlı değişken üzerindeki etkisi dağılır. Modelin sadeliği va...
Apache Spark ML Kütüphanesi: Pipelines Örnek Uygulama
1. Giriş Merhabalar. Bildiğimiz gibi Spark, büyük veri dünyasının en popüler analitik motoru. Özellikle durağan büyük boyutlu veriler (persistent data) üzerinde hızlı bir şekilde makine öğrenmesi...