Dengesiz Veri Setlerinde Modelleme
Standart bir sınıflandırıcı makine öğrenmesi algoritmasının amacı doğruluğu maksimize etmektir. Dengesiz veri setlerinde ise algoritma, veri sayısı çok olan sınıfı daha iyi öğrenecektir ve bu eğitimin sonucu çoğunluk sınıfı için düşük hata oranı, ancak azınlık sınıfı için daha yüksek hata oranı olacaktır.
Dengesiz Veri Setlerinde Modelleme
Standart bir sınıflandırıcı makine öğrenmesi algoritmasının amacı doğruluğu maksimize etmektir. Dengesiz veri setlerinde ise algoritma, veri sayısı çok olan sınıfı daha iyi öğrenecektir ve bu eğitimin sonucu çoğunluk sınıfı için düşük hata oranı, ancak azınlık sınıfı için daha yüksek hata oranı olacaktır.
SSIS’de Conditional Split
Daha önceki SSIS (SQL Server Integration Services) konulu yazılarımda, farklı kaynaklardaki verileri kullanarak amacımıza uygun şekillerde dönüşümler gerçekleştirmiştik. Daha sonra ise hedef çıktımızı tek bir kaynağa indirgemiştik. Bu yazıda ise tam tersi; kaynak verimizi farklı çıktılara nasıl dağıtacağımızı SSIS'de Conditional Split kullanarak göreceğiz.
Boruta Algoritması ile Değişken Seçimi
Boruta veri setine eklediği gölge değişkenler ve iterasyonlu yapısı ile bir veri setinden önemli ve önemli olmayan değişkenlerin tarafsız ve istikrarlı bir şekilde seçilmesini sağlayan, Random Forest tabanlı değişken seçme yöntemidir.
SSIS’de Union All
Bu yazımda SSIS'de Union All görevini kullanmayı göreceğiz. Örnek paket çalıştırarak SSIS'de neden Union All var ve nasıl kullanılır konularına değinmiş olacağız.
MXNet ile Derin Öğrenme 2.1: Softmax Regresyon (Teori)
Herkese merhabalar, MXNet ile derin öğrenme serisine devam ediyoruz. İlk iki bölümde doğrusal regresyon konusunda teorik bilgiler paylaşıp python programlama dili ile uygulama yapmıştık. Bu...
Hiyerarşik Kümeleme
Merhabalar! Uzun bir aradan sonra yine sizlerleyim 🙂 Bu yazımda denetimsiz öğrenme (unsupervised learning) algoritmalarından hiyerarşik kümelemeyi ele alacağız. İlk olarak denetimsiz öğrenme nedir? Denetimsiz Öğrenme Denetimli öğrenmede...
Apache Spark’a Giriş
Verinin her geçen gün katlanarak büyüdüğü günümüz dünyasında o veriyi işleyebilmenin ve veriden anlamlı çıkarımlarda bulunabilmenin önemi de katlanarak artmaktadır. Ancak terabaytlarca ve hatta petabaytlarca...
Boosting Kutu Açılışı
En sık kullanılan boosting algoritmalarının kullanımı, hiperparametre optimizasyonu ve performansları Python dili kullanılarak incelenmiştir.
Kaggle İlaç Sınıflandırma Yarışması – DEEP LEARNING Uygulaması (Tensorflow)
Bu uygulama yazısında, Kaggle'dan alınan veri seti kullanılarak, ilaçlar üzerine multilabel sınıflandırma çalışması yapılmıştır. İlk modelde LGBM yöntemi tercih edilirken, ikinci model çalışmasında Tensorflow dataframe'i tercih edilerek deep learning model mimarisi kurulmuştur. Bu veri setinde deep learning modeli, boosting yöntemine göre daha başarılı bir performans sergilediği görülmüştür.
SSIS ile ETL Uygulaması
Merhaba arkadaşlar. Bu yazımda SSIS ile veritabanından veri çekip (extract), bazı dönüşüm (transform) işlemlerinden sonra hedef kaynağa yazacağımız (load) bir ETL uygulaması yapacağız.