Veri Bilimi Okulu

Nokta Tahmini, Aralık Tahmini ve NGBoost Algoritması

Loading

Bir Veri Bilimi projesinde en önemli olan şey iş problemidir ve amacımız belirsizlik içeren iş problemini çözümleyebilmektir. Projeye başlamadan sorulması gereken bazı soruların, analist arkadaşlar tarafından mutlaka sorulması gerekir. Problem nedir? Hangi belirsizliği ortadan kaldırmak istiyorum? Problem bir Makine Öğrenmesi problemi midir? Problemin çözümü neye hizmet edecektir? Hangi iş biriminin operasyonel yükü hafifletecektir? Bağımlı (Hedef) […]

Titanic Verisi ile No Free Lunch Teoremi ve Algoritmaların Kaggle’daki Başarısı

Loading

No Free Lunch Teoremi kısaca Makine Öğrenmesi algoritmalarının birbirlerine üstün olmadıklarını belirtir. Bir iş probleminin çözümü, kullanılan algoritmaya bağlı değildir veri setine bağlıdır! Bu uygulamada herkesin nefret ettiği Titanic verisi ile sadece algoritmaların varsayılan hiperparametrelerini kullanarak tahmin değerleri üreteceğim ve her bir algoritmanın çıktılarını (submission) Kaggle’a yükleyeceğim ve ardından Kaggle’daki skorlarımı sizler ile paylaşacağım. İlerideki […]

FIFA 19 Dashboard Veri Görselleştirme – Bölüm 1

Loading

Son dönemde yazmış olduğum ve geliştirmeye devam ettiğim FIFA 19 Dashboard çok ilgi gördü ve ilgi görmeye devam ediyor. Bu çalışmam ile alakalı geri dönüşlerde bulunan ve eleştiri belirten herkese çok teşekkür ederek başlamak istiyorum. R programlama dilinin önemli kütüphanelerinden biri olan Shiny ile FIFA 19 verisini kullanarak bir dashboard tasarladım. Bu dashboard içerisinde temel […]

Feature Selection

Loading

Univariate Selection İstatistiksel testler ile bağımsız değişkenlerin bağımlı değişken ile güçlü ilişkileri ortaya çıkartılabilir. Örneğin, ki-kare testi ile değişkenlerin önem skorları bulunabilir. Ayrıca Veri Görselleştirme ile özellik seçimine yardımcı olunabilir. Feature Importance Feature Importance skorları hesaplanır. Correlation Matrix ve Heatmap Korelasyonu ve ısı haritasını kullanarak önemli değişkenler bulunabilir.   Feature Selection Metotları   Filter Methods […]

Merkezi Eğilim Ölçüleri

Loading

1.Giriş Veri üzerinde sadece frekans dağılımlarına ve grafiklere bakılmaz. Veri hakkında genel durumu yansıtacak bir takım ölçülere gereksinim vardır. Öyle ölçüler ki, yalnızca veriler özlü bir biçimde belirtmekle kalmasınlar, yapılacak karşılaştırmalara, genellemelere, yorumlara olanak sağlasınlar. Burada nicel değişkenlere ilişkin ölçüler incelenecektir. Nicel dağılımlarda kullanılacak ölçüler dağılımın odaklaşma noktasını özetlemelidir. Bu tür ölçülere merkezi eğilim ölçüleri denir. Bu […]

Frekans (Sıklık) Dağılımı ve R Uygulaması

Loading

Derlenen veri üzerinde herhangi bir işlem yapılmamışsa bunlara ham veri ya da sınıflandırılmamış (gruplandırılmamış) veri denir. Birim sayısı az olan yığınların çeşitli özellikleri ham veriye dayanarak kolaylıkla belirtilir. Yığın çok sayıda birimden oluşuyorsa, bunları sınıflandırmakla yığının çeşitli özelliklerini belirlemek kolaylaşacaktır. Sınıflandırmanın en doğru yolu frekans tablosudur. Burada, gözlenen veri sınıflara ayrılır. Sonuçlanan tablo her bir sınıftaki gözlem sayısını verecektir. […]

R ile Veri Manipülasyonu: Uygulama 2

Loading

Başlatmış olduğum “Lanet Veriler” serisinin ikinci yazısına hoş geldiniz. Bu yazıda lanet olası federallerin canlarına okumaya çalışacağız! FBI Verisi Amerika Birleşik Devletleri Bölgelerinde Suç, Coğrafi Bölüm ve Eyalet, 2015–2016 Veri Seti: https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-2 Açıklamalar Bir veri ile işlem yapmadan önce mutlaka o verinin ne olduğunu, neyi ifade ettiğini anlamaya çalışalım! İnternet sitesindeki bazı açıklamaları veriyi anlamak […]

R ile Veri Manipülasyonu | Bölüm 3/3

Loading

En önemli bölümümüz birinci bölümdü. Temel prensipleri anladığımız taktirde işlemleri bir şekilde yapabiliriz, geri kalan kısım ise bu prensipleri uygulayacağımız kısımlardır. Burada çok detaya girmeden metin manipülasyonu için bazı fonksiyonları anlatacağız. Ardından ise eksik gözlem, aykırı gözlem ve bazı bariz hatalardan bahsedeceğiz. 5. Metin Manipülasyonu Verilerde metinler başlı başına bir problem bu yüzden yeri geldiğinde […]

R ile Veri Manipülasyonu | Bölüm 2/3

Loading

Veri Bilimi maceramızda bir önceki bölümde veri manipülasyonun öneminden ve prensiplerden bahsetmiştik. Bu bölümde ise dağınık veri setlerinden ve değişken dönüşümlerinden ve tarih formatından bahsedeceğiz. 3. Dağınık Verilerin Ortak Belirtileri Şuana kadar yaptıklarımızı kısaca örnekler üzerinde görelim. Sütun başlıkları birer değerdir, değişken ismi değildir! kisi_dirty ## kisi cinsiyet ela mavi yesil boy yas ## 1 […]

R ile Veri Manipülasyonu | Bölüm 1/3

Loading

Elimizde her zaman iyi bir veri seti olmayacaktır. Özellikle bazı veriler için uzun ve yorucu veri manipülasyonları yapıldıktan sonra analiz, modelleme ve görselleştirme aşamasına geçilecektir. Bu yüzden veri manipülasyonu ve tidy data (düzenli veri) formatının veri bilimci adayları tarafından iyi bir şekilde benimsenmesi gerekiyor. Dirty Data İşte mükemmel olmayan bir veri seti karşınızda ! weather […]

R ile Veri Manipülasyonu: Uygulama

Loading

Elimizde tarihsel Boston hava durumu verisi var. 2014 Aralık’tan başlayarak 12 aylık bir veri, Dirty Data formatında, Sütun isimleri birer değer, Değişkenler yanlış kodlanmış, Eksik ve Aykırı gözlemlerimiz bulunmakta, ve daha nice problemler. AMACIMIZ: Veriyi analiz edebileceğimiz bir formata çevirmek. Veri manipülasyonu için üç aşamayı takip edeceğiz. Ham verileri keşfetmek Düzenli veri formatı – Tidy data […]

R ile Metin Madenciliği | Bölüm 6/6

Loading

Bölüm 5/6’da düzenli yapıda olmayan metin verilerini, çeşitli araçlarla nasıl düzenli hale getirebileceğimizi öğrendik. Bu bölümde bahsi geçen dönüştürme araçlarının konu modellemesi üzerinde metin analizine katkısı anlatılacaktır. 6. Bölüm – Konu Modellemesi – Topic Modelling Metin madenciliğinde , döküman topluluklarını yani blog gönderileri veya haber makaleleri gibi metinleri anlayabilmek için doğal gruplara ayırmamız gerekir. Konu […]

R ile Metin Madenciliği | Bölüm 5/6

Loading

5. Bölüm – Düzenli Olmayan Veri Formatını Dönüştürme Önceki bölümlerde, unnest_tokens işlevi tarafından düzenli metin formatına getirilmiş metinleri analiz ettik. Ayrıca metin verilerini keşfetmek ve görselleştirmek için dplyr, tidyr ve ggplot2 gibi araçlar ile analizlerimizi zenginleştirdik. Yukarıdaki şema tipik bir metin analizinin akış şemasıdır. Bu bölümde döküman-terim matrisleri ve düzenli veri setleri arasında dönüştürme ve […]

R ile Metin Madenciliği | Bölüm 4/6

Loading

4. Bölüm – Kelimeler Arasındaki İlişkiler: n-gram ve Korelasyon Şuana kadar kelimeleri birer birim olarak ele aldık ve kelimelerin duygularını veya belgelerle olan ilişkilerine baktık. Bununla birlikte metin analizi aynı zamanda kelimeler arasındaki ilişkilere dayanır, hangi kelimelerin diğerlerini takip etme eğiliminde olduğunu veya aynı belgelerde birlikte olma eğilimini gösterir. Bu bölümde kelimeler arasındaki ilişkileri hesaplama […]

R ile Metin Madenciliği | Bölüm 3/6

Loading

Önceki yazılarda metin madenciliği üzerine genel girişi yaptığımıza göre yavaş yavaş işi ilerletme zamanı geldi, ama önceki konuda neler yaptığımızı hatırlayalım. Duygu analizinin ve duygu sözlüklerinin ne olduğunu, karşılaştırmalar ve görselleştirmeler üzerinden anlattık. Şimdi ise, belge koleksiyonlarından nasıl bilgi çıkarımı yapacağımızı keşfedelim. 3. Bölüm – Kelime ve Belge Sıklıklarını Analiz Etme: tf-idf Doğal Dil İşlemenin […]

R ile Metin Madenciliği | Bölüm 2/6

Loading

Önceki yazımız, Bölüm 1/6’da metin yapılarının ve düzenli metin formatının ne olduğundan bahsettik. Temel amacımız, tidytext kütüphanesi ile metinleri parçalamak ve kelime frekanslarını elde etmek. Bu yazı serisinde, tidytext kütüphanesi ile birlikte bolca dplyr ve ggplot2 kütüphaneleri kullanılacaktır. Bölüm 2/6’da ise bir metni anlamlandırmanın en kolay ve uygun yolu olan “Duygu Analizini” (sentiments analysis) öğreneceğiz. […]

R ile Metin Madenciliği | Bölüm 1/6

Loading

Bu uzun yazı serisi “Tidy Text Mining with R” kitabının derlenmesinden ortaya çıkmıştır. https://www.tidytextmining.com/ Her istatistiksel yöntem gibi temel amacımız, metin içerisinden anlamlı sonuçlar ortaya çıkarmaktır ve metin üzerinde yapılacak işlemlere de metin madenciliği adı verilir. Aşağıdaki kütüpaneler bu kitap içerisinde gerekli olan tüm kütüphanelerdir. library(dplyr) # Veri Manipülasyonu library(tidytext) # Düzenli Metin Araçları library(janeaustenr) […]

R ile Veri Görselleştirme

Loading

Her verinin bir hikayesi vardır. Bu hikayeyi en doğru şekilde aktarabilmek için veri işleme süreçlerimizin iyi bir şekilde birbirini takip etmesi gerekir. Hadley Wickham’ın R for Data Science kitabındaki veri işleme süreci şeması hikayeyi nasıl anlatacağımızı güzel bir şekilde özetlemiş. Temel olarak amacımız veri seti içerisindeki detayları ortaya çıkarmak ve genel resmi görmeye çalışmaktır. Buradan […]

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character