Veri Bilimi Yarışmasını Nasıl Kazandım III

HAZIR MIYIZ ???

Bu bölümde tünelin ucunu görmeye başlıyoruz. “Yolun üstesinden yürüyen gelir” diyerek değişken seçimiyle devam edelim.

Hangi nitelikler bağımlı değişkenizimi açıklıyor, nitelikler birbirinden bağımsız mı? Aklımıza ilk olarak faktör analizi geliyor. Verimiz faktör analizi varsayımlarından biri olan çok değişkenli normal dağılmadığı için, diğer bir ifadeyle veri pearson korelasyon katsayısını uygulayabilecek özelliklere sahip olmadığından faktör analizi uygulayamıyoruz. Ayrıca faktör analizi bağımsız değişkenler arasındaki ilişkiyi baz alıyor. Biz hem bağımlı değişkenin niteliklerle ilişkisini hem de niteliklerin kendi aralarında ilişkisini göz önünde bulundurarak boyut indirgeyeceğiz.

Bu işlemi iki aşamada gerçekleştirdim. İlk olarak bilgi teorisine dayalı akabinde model bazlı bir yöntem kullandım.

Neden Bilgi Teorisini kullanıyoruz?

Çok boyutlu veri kümelerinin hızlı bir şekilde araştırılabilmesi için özel tasarlanmış iki değişkenli bağımlılığın ölçüsünü kullanıyoruz. Pearson korelasyon katsayısı iki normal dağılan nümerik değişkenler arasındaki doğrusal ilişkinin ölçüsüdür. Varsayımlar sağlanmadığında, aradaki ilişki doğrusal olmadığında; korelasyonun ötesinde fonksiyonel bir ilişki varsa MIC(mutual information coefficent) veya diğer bilgi ölçümlerini(entropi, gain ratio vs.) kullanabiliriz.

Boruta Paketiyle Nitelik Seçimi

Nasıl çalışır?

İlk olarak, tüm özelliklerin (gölge özellikleri olarak adlandırılır) karıştırılmış kopyaları oluşturarak verilen veri kümesine rasgelelik ekler. Yani veriyi çoğaltır.

Ardından, genişletilmiş veri kümesinde rastgele bir orman sınıflandırıcıyı eğitir.

Her yinelemede, gerçek bir özelliğin, gölge özelliklerinin en iyisinden daha yüksek bir öneme sahip olup olmadığını kontrol eder (yani özelliğin, gölge özelliklerinin maksimum Z puanından daha yüksek bir Z puanına sahip olup olmadığına bakar) ve son derece önemsiz kabul edilen özellikleri sürekli olarak kaldırır.

Son olarak, algoritma ya tüm özellikler onaylandığında ya da reddedildiğinde ya da belirli bir orman koşusu sınırına ulaştığında durur. Algoritma çalışma sonunda bize aşağıdaki bilgileri verir:

Confirmed: Onaylanan değişkenleri ifade eder. Yani modelimizde kullanabileceğimiz bir değişken olduğunu gösterir.

Tentative: Geçici olarak onaylanan değişkenlerdir.

Rejected: Onaylanmayan değişkenlerdir. Yani modelimizde kullanmayacağımız değişkenlerdir.

 

Eee bitti mi? Modele gidiyor muyuz???

Son bir çukur daha vardı.

Mahalle değişkenini fiyat dağılımına göre kümeledim. Farklı kümeleme yöntemlerini kullanarak sonuçları karşılaştırdım; 734 mahalleyi 15 grupta topladım, grupları veriyle birleştirdim. Her mahalle için ayrı model çalıştırmak yerine grupları modele değişken olarak verdim.

Model Kurulumu

Çalışmamda LASSO, ELASTIC.NET ve RANDOM FOREST olmak üzere üç model kullandım.

Bu algoritmalar birden çok model kuruyor. Lasso Model ve Elastik Net birden fazla model kurup en düşük hataya sahip modeli kullanabiliyoruz. Veride özellik sayımız arttıkça, normallik, sabit varyans gibi varsayımlar sağlanmadığında lineer regresyon bizim için eksik kalıyor.

Lasso model aşırı uyumu önlüyor sadece model katsayılarının yüksek değerlerini cezalandırmakla kalmayıp aynı zamanda uygun olmadıklarında onları sıfıra ayarlayarak Ridge regresyonunun dezavantajını ortadan kaldırır.

Elastik Net modeli ridge regresyon ve lasso modelin melezidir. Lasso model gibi sıfır değerli katsayılar oluşturarak azaltılmış modeller üretebilir. Aynı zamanda yüksek ilişkili tahmin edicileride eler. Yine aşırı uyumu önlüyor.

Random Forest, tahmin işlemi esnasında birden fazla karar ağacı üreterek tahmin değerini yükseltmeyi hedefleyen bir algoritmadır. Bireysel olarak oluşturulan karar ağaçları bir araya gelerek karar ormanı oluşturur. Buradaki karar ağaçları bağlı olduğu veri setinden rastgele seçilmiş birer alt kümedir. Topluluğa ağaçlar eklendikçe, test setine ait hata tahmini için yanlılığı düşük sonuçlar vermeye başlar. (Regresyon karar ağaçları bizi sonuca götürecek karar ormanı topluluğunu oluşturur. Karar ormanı oluşumu sırasında elde edilen sonuçlar bir araya getirilirken son tahmin yapılır.)

İçlerinden en düşük test hatasına sahip RANDOM FOREST modelini baz alarak raporumu sonlandırdım.

Bitmişti…

Çözemediğim problemlerle gece rüyalarımda savaşım, sabah kalktığımda gün içinde yaşadığım aydınlanmalar, kafamda deli sorular… 😀

 

Yazar Hakkında
Toplam 10 yazı
Tuğbanur GÜVELİ
Tuğbanur GÜVELİ
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara