Feature Selection
- Univariate Selection
İstatistiksel testler ile bağımsız değişkenlerin bağımlı değişken ile güçlü ilişkileri ortaya çıkartılabilir.
Örneğin, ki-kare testi ile değişkenlerin önem skorları bulunabilir.
Ayrıca Veri Görselleştirme ile özellik seçimine yardımcı olunabilir.
- Feature Importance
Feature Importance skorları hesaplanır.
- Correlation Matrix ve Heatmap
Korelasyonu ve ısı haritasını kullanarak önemli değişkenler bulunabilir.
Feature Selection Metotları
- Filter Methods
Filter metodu veri ön işleme aşamasında yapılır.
Sürekli ve Kesikli değişkenlere göre Filter yöntemleri aşağıdaki tablodadır.
Korelasyon ile değişkenlerin birbirleri arasındaki ilişkiler ortaya çıkartılır.
LDA: Diskriminant analizi, ayırıcı fonksiyon analizi olarak da adlandırılabilir. Veri setinde bulunan verilerin değişken gruplarına atanırken taşıdığı özelliklere göre ayrımını yapar. Diskriminant analizi bir kategorik bağımlı değişken ile sayısal değerler alan bağımsız değişkenler arasında yapılır. Diskriminant analizi bağımsız değişkenlerin bağımlı değişkenleri etkilemelerine göre ya aynı ya da farklı gruplara göre sınıflandırılmasını sağlar.
Diskriminant analizinin amacı;
- Sınıflanıp, sınıflanılmayacağını test etmek
- Değişkenleri Sınıflamak
- Gruplar arasındaki farklılıkların incelenmesi
- Bağımlı değişkende, bağımsız değişkenlerce açıklanan varyansı göstermek
- Bağımlı değişkene göre yapılan sınıflandırmada, bağımsız değişkenlerin öncelik sırasını irdelemek
- Grupları ayırırken önemi düşük olan (önemsiz olan) değişkenleri elemek
ANOVA ve MANOVA: ANOVA, 3 ya da daha çok grup arasında, belirli bir değişkene dayalı olarak farklılık olup olmadığını belirlemek amacıyla kullanılır. MANOVA, birden fazla bağımlı değişkenin bulunduğu deneylerde varyans analizi yapmak için kullanılan bir tekniktir. ANOVA’ dan tek farkı, birden fazla bağımlı değişkenin olmasıdır.
ANOVA, LDA yöntemine benzer. İki yöntemde bir ya da daha fazla kategorik bağımsız değişkenlerin bağımlı değişkenle olan analizidir. ANOVA, gruplar arasındaki ortalamanın eşit olup olmadığına bakar.
Chi-Square: Kategorik değişkenlerin frekans dağılımını kullanarak gruplar arasındaki ilişkileri göstermek için kullanılır.
Ayrıca Information Gain’e de bakılır.
NOT: Filter metotları Çoklu Doğrusal Bağlantıyı önlemez. Bu yüzden modeli kurmadan önce ÇDB için ayrıca çalışmak gerekir.
- Wrapper Methods
Stepwise yöntemleridir. Özelliklerin modele eklenip çıkartılmasıyla en iyi model bulunmaya çalışılır. Hesaplanması uzun sürer.
- Forward Selection
- Backward Elimination
- Recursive Feature Elimination: Greedy Optimizasyon Algoritması en iyi performans gösterecek featureları bulmaya çalışır).
Wrapper yöntemlerinde Boruta algoritması iyi performans gösterir.
- Embedded Methods
Embedded metodları Filter ve Wrap metodlarının bir arada kullanımı. Popüler olan embedded yöntemler LASSO, Elastic Net ve RIDGE Regresyon’dur. Cezalandırma parametreleri ile overfittingi azaltır.
Ayrıca Regularized trees, Memetic algorithm, Random Multinomial Logit yöntemleri de embedded metoda girer.
Filter ve Wrapper Metodlar Arasındaki Farklar
- Filter yöntemlerde bağımsız değişkenlerin bağımlı değişken ile olan ilişkisine bakılır. Wrapper yönteminde değişkenlerin modeled işe yarayıp yaramayacağına bakılır.
- Filter yöntemler Wrapper yöntemlerine göre daha kolay ve hızlıdır. Ancak wrapper yöntemler gibi modelin eğitilme aşamasına dahil olmazlar.
- Filter yöntemleri istatistiksel metodları kullanarak özelliklerin alt kümelerini oluşturur. Wrapper yöntemler ise Cross Validation kullanır.
- Filter yöntemler en iyi özellikleri seçmede başarısız olabilir ancak Wrapper yöntemler her zaman en iyi özellikleri sağlar.
- Filter yöntemlerine kıyasla Wrapper yöntemlerini kullanılması overfitting eğilimi vardır.
NOT: Tüm bu yöntemler dışında özellik seçimi için gerekli iş bilgisine sahip olmalıyız.