Dengesiz Veri Setlerinde Modelleme

Bu yazıda dengesiz veri setlerinde yaşanılan sorunları gidermek için kullanılan çözüm yöntemlerinden bahsedilecektir. Öncelikle dengesiz verinin ne olduğu ve nasıl sorunlara yol açabileceğinden bahsedilecek, daha sonra “veri seviyesinde çözüm” ve “maliyet duyarlı çözüm” yöntemleri üzerinde durulacaktır.

1.Dengesiz Veri Seti Nedir?

Dengesiz veri problemi olarak bilinen sınıf dengesizliği, veri bilimi projeleri çerçevesinde dikkat edilmesi gereken bir sorundur. Sınıflandırma algoritmalarının çoğu, eğitim setlerinin iyi dengelendiğini varsayar. Algoritmaların amacı, genellikle, doğru tahmin oranını maksimize etmektir. Ancak varsayılan bu dengeli dağılım çoğu zaman gerçek hayattaki veri kümelerinde bulunmaz. Sınıflardan biri çok az örnekle temsil edilebilirken, diğer sınıf çok sayıda örnekle temsil edilir. Bu durumda sınıflandırmada sorunlar ortaya çıkabilir. Etiket bilgisi az olan örnekler için model yeterince eğitilmediği için modelin bu grup için hatalı tahminler yapması muhtemeldir.

Kredi kartı sahtekarlığı tespiti, kanser hastalığı teşhisi gibi uygulama alanlarında proje azınlık sınıfına odaklanır. Diğer bir deyişle, sınıflandırmanın amacı azınlık olan sınıfı ayırt etmektir.

Bir hastalık teşhisi göz önüne alındığında, bir hastalık vakasını hasta değil olarak sınıflandırmak, hasta olmayan bir vakanın hasta olarak teşhis edilmesinden çok daha ciddidir. Ancak veri setinde dengesiz bir dağılım bulunduğunda ve azınlığın yanlış sınıflandırılması çoğunluğun yanlış sınıflandırılmasından daha ciddi olduğu durumda sorun ortaya çıkmaktadır. Daha önce de bahsedildiği gibi, standart bir sınıflandırıcının amacı genel doğruluğu maksimize etmek olduğundan, sınıflandırıcı veri sayısı çok olan sınıfı  daha iyi öğrenecektir ve bu eğitimin sonucu “çoğunluk sınıfı için düşük hata oranı”, ancak “azınlık sınıfı için daha yüksek hata oranı” olacaktır. Özetle, sınıflandırıcı tüm örnekleri yüksek doğruluk sağlayan çoğunluk olarak sınıflandırma eğiliminde olacak, ancak bu arada azınlık örneklerini kaçıracaktır.

2.Dengesiz Veri Setlerinin Üstesinden Gelme

Dengesiz veri kümesi problemin üstesinden gelmek için birçok strateji geliştirilmiştir. Geliştirilen bu yaklaşımlar, veri seviyesinde ve maliyet duyarlı çözüm olmak üzere iki bölümde incelenebilir.

Görsel Kaynak: https://towardsdatascience.com/dealing-with-class-imbalanced-datasets-for-classification-2cc6fad99fd9

2.1.Veri Seviyesinde Çözüm

 

Dengesiz bir veri kümesi ile çalışırken kullanılabilecek ilk yöntem verileri yeniden örnekleyerek sınıf dağılımlarını ayarlamaktır. Bu yöntemler, eksik örnekleme(undersampling), aşırı örnekleme(oversampling) ve bazı gelişmiş örnekleme teknikleridir.

Eksik örnekleme, sınıf dağılımları eşit olana kadar çoğunluk olan sınıfının örneklerini ortadan kaldırarak veri kümesini yeniden dengelemeyi amaçlar. Bu yöntemin en büyük dezavantajı, yetersiz gözlem sayısı olan projelerde katkı sağlayabilecek gözlemleri de veri setinden kaldırmasıdır. Ayrıca, az sayıda gözlemin olduğu durumunda örnek uzayın rastgeleliği zarar görebilir.

Aşırı örnekleme, eşit sınıf dağılımları elde edilene kadar azınlık sınıfının örneklerini çoğaltır. Bu konudaki yöntemlerinin çoğu, azınlık sınıfının örneklerini kopyaladığından, aşırı öğrenme(overfiting) olma olasılığı artar. Ayrıca, yüksek düzeyde dengesiz dağılıma sahip büyük bir veri kümesi olması durumunda, aşırı örnekleme hesaplama açısından çok maliyetli olabilir.

Eksik ve aşırı örneklemeye ek olarak, “gelişmiş örnekleme teknikleri” olarak adlandırılan, dağılımların yeniden dengelenmesinde keşifsel yöntemler kullanan başka örnekleme yöntemleri de vardır. Tek Taraflı Seçim, Tomek Bağlantıları, SMOTE bu konuya örnek yöntemleridir.

Yukarıda bahsedilen yaklaşımlarının yanı sıra, kümeleme tabanlı yeniden örnekleme, boosting ile örnekleme gibi yaklaşımlar da kullanılabilmektedir.

2.1.1.SMOTE

SMOTE(Synthetic Minority Over-Sampling Technique), sentetik veri üretilmesini sağlayan bir aşırı örnekleme sürecidir. Veri bilimi projelerinden en sık kullanılan yöntemlerden biridir.

Yöntemin ana fikri, azınlık sınıfının örnekleri arasında belirli işlemler yaparak yeni azınlık sınıfı örnekleri yaratmaktır.

Sentetik örnekler şu şekilde üretilir:

  1. İncelenen öznitelik vektörü(𝐸𝑖) ile en yakın komşusu arasındaki farkı alınır,
  2. Bu farkı 0 ile 1 arasında rastgele bir sayı(𝛿) ile çarpılır,
  3. Çıkan sonuç incelenen özellik vektörüne eklenir ve yeni örnek oluşur.

 

 

Gereken aşırı örnekleme miktarına bağlı olarak, en yakın k komşudan komşular rastgele seçilir. Bu işlem, aşırı öğrenme sorununun önüne geçer ve iyi bir sınıflandırma performansı ile sunar.

2.2.Maliyet Duyarlı Çözüm(Cost-sensitive Learning)

Bir diğer yaklaşım olan maliyete duyarlı tekniklerde ise, sınıflar ya da gözlemler ağırlıklandırılarak model öğrenme aşamasında iyileştirilir.

Bu yöntem, yanlış sınıflandırma gözlemleriyle ilişkili maliyeti değerlendirir. Dengeli veri dağılımı oluşturmaz. Bunun yerine, belirli bir senaryoda yanlış sınıflandırmanın maliyetini tanımlayan maliyet matrislerini kullanarak dengesiz öğrenme sorununu değerlendirir.

Modelde, yanlış sınıflandırma maliyetleri, bir örneğin j sınıfına ait olduğunda i sınıfında olduğunu tahmin etmenin maliyetini ifade eden C(i, j) ile bir maliyet matrisi olan C olarak tanımlanır. Matriste köşegen elemanlar sıfırdır, yani gerçek sınıflandırmanın maliyeti yoktur.

Diğer bir deyişle, x örneğinin i sınıfına ait olduğunu tahmin etmenin bir beklenen maliyeti vardır. Bu yanlış sınıflandırma maliyet değerleri, alan uzmanları tarafından verilebilir veya farklı yaklaşımlarla sisteme tanıtılabilir. Maliyet matrisi göz önüne alındığında, bir örnek, beklenen en düşük maliyete sahip sınıfa sınıflandırılmalıdır.

3.Sonuç

Sınıflandırma problemlerinde tahminlenecek gruplardan biri diğerinden/diğerlerinden dikkat çekici şekilde fazla olabilir. Bu durumda makine öğrenmesi algoritmaları genellikle veri sayısı çok olan sınıfı fazla, veri sayısı az olan sınıfı eksik öğrenecektir. Dolayısıyla tahminleme yapılırken azınlık sınıfın doğruluk oranı düşük olacaktır. Bu durumun önüne geçilmesi için yazıda, sınıflar arası farkların azaltıldığı “veri seviyesinde çözüm” ve belli ağırlıklandırma yöntemleri ile sorunun çözülmeye çalışıldığı “maliyet duyarlı çözüm” üzerinde durulmuştur. Bu yöntemlerden hangisinin seçileceği elde bulunan veri setine ve çalışmanın amacına göre değişebilir. Uygun yöntem kullanıldıktan sonra kurulan modeller, bu yöntemler uygulanmadan kurulan modellere kıyasla genel doğruluk oranına göre daha düşük olsa da daha dengeli tahminler yapacak, azınlık sınıfı eskisine göre daha iyi öğrenecektir.

Bir bir sonraki yazıda dengesiz sınıflara sahip bir veri seti ile uygulama yapılacak ve veri seviyesinde çözüm yöntemleri ile bu yöntemler kullanılmadan oluşturulan modeller karşılaştırılacaktır.

4.Kaynakça

SVM Classification for Imbalanced Datasets with Multi Objective Optimization Framework-Ayşegül Öztürk

Kayıp Gözlem İçeren Dengesiz Veri Setlerinin Topluluk Öğrenme Algoritmaları ile Sınıflandırılması- Enis GÜMÜŞTAŞ

A Comparison of Classification Models for Imbalanced Datasets- Sergei Kurin

Gürültülü Gözlemler Durumunda Dengesiz Veride Öğrenme için Yeni Bir Yaklaşım-Fatih Sağlam

Combinatıon of PCA with Smote Oversampling for Classification of High-Dimensional Imbalanced Data- Guhdar Abdul-Aziz Ahmed MULLA

 

Emre Rıdvan Muratlar

Yazar Hakkında
Toplam 11 yazı
Emre Rıdvan Muratlar
Emre Rıdvan Muratlar
2016 yılından bu yana finans sektöründe veri bilimi üzerine çalışmaktadır. Yıldız Teknik Üniversitesi İstatistik bölümü doktora öğrencisidir.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara