Makine Öğrenmesine Çok Değişkenli İstatistiksel Yaklaşımlar: Uyum Analizi

GİRİŞ

Uyum Analizi nedir? Nasıl hesaplanır? Faydaları nelerdir? Nasıl uygulanır?

Analitik çalışmaların ve istatistiğin temel amaçlarından birisi değişkenler arasındaki ilişkiyi incelemektir. Bu sayede değişkenler arasındaki ilişki keşfedilir ve analizi yapan kişi veri seti hakkında fikir sahibi olur.

İncelenen değişkenlerin kategorik olduğu durumlarda, değişkenler arasındaki ilişki genellikle ki-kare analizi ile incelenmektedir. Ancak ki-kare analizi satır ve sütundaki kategori sayısının çok fazla olması halinde yorumlaması güç hale gelmektedir. Bu durumda uyum analizi, kategorik verilerin yorumlanmasını kolaylaştıran ve veri analizine grafiksel yaklaşım sunan çok değişkenli bir analiz yöntemi olarak karşımıza çıkar.

Uyum analizinin temel amacı iki veya daha fazla kategorik değişken arasındaki ilişkiyi daha az boyutlu bir uzayda göstererek analiz etmektir.

Verilerin boyut indirgenerek incelenmesi bakımından Temel Bileşenler Analizi(Principal Component Analysis) ve Çok Boyutlu Ölçeklendirme’ye(Multidimensional Scaling) benzediği söylenebilir. Bu analizler arasındaki temel fark veri tipidir. Temel Bileşenler Analizi ve Çok Boyutlu Ölçeklendirme’de –analizlerin özel halleri dışında- sürekli(continuous) değişkenler kullanılmaktadır. Temel Bileşenler Analizi konulu yazıma link‘ten ulaşabilirsiniz.

Uyum analizi, analiz edilen değişken sayısına göre farklı şekillerde adlandırılmaktadır. Değişken sayısı 2 olduğunda Basit Uyum Analizi(Correspondence Analysis), 3 veya daha fazla değişken olduğunda ise Çoklu Uyum Analizi(Multiple Correspondence Analysis) adını almaktadır.

Uyum analizi, üzerinde kısıtlama ve varsayımların oldukça az olduğu bir analizdir. Analiz yapılabilmesi için verilerin çapraz tablo haline getirilmesi gerekmektedir. Analizin tek varsayımı ise çapraz tablodaki frekans sayılarının pozitif sayılar olmasıdır. Bunun dışında herhangi bir varsayım ya da kısıt bulunmamaktadır.

UYUM ANALİZİ NEDİR? NASIL HESAPLANIR?

Uyum analizinin süreci aşağıda gösterildiği gibi üç aşamadan oluşmaktadır.

Uyum Analizi Hesaplama Akışı
  • Satır ve sütun profilleri hesaplanır.
  • Satır ve sütun profilleri iki-boyutlu uzayda ayrı ayrı resmedilir.
  • Satır ve sütun profilleri iki boyutlu ortak bir harita üzerinde gösterilir.

Uyum analizinde harita adı verilen bu grafiklerin gözlemlenen frekanslara göre değil, frekansların satır içindeki önemini gösteren satır profillerine ve benzer şekilde frekansların sütun içindeki önemini gösteren sütun profillerine göre hazırlanmaktadır. Bu nedenle Uyum Analizi’nin anlaşılabilmesi için profil, ağırlık, ki-kare uzaklığı ve inertia gibi dört temel kavram hakkında fikir sahibi olunmalıdır.

Profil

Bir çapraz tablonun yorumlanmasında gözlemlenen frekansları yorumlamak doğru değildir. Çünkü her bir satır ve sütun farklı sayıda yanıt içerir.

Uyum analizi çapraz tablodaki frekansların oranlara dönüştürülmesiyle başlar. Bu aşamada satır toplamlarına göre elde edilen satır yüzdelerine satır profilleri, sütün toplamlarına göre elde edilen sütun yüzdelerine ise sütun profilleri denir. Ortalama satır profili, sütun toplamlarının genel toplama oranı, ortalama sütun profili ise satır toplamlarının genel toplama oranı olarak tanımlanmıştır. Ki-kare uzaklığı hesaplanırken bu ortalama profiller kullanılmaktadır.

Ağırlık

Ağırlık analizdeki profillerin önemini gösteren bir ölçüdür. Satır veya sütün toplamının tüm toplama oranlanması ile hesaplanır. Satır ağırlıkları ortalama sütun profiline, sütun ağırlıkları ise ortalama satır profiline eşittir. Her bir satır toplamının tüm toplama oranlanmasıyla her bir satırın ağırlığı, her bir sütunun tüm toplama oranlanmasıyla da sütün ağırlıkları bulunur. Bu ağırlıklandırma sisteminin amacı, her bir yanıtın her bir profil noktasına eşit katkıda bulunmasını sağlamaktır.

Uzaklık

Uyum Analizi ki-kare uzaklığı temeline dayanmaktadır. Ki-kare uzaklığı Öklit uzaklığının ağırlıklandırılmış halidir. Burada ağırlıklandırma, profillerin kendi arasındaki ağırlıklandırmayı değil, uzaydaki boyutların farklı ağırlıklandırmasını gösterir. Böylece daha az sıklıkla ortaya çıkan yanıt seçeneklerinin profiller arası uzaklığa katkısının daha yüksek, daha fazla sıklıkla ortaya çıkan yanıt seçeneklerinin ise, daha az katkı sağladığı anlamı ortaya çıkar.

İnertia

Uyum Analizi’nde varyans kavramı ki-kare uzaklıkları ile ilgilidir. Bunun için genellikle inertia terimi kullanılır. İnertia’nun yüksek olması istenir. Bu, satır noktalarının merkeze olan ki-kare uzaklıklarının artması ile mümkün olur.

Toplam inertia değeri sıfıra yaklaştıkça, satır profilleri merkez etrafında toplanacak, toplam inertia değeri sıfırdan uzaklaştıkça satır profilleri de o ölçüde merkezden uzaklaşacaktır.

UYUM ANALİZİ R UYGULAMASI

Çalışmada “Telco Customer Churn” veri seti kullanılmıştır. Veri setinde 16 kategorik, 3 sürekli bağımsız değişken bulunmakta ve bu değişkenler kullanılarak müşterinin churn edip etmediğinin tahminlenmesi amaçlanmaktadır. Veri setine link‘ten ulaşabilirsiniz.

data=read.csv(Telco-Customer-Churn.csv')
#veri setinde bulunan değişkenler gösterilmiştir.
colnames(data)

Çalışmada örnek olması amacıyla “PaymentMethod” ve “Contract” değişkenleri kullanılacaktır.

#"PaymentMethod" ve "Contract" değişkenleri seçilmiştir.
library(dplyr)
selected_columns=data %>%  select(PaymentMethod, Contract)
#Seçilmiş veri setinin ilk 5 satırı gösterilmiştir.
head(selected_columns)
#Uyum Analizi uygulanabilmesi için veriler çapraz tabloya dönüştürülmüştür
crosstab=table(data$PaymentMethod, data$Contract)
crosstab

Veri, analiz yapılabilmesi için çapraz tablo haline dönüştürülmüştür.

#Uyum Analizi için gerekli kütüphane eklenmiş ve analiz yapılmıştır.
library("FactoMineR")
res.ca <- CA(crosstab, graph = FALSE)

“FactoMineR” kütüphanesinden oluşturulan Uyum Analizi sonucu yine aynı kütüphane ile görselleştirilebilmektedir. Ancak “factoextra” kütüphanesi daha açıklayıcı grafikler sunmaktadır.

#factoextra kütüphanesi eklenmiş ve Uyum Analizi görselleştirilmiştir.
library("factoextra")
fviz_ca_biplot(res.ca, repel = TRUE)

SONUÇ

Değişkenler Uyum Analizi’ne göre grafiklendirilmiştir. Sonuçların daha kolay yorumlanabilmesi amacıyla kırmızı kümeler grafiğe eklenmiştir. Analize göre -genellikle- aylık kontratı olanlar elektronik çek, kontratı 1 yıllık olanlar çek veya kredi kartı, kontratı 2 yıllık olanlar ise banka havalesi ile ödeme yapmaktadır.

KAYNAKLAR

  1. Kategorik Verilerde Boyut İndirgeme Yöntemi: Çoklu Uyum Analizi Ve Sağlık Bilimlerinde Beslenme Üzerine Bir Uygulama – Emrah Gökay Özgür (Yüksek Lisans Tezi)
  2. https://dergipark.org.tr/tr/download/article-file/55411
  3. http://dergiler.ankara.edu.tr/dergiler/15/1283/14825.pdf
  4. http://ybsansiklopedi.com/wp-content/uploads/2015/09/1uyumanalizi.pdf
  5. https://www.researchgate.net/publication/239542271_Multiple_Correspondence_Analysis

Yazar Hakkında
Toplam 11 yazı
Emre Rıdvan Muratlar
Emre Rıdvan Muratlar
2016 yılından bu yana finans sektöründe veri bilimi üzerine çalışmaktadır. Yıldız Teknik Üniversitesi İstatistik bölümü doktora öğrencisidir.
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara