Lojistik Regresyon ve K-En Yakın Komşu
Lojistik Regresyon
Hatırlayacağımız gibi lineer regresyonda hem bağımlı hem de bağımsız değişkenlerimiz nicel değişkenler olmak durumundaydı. Ancak gerçek hayatta çoğu zaman nitel değişkenlerle karşılaşmaktayız. İşte lineer regresyonun pas geçtiği bu duruma çareyi lojistik regresyonda buluyoruz. Hedef değişkenimiz (bağımlı – y) binary (evet-hayır, var-yok) olsun. Lojistik regresyon kendisine verdiğimiz eğitim verilerinden yola çıkarak bir kaydın evet-hayır veya var-yok gibi iki durumdan her birine ait olma olasılıklarını bize söyler. Lojistik regresyon lineer regresyonun istediği varsayımları istemediğinden daha kolay kullanılır. Lojistik regresyon ile lineer regresyon arasındaki en büyük fark; lojistik regresyonda hedef (bağımsız) değişkenin kategorik, çoğunlukla binary (evet-hayır, var-yok) olmasıdır. Lineer regresyonda ise bağımsız değişken süreklidir (875,96 TL, 15 kg vb.). Ayrıca lineer regresyon veri setinde normal dağılım ister. Lojistik regresyon böyle bir şey istemez. Lojistik regresyona lojistik dediğimize bakmayın, aslında kelime Logaritmanın Log’undan, logistik fonksiyondan türemektedir. Logistik fonksiyonun özelliği, o ile 1 arasında değer üretmesidir. Lojistik regresyonu daha iyi anlamak için odds ve odds ratio kavramlarını da açıklamak istiyorum. Olasılık 0 ile 1 arasında bir değerdir. Örneğin bir zar atıldığında 1 gelme olasılığı 1/6’dır. Bir zar atıldığında 1 gelme olasılığının 1 gelmeme olasılığına oranına üstünlük diyoruz. Yani 1/6 yı 5/6’ya böldüğümüzde çıkan sonuç yani 0.20. Daha iyi anlamak için bir de bozuk para örneği verelim. Bir bozuk para atıldığında yazı gelme olasılığı 1/2’dir. Yazı gelme olasılığının gelmeme olasılığına oranı, üstünlük ise 1/2’nin 1/2’ye bölünmesiyle elde edilen sonuç yani 1’dir. Kolaylıkla anlaşılabileceği gibi bir paranın yazı gelmesinin tura gelmesine karşı herhangi bir üstünlüğü söz konusu değildir.
Basit lineer regresyon denklemimiz şöyleydi:
p(X) = β_0 + β_1X \tag{1.1}
Bu denklemin sağ tarafındaki X, bağımsız değişken; β1, bağımsız değişkenin katsayısı idi. Başka bir deyişle X’deki bir birimlik değişim p(x) değerini (bağımlı değişken) β1 oranında etkiliyor idi. Sonuç ise sürekli bir değişkendi. Lojistik fonksiyonun amacı bağımsız değişkenin bir kategoriye (örn: kredi borcu takar) dahil olma olasılığını ortaya koymaktır. Bu nedenle lineer regresyon denkleminin sol tarafını 0 ile 1 arasında değer alacak şekilde denklemin sağ tarafına lojistik fonksiyonu uyguluyoruz.
p(X) = \frac{℮^{β_0+ β_1X}} {1 +℮^{β_0+ β_1X}} \tag{1.2}
biraz eşitlikte oynarsak;
\frac{p(X)}{1-p(X)}=℮^{β_0+ β_1X} \tag{1.3}
Yukarıda da bahsettiğimiz gibi
\frac{p(X)}{1-p(X)}
odds’u verir ve bu değer 0 ile ∞ arasında değer alabilir. Eşitlik (1.3)’ün her iki tarafının logaritmasını aldığımızda;
\log{(\frac{p(X)}{1-p(X)})} = β_0+ β_1X \tag{1.4}
Eşitlik 1.4’ü elde ederiz. Bu eşitliğin sol tarafına log-odds ya da logit denir. Lineer regresyonun aksine burada β1 artık X’in her değerinde aynı oranda p(X)’de değişiklik meydana getiremeyecektir. Aksine değişim artık X’in o andaki değerine göre değişecektir. Artık p(X) ile x arasında doğrusal bir ilişki yoktur. Lineer model uyumunda en küçük kareleri (least squares) kullanmıştık. Doğrusal olmayan modellerin uyumunda genelde maximum likelihood yaklaşımı kullanılmaktadır. Burada amaç; veri kümesinden seçilen bir elemanın β0 ve β1,β2,β3….. değerlerini tahmin ederek elemanın hangi kümede (borç takar-takmaz) hangi olasılık dahilinde yer aldığını tahmin etmektir. Bağımsız değişkenin ikiden fazla değer aldığı durumlarda(örn; düşük, orta, yüksek risk) lojistik regresyon teorik olarak kullanılabilirse de bu durumda Lineer Diskriminant Analizi (Linear Discriminant Analysis) daha başarılı sonuçlar vermektedir. Bunun temel olarak iki sebebi var; birincisi sınıflar eşit ayrılmışsa lojistik regresyonun parametre tahmini çok sağlıklı olmamaktadır. İkincisi; örneklem küçük ve bağımsız değişkenin sınıflar arası dağılımı normal ise lineer diskriminant daha sağlıklı sonuçlar üretecektir.