
Giriş
Regresyon modelinde hedef değişkenin (bağımlı – y) nicel olduğunu biliyoruz. Ancak gerçek hayatta birçok durumda hedef değişken nicel değil nitel olabiliyor. Nitel değişken ikili (evet-hayır, içiyor-içmiyor, hasta-hasta değil) olabileceği gibi, kategorik (iyi-kötü-çirkin) de olabilir. Hatta bu kategorik değişken sıralı (ilk öğrenim – lise – üniversite) da olabilir. Bu şekildeki hedef nitel değişkenleri tahmin etmeye yönelik yapılan işlemler genel olarak sınıflandırma diye adlandırılmaktadır.
En yaygın olarak kullanılan üç sınıflandırma yöntemi; lojistik regresyon, lineer discriminant analizi ve k en yakın komşudur. Sınıflandırma için verilen yaygın örneklerden birisi de kredi notudur. Bankalar kredi verdikleri müşterilerle ilgili bazı bilgilere sahiptir. Örneğin gelir durumu, kendi evinde mi oturuyor, ücretli mi çalışıyor, başka borçları var mı, evli mi, yaşı kaç vb. Kredi verdiği bu müşterilerden bazıları kredilerini ödeyemeyecek duruma geliyor. Geçmiş müşteri bilgilerinden yola çıkan bankalar kredi müracaatında bulunan bir müşteriyi kredi notu iyi veya kötü diye sınıflandırıyor ve ona göre kredi verip vermeyeceğine karar veriyor. Kabaca söylemek gerekirse daha önce bekar, genç ve kirada oturanların çoğu kredisini ödeyemez duruma düşmüşse ve yeni gelen müşteri de genç, bekar ve kiracı ise banka bu müşteriye kredi verme konusunda pek istekli olmayacaktır. Çünkü bu profilin günah defteri kabarık 😉
Yukarıda verdiğimiz örnek aynı zamanda denetimli öğrenmeye de bir örnek oluyor. Makine öğrenmesi yöntemleri eğitim verisinin kullanılıp kullanılmadığına göre de ikiye ayrılıyor. Denetimli (supervised) ve denetimsiz (unsupervised). Türkçe literatürde ben supervised karşılığı olarak denetimli, eğitimli, gözetimli karşılıklarının kullanıldığını gördüm. Kendim denetimliyi kullanmayı tercih ediyorum. Banka örneğine geri dönecek olursak bankada yüz binlerce müşterinin bilgileri var. Bu bilgiler kullanılarak (nitelik, özellik, attribute, predictor) sınıflandırma algoritmamızı eğitiriz. Geçmiş öğrenme sonucunda algoritma bize bu adama kredi ver veya verme diye sonuç çıkarır. Denetimsiz öğrenmede ise herhangi bir eğitim söz konusu değildir. Burada esas amaç da zaten sınıflandırma değil veri içinde özellikleri birbirine benzeyen kayıtları gruplar altında toplamaktır. Denetimsiz öğrenmenin kullanılarak verinin gruplara ayrılmasına genel anlamda kümeleme diyoruz.
Lojistik Regresyon
Hatırlayacağımız gibi lineer regresyonda hem bağımlı hem de bağımsız değişkenlerimiz nicel değişkenler olmak durumundaydı. Ancak gerçek hayatta çoğu zaman nitel değişkenlerle karşılaşmaktayız. İşte lineer regresyonun pas geçtiği bu duruma çareyi lojistik regresyonda buluyoruz. Hedef değişkenimiz (bağımlı – y) binary (evet-hayır, var-yok) olsun. Lojistik regresyon kendisine verdiğimiz eğitim verilerinden yola çıkarak bir kaydın evet-hayır veya var-yok gibi iki durumdan her birine ait olma olasılıklarını bize söyler. Lojistik regresyon lineer regresyonun istediği varsayımları istemediğinden daha kolay kullanılır. Lojistik regresyon ile lineer regresyon arasındaki en büyük fark; lojistik regresyonda hedef (bağımsız) değişkenin kategorik, çoğunlukla binary (evet-hayır, var-yok) olmasıdır. Lineer regresyonda ise bağımsız değişken süreklidir (875,96 TL, 15 kg vb.). Ayrıca lineer regresyon veri setinde normal dağılım ister. Lojistik regresyon böyle bir şey istemez. Lojistik regresyona lojistik dediğimize bakmayın, aslında kelime Logaritmanın Log’undan, logistik fonksiyondan türemektedir. Logistik fonksiyonun özelliği, o ile 1 arasında değer üretmesidir. Lojistik regresyonu daha iyi anlamak için odds ve odds ratio kavramlarını da açıklamak istiyorum. Olasılık 0 ile 1 arasında bir değerdir. Örneğin bir zar atıldığında 1 gelme olasılığı 1/6’dır. Bir zar atıldığında 1 gelme olasılığının 1 gelmeme olasılığına oranına üstünlük diyoruz. Yani 1/6 yı 5/6’ya böldüğümüzde çıkan sonuç yani 0.20. Daha iyi anlamak için bir de bozuk para örneği verelim. Bir bozuk para atıldığında yazı gelme olasılığı 1/2’dir. Yazı gelme olasılığının gelmeme olasılığına oranı, üstünlük ise 1/2’nin 1/2’ye bölünmesiyle elde edilen sonuç yani 1’dir. Kolaylıkla anlaşılabileceği gibi bir paranın yazı gelmesinin tura gelmesine karşı herhangi bir üstünlüğü söz konusu değildir.
Basit lineer regresyon denklemimiz şöyleydi:
p(X) = β_0 + β_1X \tag{1.1}
Bu denklemin sağ tarafındaki X, bağımsız değişken; β1, bağımsız değişkenin katsayısı idi. Başka bir deyişle X’deki bir birimlik değişim p(x) değerini (bağımlı değişken) β1 oranında etkiliyor idi. Sonuç ise sürekli bir değişkendi. Lojistik fonksiyonun amacı bağımsız değişkenin bir kategoriye (örn: kredi borcu takar) dahil olma olasılığını ortaya koymaktır. Bu nedenle lineer regresyon denkleminin sol tarafını 0 ile 1 arasında değer alacak şekilde denklemin sağ tarafına lojistik fonksiyonu uyguluyoruz.
p(X) = \frac{℮^{β_0+ β_1X}} {1 +℮^{β_0+ β_1X}} \tag{1.2}
biraz eşitlikte oynarsak;
\frac{p(X)}{1-p(X)}=℮^{β_0+ β_1X} \tag{1.3}
Yukarıda da bahsettiğimiz gibi
\frac{p(X)}{1-p(X)}
odds’u verir ve bu değer 0 ile ∞ arasında değer alabilir. Eşitlik (1.3)’ün her iki tarafının logaritmasını aldığımızda;
\log{(\frac{p(X)}{1-p(X)})} = β_0+ β_1X \tag{1.4}
Eşitlik 1.4’ü elde ederiz. Bu eşitliğin sol tarafına log-odds ya da logit denir. Lineer regresyonun aksine burada β1 artık X’in her değerinde aynı oranda p(X)’de değişiklik meydana getiremeyecektir. Aksine değişim artık X’in o andaki değerine göre değişecektir. Artık p(X) ile x arasında doğrusal bir ilişki yoktur. Lineer model uyumunda en küçük kareleri (least squares) kullanmıştık. Doğrusal olmayan modellerin uyumunda genelde maximum likelihood yaklaşımı kullanılmaktadır. Burada amaç; veri kümesinden seçilen bir elemanın β0 ve β1,β2,β3….. değerlerini tahmin ederek elemanın hangi kümede (borç takar-takmaz) hangi olasılık dahilinde yer aldığını tahmin etmektir. Bağımsız değişkenin ikiden fazla değer aldığı durumlarda(örn; düşük, orta, yüksek risk) lojistik regresyon teorik olarak kullanılabilirse de bu durumda Lineer Diskriminant Analizi (Linear Discriminant Analysis) daha başarılı sonuçlar vermektedir. Bunun temel olarak iki sebebi var; birincisi sınıflar eşit ayrılmışsa lojistik regresyonun parametre tahmini çok sağlıklı olmamaktadır. İkincisi; örneklem küçük ve bağımsız değişkenin sınıflar arası dağılımı normal ise lineer diskriminant daha sağlıklı sonuçlar üretecektir.
K-En Yakın Komşu
K en yakın komşu (k-nearest neighbor-kNN) algoritması sınıflandırma algoritmalarından en yaygın olanlarından biridir. Temel mantık; “bana arkadaşını söyle kim olduğunu söyleyeyim” şeklinde işler. Örneğin k (5 olsun) olarak göstereceğimiz bir sayı seçeriz. Sınıflandırmak istediğimiz yeni bir elemanın hangi sınıfa dahil olacağını belirlemek için bu yeni elemana en çok benzeyen beş elemanın sınıflarına bakarız. En çok eleman hangi sınıfa mensup ise yeni elemanımız da o sınıftandır deriz.
Müşteri Nu. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Telefonu açıyor mu? | E | E | E | H | E | E | E | H | H |
Sözünde duruyor mu? | K | E | E | H | H | E | E | H | H |
Görüşmeye geliyor mu? | H | E | E | H | H | E | E | H | K |
Yetki belgesi veriyor mu? | H | E | E | H | H | E | E | H | H |
Fiyata duyarlılığı çok mu? | E | H | E | E | H | H | E | E | E |
Seni sık sık atlatıyor mu? | E | H | E | E | E | H | E | E | E |
Sınıf | C | A+ | A | C | C | A+ | A | C | ? |
Aksiyon | Kaç | Al | Al | Kaç | Kaç | Al | Al | Kaç | ? |
- E: Evet
- H: Hayır
- K: Kısmen
Örneğin yukarıdaki tabloda bir gayrimenkul danışmanı zaman, emek ve parasını israf etmemek için her müşteri ile uğraşmak istemiyor. Bunun için müşterilerini sınıflandırmış. Toplamda altı adet özellik tespit etmiş ve bu müşterileri A+, A, B ve C olarak sınıflandırmış. A+ ve A sınıf müşteriler, birlikte çalışılabilecek altın müşteriler, sağlam karakterli düzgün insanlar. B sınıfındakiler, ikna edildiğinde çalışılabilecekler ancak her an falso verebilirler. C sınıfındakiler ise hiç uğraşılmayacaklar, ilk fırsatta danışmanın emeğini heba edecekler. Danışman yeni müşterinin (9’uncu) özelliklerini belirliyor ve geçmiş kayıtları kullanarak bunu sınıflandırmak istiyor. Bu dokuzuncu kayda baktığımızda kendisine en yakın üç kaydın 4,5 ve 8’inci müşteriler olduğunu görüyoruz. Bu müşterilerin üçü de C sınıfında olduğu için danışman bu müşteriyi de rahatlıkla C sınıfına dahil edebilir. Çünkü en yakın 3 (k’yı 3 aldık) komşusu hep C sınıfı. O halde danışman bu müşteriyi C sınıfı olarak sınıflandıracak ve aksiyon olarak da KAÇACAK “Run Forrest run!” 🙂
