R ile Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

R’da Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi

Eğer hatırlarsanız bir önceki yazımda da Basit Doğrusal Regresyon Çözümlemesine yer vermiştim makaleye buradan bakabilirsiniz. Çoklu Regresyon ile Basit Regresyonun  farkı nedir diye sorduğunuzu duyar gibiyim. Merakınızı hemen gidermek için başlıyorum. Basit Doğrusal Regresyonda ki bağımsız değişkenden en az bir tane daha varsa yani en az iki bağımsız değişkenimiz var ise buna biz  İstatistikçiler olarak Çoklu Doğrusal Regresyon diyoruz. Örnek vermek gerekirsek; evin konumu, evin metre karesi ,  kaç odalı olduğu gibi  faktörlerin evin fiyatını belirlemesi gibi örnekler Çoklu Doğrusal Regresyon Çözümlemesine girer.

Çoklu Doğrusal Regresyon(Bağlanım) Fonksiyonu:

Yi = β0 + β1X1 + β2X2 + ……+ βkXk  + €

Matris Gösterimi: Y = Xβ + €

Y : n x 1 boyutlu yanıt veya bağımlı değişken vektörü.

X: Bağımsız değişkenlerden oluşan  n x (k+1) boyutlu girdi matrisi(Bağımsız değişkenler matrisi).

β: (k+1) x 1 boyutlu bilinmeyen katsayılar vektörüdür.

€: n x 1 boyutlu hata vektörüdür.

Temel bilgileri verdikten sonra hemen R’da bu çözümlemeyi yapmaya koyulalım.

Bu veri seti R’ın içindeki hazır veri setlerinden biri olan “mtcars”  veri  setindeki bazı değişkenleri aşağıda görüldüğü gibi çıkartarak  data değişkenine atadık ve attach() komutunu kullanarak veri setini onayladık.

data<- mtcars[,c("mpg","disp","hp","wt")]
attach(data)

Verimizle ilgili bilgi sahibi olmak için head() fonksiyonu ile ilk 6 satırı görüntüleyelim.

head(data)

Bu komutun çıktısından “mpg”,”disp”,”hp” ve “wt” adlı değişkenlerimiz olduğunu görüyoruz.

mpg=  1 galon benzinle kaç mil gidildiği (Miles/(US) gallon)

disp=  Silindir hacmi (Displacement)

hp= Beygir Gücü (Horse Power)

wt=Ağırlık (weight)

Değişkenlerimizi de öğrendiğimize göre şimdi Regresyon Çözümlemesinin yapılabilmesinin şartlarından biri olan Normallik Varsayımı için Normallik Grafiğine bakalım.

qqnorm(mpg, main = "Normallik Grafiği") #normallik grafiği
qqline(mpg) # normallik çizgisi

Çıktı:

Burada baktığımızda normal dağıldığını söyleyebiliriz ama normallik testi yapmak en iyi sonucu verecektir.

Normallik testi yapmadan önce hipotezlerimizi oluşturalım:

H0 : Gözlemimiz normal dağılıyor.

H1: Gözlemimiz  normal dağılmıyor.

shapiro.test(mpg)

Çıktı:

p- value değerimiz = 0.1129 ve bu değer 0.05’den büyük olduğu için H0  hipotezimiz reddedilemez yani gözlemlerimizin normal dağıldığını 0.95 güvenilirlikle söyleyebiliriz.

Şimdi ise Doğrusallık Varsayımı için Saçılım(Dağılım) Grafiğine bakalım.

pairs(data)

Çıktı:

mpg ile bağımsız değişkenlerin arasında doğrusal bir ilişki bulunması gerekmektedir. R
programında pairs(data) komutu kullanıldığında tüm değişkenlerin birbirleriyle olan
saçılımları grafikte görülebilir.

mpg için doğrusallık incelendiğinde disp, hp ve wt ile doğrusal bir ilişkinin olduğunu söyleyebiliriz.

Normallik ve Doğrusallık varsayımlarımızı sağladığımıza göre şimdi modeli kurabiliriz.

dogrusal_model <- lm(mpg~disp+hp+wt)
dogrusal_model

Çıktı:

modeli yazdırdığımızda katsayılar ile ilgili bilgileri görmekteyiz. Daha fazla bilgi için modelin özet istatistiklerini veren summary() fonksiyonunu kullanmalıyız.

summary(dogrusal_model)

Çıktı:

Bu çıktıyı özetleyecek olursak:

R² = 0.8268 yani bir galon benzinle kaç mil gidildiğininin yaklaşık olarak %83’ünü silindirin hacmi, beygir gücü ve aracın ağırlığı açıklamaktadır.

Modelin Anlamlılık Testi:

H0 : β1 = β2 = β3

H1 :En az bir βj sıfırdan farklıdır.

p = 8.65e-11< α=0.05 olduğundan H0 red. Kurulan regresyon modelinin anlamlı olduğu %95 güven düzeyinde
söylenebilir. En az bir tane bağımsız değişken bağımlı değişkeni açıklamaktadır. Bağımsız ve
bağımlı değişkenler arasında doğrusal bir ilişki kurulabilir diyebiliriz.

MODEL:

y = 37.105505 – 0.000937*disp -0.031157*hp – 3.800891*wt ± 2.639

       (2.110815)       (0.010350)         (0.011436)     (1.066191)

Katsayıların Yorumları:

H0 : β0  (Sabit terimin modele katkısı anlamlı değildir.)

H1 : β0  (Sabit terimin modele katkısı anlamlıdır.)

p- value değeri 0.05’den küçük olduğundan dolayı H0  hipotezimiz reddedilir yani sabit terimin modele katkısı anlamlıdır.

H0 : β1 (Motor hacminin modele katkısı anlamlı değildir.)

H1 : β1  (Motor hacminin modele katkısı anlamlıdır.)

p -value değeri=0.92851, 0.05’den büyük olduğu için H0 hipotezimiz reddedilemez yani Motor hacminin modele katkısı anlamlı değildir.

H0 : β2  (Beygir gücünün modele katkısı anlamlı değildir.)

H1 : β2  (Beygir gücünün modele katkısı anlamlıdır.)

p – value değeri=0.01097, 0.05’den küçük olduğu için H hipotezimiz reddedilir yani beygir gücünün modele katkısı anlamlıdır.

H0 : β3  (Araç ağırlığının modele katkısı anlamlı değildir.)

H1 : β3  (Araç ağırlığının modele katkısı anlamlıdır.)

p- value değeri=0.00133, 0.05’den küçük olduğu için H0 hipotezimiz reddedilir yani araç ağırlığının modele katkısı anlamlıdır.

Katsayılarımızı da yorumladığımıza göre Çoklu Doğrusal Regresyon(Bağlanım) Çözümlemesi burada bitmiştir.

Saygılarımla…

Yazar Hakkında
Toplam 11 yazı
Osman IŞIK
Osman IŞIK
Hacettepe Üniversitesi İstatistik- Vakıf Katılım Bankası - Veri Mimarı ve Veri Bilimci
Yorumlar (Yorum yapılmamış)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara