Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama
Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.
R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.
set.seed(123) matematik = runif(30,40,100) set.seed(100) fizik = runif(30,60,100)
Listeleri dataframe yapalım.
df = data.frame(matematik,fizik)
Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:
ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')
Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim
row.names(df) <- ogrenci
Bakalım veri setimiz ne hale geldi:
View(df)
Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:
summary(df) matematik fizik Min. :42.52 Min. :62.26 1st Qu.:60.89 1st Qu.:72.81 Median :75.00 Median :80.39
Mean :74.34 Mean :79.81
3rd Qu.:91.56 3rd Qu.:87.40 Max. :99.66 Max. :95.29
Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.
Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :
σ : standart sapma
Xi: i inci öğrencinin notu
μ: ilgili dersin aritmetik ortalaması
n: öğrenci sayısı
Standart sapmanın genel ifadesi:
İfadeyi örneğimize göre somutlaştıralım:
Matematik için standart sapma 17.48, fizik için 9.08
R ile hemen basitçe hesaplayalım:
> sd(df\$matematik) [1] 17.48174 > sd(df\$fizik) [1] 9.087007
Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.
Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.
Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Hayır. Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.
Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.
Kovaryans formülü:
R kodu ile kovaryans hesaplayalım:
> cov(df\$matematik,df\$fizik) [1] 16.52833
Hoşçakalın…
Muhteşem bir anlatım olmuş, çok teşekkür ederim.
Çok teşekkür ederim.
Çok güzel anlatmışsınız.
Çok teşekkür ederim.
Elinize sağlık, temiz anlatmışsınız.
konuyu harika ozetlemissiniz. ingilizce kaynaklarin coguna baktim, bu kadar temiz anlatan yok. elinize emeginize saglik
güzel anlatım hocam teşekkür ederim.
Somutlaştırma işe yaradı, duygudaşlığınız için de ayrıca çok teşekkürler. Emeklerinize sağlık, sağ olun.
Kısa net ve harika teşekkürler
Emeğinize sağlık
Çok teşekkürler.
Sözün güzelligi kisaligindadir demiş atalarımız
Tek kelimeyle muhteşem sağol kardeş varol
Rica ederim. Güzel yorumunuz için teşekkürler…
Teşekkürler.
Çok ama çok teşekkürler..
Rica ederim. İyi çalışmalar…
Teşekkürler. Varyans ile ilgili merak ettiklerim var;
Bir çok kaynakta varyans nedir sorusunun cevabı; “Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.” olmuş . Varyans nasıl hesaplanır sorusunun net cevabı budur belki, ancak bu cevap tam olarak varyansı tanımlar mı? Peki neden verilerin aritmetik ortalamadan sapmalarının karesi alınarak hesaplanıyor? Ortalamaya uzak olan verilere daha fazla ağırlık kattığı için mi? Basit olarak varyansın ne olduğunu, standart sapma ile arasındaki farkı anatırsanız çok sevinirim. Sağolun.
Merhaba. Varyans ile standart sapma arasındaki tek fark varyans ortalamadan uzaklıkların karelerinin toplamı standart sapma ise bu toplamın tekrar karekök alınmış hali. Standart sapmanın bir avantajı da sapmaları gözlemlerin ölçeğinde bize söylüyor olması yani elma ise elma cinsinden armut ise armut. Bu sebeple standart sapma değerleri gözlem ölçeği ile karşılaştırılabilir ve daha kolay yorumlanabilir.
55 kişilik bir sınıfta İstatistik dersinden sınava giren öğrencilerin notlarının ortalaması 72 varyansı 144 olarak bulunmuştur. Alınan notlar normal olarak dağılmaktadır. Bu duruma göre, söz konusu dersten sınava giren bir öğrencinin ;
a-48 ile 81 arasında
b-70 den az
c-70 den çok not alma olasılığını bulunuz
hocam mrb
sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007
gibi komutlarda $ işaretinden önce gelen (ters / ) işaretini kaldırınca komut doğru çalışıyor. yanlışlık mı yaptınız yoksa bende mi öyle??
örnek sd(df$matematik) bende ki doğru komut bu şekilde. teşekkürler emeğinize sağlık..
Selam bu kaçınma işareti. Eğer doğru çalışıyorsa sıkıntı yok. İşletim sistemi ve sürüm farklılığından kaynaklanabilir.
Yorum yazmadan geçemeyeceğim çünkü gerçekten çok açık anlatılmış.
Emeğinize sağlık, çok teşekkürler.
Güzel yorumunuz için çok teşekkürler.
Ağırlık(gr)
200 204 200 202
203 203 200
201 202 199
200 203 199
203 201 198
N=16 = varyans analizini bulup yorumlayınız?
Bu soruya bakabilirmisiniz grafikli bir şekilde anlamadımda