Varyans, Kovaryans ve Standart Sapma Nedir? Örneklerle Açıklama

Bu yazımda istatistiğin temel kavramlarından varyans, kovaryans ve standart sapmadan bahsetmek istiyorum. Formal bir istatistik eğitimine sahip olmayan biri olarak bu kavramları anlamakta zorlanmıştım, şimdi de ne kadar anlıyorum o da ayrı bir konu. Böyle basit kavramlardan bahsetme amacım, benim gibi öğrenme güçlüğü çeken insanların konuyu örneklerle rahatça anlayabilmelerini sağlamak. Mesela bir seri diyeceğiz birazdan, seri denince insanların kafasında bir şey canlanmayabilir, bu yüzden örneklerle anlatmak ve seri kavramının örnekte nereye karşılık geldiğini söylemek eminin daha anlaşılır olacaktır. Ortalama ve dağılma ölçüleri nedir? konusuna hiç girmeyeceğim çünkü bu yazının amacı anlaşılır ve öz olarak varyans, kovaryans ve standart sapmayı açıklamak.

R ile basit bir veri seti yaratalım. Veri setimiz 30 öğrenciye ait matematik ve fizik notları olsun. R’ın gerekli fonksiyonları ile iki adet 30 elemanlı ders notlarını temsil edecek liste oluşturalım. Liste elemanlarının alacağı değerleri matematik için 40-100, fizik için 60-100 arasında sınırlayalım. Rastgelelik değerleri farklı olsun diye seed değerlerini değişik verelim.

set.seed(123) 
matematik = runif(30,40,100) 
set.seed(100) 
fizik = runif(30,60,100)

Listeleri dataframe yapalım.

df = data.frame(matematik,fizik)

Öğrencileri temsilen de 30 kişilik bir liste oluşturalım:

ogrenci= c('Ali','Ayşe','Aylin','Ahmet','Cemal','Muhittin','Beyza','Beril','Mehmet','Şaziye','Mehtap','Satılmış','Recep','Şaban','Melis','Buket','Hacer','Nilay','Burcu','Bahadır','Birol','Uğur','Muharrem','Fuat','Makbule','Gülay','Derya','Yusuf','Timur','Serap')

Öğrenci isimlerini notlarımızdan oluşturduğumuz dataframe (df) satır ismi (row.names) olarak ekleyelim

row.names(df) <- ogrenci

Bakalım veri setimiz ne hale geldi:

View(df)

Şimdi 30 öğrencinin iki ayrı derse ait notlarını kullanarak kavramlarımızı açıklayalım. Öncelikle dataframe kısa özetini alalım:

summary(df)
matematik            fizik
Min. :42.52          Min. :62.26
1st Qu.:60.89        1st Qu.:72.81
Median :75.00        Median :80.39

Mean :74.34          Mean :79.81

3rd Qu.:91.56        3rd Qu.:87.40
Max. :99.66          Max. :95.29

Burada bizi ilgilendiren en temel değer, aritmetik ortalama, Mean, değeridir. Bu değer bildiğimiz gibi bir dersin notlarının toplamının o dersten notu olan öğrenci sayısına (30) bölümüyle elde edilir.

Standart sapma nedir? Verilerin (notların) aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalamasının kare köküdür.
Standart sapmanın formülü :

\sigma =\sqrt { \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x })\overset { 2 }{ } } }{ n } }

σ : standart sapma

Xi: i inci öğrencinin notu

μ: ilgili dersin aritmetik ortalaması

n: öğrenci sayısı

Standart sapmanın genel ifadesi:

standart \, sapma\, =\sqrt { \cfrac { Notlarin\, \\ \, ortalamadan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

İfadeyi örneğimize göre somutlaştıralım:

standart\, sapma\, =\sqrt { \cfrac { ({ Ali-ortalama) }^{ 2 }+{ (Ayse-ortalama) }^{ 2 }+…. }{ Ogrenci\, sayisi\, olan\, 30 } }
{ standart\, sapma }_{ Matematik }\, =\sqrt { \cfrac { ({ 57.25-74.34) }^{ 2 }+{ (87.29-74.34) }^{ 2 }+…. }{ 30 } }

Matematik için standart sapma 17.48,  fizik için 9.08

R ile hemen basitçe hesaplayalım:

> sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007

Standart sapmada kareyi her bir notun ortalamadan farkını bulduktan sonra farkını almamızın sebebi eksi değerleri düzeltmektir. Aslında notların aritmetik ortalamadan farklarının toplamı sıfırdır. Bunu önlemek için eksi değerleri artı yapacak kare alma işlemi yapılıyor.

Varyans nedir? Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.

{ s }^{ 2 }={ \cfrac { \sum { ({ X }_{ i }-{ \mu }_{ x } )\overset { 2 }{ } } }{ n } }
varyans\, ={ \cfrac { Bir\, ders\, icin\, her\, bir\, ogrenciye\, ait\, notun\, \\ grup\, ortalamasindan\, farklarinin\, karelerinin\, toplami }{ Ogrenci\, sayisi } }

Peki biz niye durduk yerde standart sapma ve varyans gibi değerlerden bahsediyoruz. Ortalamalar bize bir seriyi temsil edebilecek değerlerdir. Yani bu sınıfın Matematik başarısı hakkında bir fikir edinmek istiyorsak ortalamaya bakarız. Örneğimizde 74.34, ha iyiymiş deriz. Peki ortalama tek başına bu sınıfın başarısı hakkında kanaat edinmemizi sağlayabilir mi? Hayır. Şöyle düşünelim aynı sınıftan başka bir şube olsun ve onun da ortalaması aynı olsun ancak bu sınıfın notları 30-40 ve 85-95 arasında olsun ve aralarda hiç not olmasın ancak ortalama 74.34 olsun. Şimdi bu iki sınıfın başarısı aynıdır diyebilir miyiz? Tabi ki hayır. İşte standart sapma ve varyans bu noktada ortalamaya ilave olarak bize sınıf başarısı hakkında kanaat edinmemizi sağlıyor. Bir sınıfta notlar ortalamaya yakın dağılmışken (standart sapma ve varyans düşük), diğer sınıfta ortalamadan çok uzaklara (standart sapma ve varyans büyük) dağılmış.

Kovaryans nedir? Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Başka bir tabirle, iki farklı serinin (örneğimizde seri matematik dersine ait 30 adet not ve fizik dersine ait 30 adet nottur, ya da tablo mantığı ile matematik ve fizik sütunlarını birer seri olarak düşünebiliriz) varyansıdır. Yani iki serinin dağılımının benzerliğini analiz ettiğimiz bir ölçüttür.

Kovaryans formülü:

{ \sigma }_{ xy }\quad =\frac { 1 }{ N } { \sum _{ i=1 }^{ N }{ (({ X }_{ i }-{ \mu }_{ x }){ * } } }(Y_{ i }-{ \mu }_{ y })
{ \sigma }_{ mat,fiz }=\frac { 1 }{ 30 } { { (({ mat }_{ Ahmet }-{ ort }_{ mat }){ * } } }(fiz_{ Ahmet }-{ ort }_{ fiz }) +…)

R kodu ile kovaryans hesaplayalım:

> cov(df\$matematik,df\$fizik)
[1] 16.52833

Hoşçakalın…

Yazar Hakkında
Toplam 180 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Yorumlar (24 yorum)
ibrahim solak
ibrahim solak Yanıtla
- 17:03

Muhteşem bir anlatım olmuş, çok teşekkür ederim.

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 07:08

    Çok teşekkür ederim.

fatih
fatih Yanıtla
- 03:24

Çok güzel anlatmışsınız.

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 21:26

    Çok teşekkür ederim.

Ersan
Ersan Yanıtla
- 15:51

Elinize sağlık, temiz anlatmışsınız.

Ahmet Sayin
Ahmet Sayin Yanıtla
- 09:02

konuyu harika ozetlemissiniz. ingilizce kaynaklarin coguna baktim, bu kadar temiz anlatan yok. elinize emeginize saglik

serdar
serdar Yanıtla
- 22:27

güzel anlatım hocam teşekkür ederim.

Sibel
Sibel Yanıtla
- 22:44

Somutlaştırma işe yaradı, duygudaşlığınız için de ayrıca çok teşekkürler. Emeklerinize sağlık, sağ olun.

Süleyman
Süleyman Yanıtla
- 04:59

Kısa net ve harika teşekkürler

Umut
Umut Yanıtla
- 13:16

Emeğinize sağlık

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 23:23

    Çok teşekkürler.

Süleyman soygüder
Süleyman soygüder Yanıtla
- 17:21

Sözün güzelligi kisaligindadir demiş atalarımız
Tek kelimeyle muhteşem sağol kardeş varol

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 22:08

    Rica ederim. Güzel yorumunuz için teşekkürler…

Mehmet
Mehmet Yanıtla
- 18:32

Teşekkürler.

X_jay
X_jay Yanıtla
- 00:14

Çok ama çok teşekkürler..

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 06:11

    Rica ederim. İyi çalışmalar…

oguz
oguz Yanıtla
- 16:29

Teşekkürler. Varyans ile ilgili merak ettiklerim var;
Bir çok kaynakta varyans nedir sorusunun cevabı; “Varyans, verilerin aritmetik ortalamadan sapmalarının karelerinin toplamıdır. Yani standart sapmanın karekök alınmamış halidir.” olmuş . Varyans nasıl hesaplanır sorusunun net cevabı budur belki, ancak bu cevap tam olarak varyansı tanımlar mı? Peki neden verilerin aritmetik ortalamadan sapmalarının karesi alınarak hesaplanıyor? Ortalamaya uzak olan verilere daha fazla ağırlık kattığı için mi? Basit olarak varyansın ne olduğunu, standart sapma ile arasındaki farkı anatırsanız çok sevinirim. Sağolun.

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 22:49

    Merhaba. Varyans ile standart sapma arasındaki tek fark varyans ortalamadan uzaklıkların karelerinin toplamı standart sapma ise bu toplamın tekrar karekök alınmış hali. Standart sapmanın bir avantajı da sapmaları gözlemlerin ölçeğinde bize söylüyor olması yani elma ise elma cinsinden armut ise armut. Bu sebeple standart sapma değerleri gözlem ölçeği ile karşılaştırılabilir ve daha kolay yorumlanabilir.

rabia
rabia Yanıtla
- 16:10

55 kişilik bir sınıfta İstatistik dersinden sınava giren öğrencilerin notlarının ortalaması 72 varyansı 144 olarak bulunmuştur. Alınan notlar normal olarak dağılmaktadır. Bu duruma göre, söz konusu dersten sınava giren bir öğrencinin ;
a-48 ile 81 arasında
b-70 den az
c-70 den çok not alma olasılığını bulunuz

yusuf
yusuf Yanıtla
- 15:30

hocam mrb
sd(df\$matematik)
[1] 17.48174
> sd(df\$fizik)
[1] 9.087007
gibi komutlarda $ işaretinden önce gelen (ters / ) işaretini kaldırınca komut doğru çalışıyor. yanlışlık mı yaptınız yoksa bende mi öyle??
örnek sd(df$matematik) bende ki doğru komut bu şekilde. teşekkürler emeğinize sağlık..

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 15:46

    Selam bu kaçınma işareti. Eğer doğru çalışıyorsa sıkıntı yok. İşletim sistemi ve sürüm farklılığından kaynaklanabilir.

Fatma Demir
Fatma Demir Yanıtla
- 19:26

Yorum yazmadan geçemeyeceğim çünkü gerçekten çok açık anlatılmış.
Emeğinize sağlık, çok teşekkürler.

    Erkan ŞİRİN
    Erkan ŞİRİN Yanıtla
    - 19:29

    Güzel yorumunuz için çok teşekkürler.

Aysel çelik
Aysel çelik Yanıtla
- 20:22

Ağırlık(gr)
200 204 200 202
203 203 200
201 202 199
200 203 199
203 201 198

N=16 = varyans analizini bulup yorumlayınız?

Bu soruya bakabilirmisiniz grafikli bir şekilde anlamadımda

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara