COVID-19 VERİ ANALİZİ
2019 yılında, ilk kez Çin’in Wuhan şehrinde tespit edilen 2019-nCov adı verilen ve solunum yolu hastalığı salgınının nedeni olarak tanımlanan bir virüs yayıldı.
Daha spesifik adıyla Corona…
Başlangıçta, Wuhan‘daki salgında bulunan hastaların çoğunun, büyük bir deniz ürünleri ve hayvan pazarıyla bir bağlantısı olduğu bildirildi ve bu da hayvandan insana yayıldığını düşündürdü. Bununla birlikte, artan sayıda hastanın hayvan pazarlarına maruz kalmadığı, bu da kişiden kişiye yayılmanın meydana geldiğini gösterdi. Şu anda, bu virüsün insanlar arasında ne kadar kolay veya sürdürülebilir şekilde yayıldığı belli değil.
Veri seti, 2019 yeni Corona virüsünden etkilenen vakaların sayısı, ölümler ve iyileşme hakkında günlük düzeyde bilgiye sahiptir. Veriler 22 Ocak 2020’den itibaren ve şubat ayı sonuna kadarki hastaları içermektedir. Tablolarda bulunan hasta sayılarının farklılık göstermesi eksik gözlemlerden kaynaklanmaktadır.
Hastaların demografik dağılımlarını içeren tablo aşağıdadır.
Tablo 1: Demografik Dağılımlar
Kategoriler | Hasta sayısı | Yüzdesi |
Cinsiyet | ||
Kadın | 382 | 42,4 |
Erkek | 520 | 57,6 |
Toplam | 902 | 100,0 |
Yaş | ||
0-9 yaş arası | 18 | 2,1 |
10-19 yaş arası | 13 | 1,5 |
20-29 yaş arası | 96 | 11,4 |
30-39 yaş arası | 149 | 17,7 |
40-49 yaş arası | 127 | 15,1 |
50-59 yaş arası | 183 | 21,7 |
60-69 yaş arası | 136 | 16,1 |
70-79 yaş arası | 81 | 9,6 |
80 ve üzeri | 40 | 4,7 |
Toplam | 843 | 100,0 |
Wuhan’a gitmiş (ziyaret etmiş) | ||
Evet | 893 | 82,3 |
Hayır | 192 | 17,7 |
Toplam | 1085 | 100,0 |
Wuhan’dan çıkmış | ||
Evet | 925 | 85,6 |
Hayır | 156 | 14,4 |
Toplam | 1081 | 100,0 |
Ölüm durumu | ||
Öldü | 42 | 3,9 |
Ölmedi | 1022 | 96,1 |
Toplam | 1064 | 100,0 |
İyileşme durumu | ||
İyileşti | 159 | 85,3 |
İyileşmedi | 926 | 14,7 |
Toplam | 1085 | 100,0 |
Ocak ayı son haftası ile şubat ayı tamamı inceleme sonuçlarına göre, hastaların %42,4’ü kadın ve %57,6’sı erkektir. Yaş kategorisinde ise şubat ayının sonuna kadar salgının en fazla görüldüğü yaş grubu %21,7 oranla 50 ile 59 yaş arasıdır, ikinci olarak ise %17,7 oranla 30 ile 39 yaş grubu arası ve üçüncü olarak ise 60 ile 69 yaş grubu arasındadır. Corona virüsüne yakalanmış 1085 hastanın %82,3’ü Wuhan kentine ziyarette bulunmuştur. %85,6’sı ise Wuhan çıkışlıdır. Şubat ayının sonuna kadar 1085 hastanın 42 tanesi vefat etmiştir. 159 hasta ise iyileşmiştir.
Aşağıdaki tabloda hastaların ülkelerdeki dağılımı gösterilmektedir.
Tablo 2: 22 Ocak ve Şubat Ayı Ülke Bazında Vaka Dağılımı
Ülkeler | Hasta Sayısı | Yüzdesi |
China | 200 | 18,4 |
Japan | 190 | 17,5 |
South Korea | 114 | 10,5 |
Hong Kong | 94 | 8,7 |
Singapore | 93 | 8,6 |
Germany | 54 | 5,0 |
Thailand | 41 | 3,8 |
France | 39 | 3,6 |
Spain | 34 | 3,1 |
Taiwan | 34 | 3,1 |
Malaysia | 24 | 2,2 |
UAE | 21 | 1,9 |
UK | 20 | 1,8 |
Bahrain | 19 | 1,8 |
Australia | 19 | 1,8 |
Iran | 18 | 1,7 |
USA | 18 | 1,7 |
Vietnam | 16 | 1,5 |
Canada | 12 | 1,1 |
Kuwait | 9 | 0,8 |
India | 3 | 0,3 |
Italy | 3 | 0,3 |
Phillipines | 3 | 0,3 |
Russia | 2 | 0,2 |
Israel | 1 | 0,1 |
Nepal | 1 | 0,1 |
Sri Lanka | 1 | 0,1 |
Sweden | 1 | 0,1 |
Switzerland | 1 | 0,1 |
Toplam | 1085 | 100,0 |
Çin çıkışlı bir virüs olmasından kaynaklı olarak şubat ayı sonuna kadarki verilerde en fazla hastaya sahip olan ülke %18,4 oranla Çin’dir. Sıralamayı sırasıyla; %17,5 oranla Japonya, %10,5 oranla Kuzey Kore, %8,7 oranla Hong Kong ve %8,6 oranla Almanya takip etmektedir. Güncel durumlara göz attığımızda bu tablonun tam tersi verileri görmekteyiz. En yakın zamanda tüm dünyada yeni vaka görmemek dileğiyle… İncelememize devam edelim.
Hastaların yaşadığı semptomların dağılımları aşağıdaki tablodadır.
Tablo 3: Vakalarda Görülen Semptomların Dağılımı
Semptomlar | Hasta Sayısı | Yüzdesi |
Ateş | 195 | 38,46 |
Öksürük | 120 | 23,67 |
Kırgınlık | 30 | 5,92 |
Boğaz ağrısı | 30 | 5,92 |
Nefes darlığı | 19 | 3,75 |
Baş ağrısı | 15 | 2,96 |
Titreme nöbeti | 15 | 2,96 |
Burun akıntısı | 12 | 2,37 |
İshal | 10 | 1,97 |
Yorgun hissetmek | 9 | 1,78 |
Eklem ağrısı | 9 | 1,78 |
Balgam | 9 | 1,78 |
Boğaz rahatsızlığı | 7 | 1,38 |
Kas ağrısı | 6 | 1,18 |
Kusma | 6 | 1,18 |
Soğuk algınlığı | 4 | 0,79 |
Akciğer yangısı | 3 | 0,59 |
İştahsızlık | 3 | 0,59 |
Göğüs ağrısı | 2 | 0,39 |
Bulantı | 2 | 0,39 |
Karın ağrısı | 1 | 0,20 |
Toplam | 507 | 100,0 |
Hastalarda görülen semptomlara baktığımızda en fazla görülen belirtilerin, %38,46 oranla ateş ve %23,67 oranla öksürük olduğu görülmektedir. Bu sıralamayı; %5,92 oranla kırgınlık ve boğa ağrısı takip etmektedir. %3,75 oranla nefes darlığı belirtisi görülmektedir. %2,96 oranla ise hastanın baş ağrısı ve titreme nöbetleri yaşadığı saptanmıştır. Geriye kalan semptomların dağılımını tablodan inceleyebilirsiniz.
Bu noktadan sonra hastaların ölüm oranlarının cinsiyet gurupları, yaş grupları ve Wuhan etkisi ile bağımlı olup olmadığını anlamak amacıyla Ki-Kare bağımsızlık testi ile inceleyip, p değerleri üzerinden yorumlayacağız.
H0: Değişkenler birbirinden bağımsızdır.
H1: Değişkenler birbirinden bağımsız değildir.
Tablo 4: Hasta Ölüm Durumu ile Demografikler Arasındaki Ki Kare Analizi
Öldü | Ölmedi | aP value | |||
Hasta sayısı | Yüzde | Hasta Sayısı | Yüzde | ||
Cinsiyet | |||||
Kadın | 12 | 28,6 | 368 | 43,6 | |
Erkek | 30 | 71,4 | 476 | 56,4 | |
Toplam | 42 | 100,0 | 844 | 100,0 | a0,037* |
Yaş | |||||
0-9 yaş arası | 0 | 0,0 | 18 | 2,3 | |
10-19 yaş arası | 0 | 0,0 | 13 | 1,7 | |
20-29 yaş arası | 0 | 0,0 | 96 | 12,2 | |
30-39 yaş arası | 2 | 4,8 | 146 | 18,6 | |
40-49 yaş arası | 1 | 2,4 | 124 | 15,8 | |
50-59 yaş arası | 4 | 9,5 | 175 | 22,3 | |
60-69 yaş arası | 13 | 31,0 | 121 | 15,4 | |
70-79 yaş arası | 10 | 23,8 | 68 | 8,7 | |
80 ve üzeri | 12 | 28,6 | 24 | 3,1 | |
Toplam | 42 | 100,0 | 785 | 100,0 | a0,000* |
Wuhan’a gitmiş (ziyaret etmiş) | |||||
Wuhan’a gitmiş | 1 | 2,4 | 191 | 18,7 | |
Wuhan’a gitmemiş | 41 | 97,6 | 831 | 81,3 | |
Toplam | 41 | 100,0 | 1022 | 100,0 | a0,002* |
Wuhan’dan çıkmış | |||||
Wuhan çıkışlı | 32 | 76,2 | 122 | 12,0 | |
W. çıkışlı değil | 10 | 23,8 | 896 | 88,0 | |
Toplam | 42 | 100,0 | 1018 | 100,0 | a0,000* |
aChi-Square Analysis *p<0,05
Erkek ölen hasta sayısı 30, kadın ölen hasta sayısı ise 12’dir. 22 Ocak ile şubat ayı sonuna kadar olan hastaların verilerine ilişkin çapraz tablo sonucuna göre erkek hastaların vefat oranı kadın hastalara göre daha fazladır. Ayrıca, ki-kare bağımsızlık testi sonucuna göre p değerinin 0,05’ten küçük olmasıyla H0 hipotezi reddedilerek ölümün, cinsiyet kategorileri ile ilişkili olduğu belirlenmiştir. Corona virüsünün sebep olduğu ölümlerin yaş grupları üzerindeki çapraz tablo dağılımına baktığımızda, en fazla vefatın 60 yaş üzerinde olduğu görülmektedir. 60 ile 69 yaş arası hastalarda 13 vefat, 70 ile 79 yaş arası hastalarda 10 vefat ve 80 üzeri hastalarda 12 vefat yaşanmıştır. Ayrıca, ölüm durumunun yaş ile bağımlı olduğu da p değeri sonucuna göre belirlenmiştir. Vakanın Wuhan kentine ziyarette bulunması ve Wuhan kentinden çıkmış olmasıyla ölüm oranlarının bağımlı olduğu da p değerinin 0,05’ten küçük olmasıyla belirlenmiştir.
Aşağıdaki tabloda, 22 Ocak ile şubat ayı vakaların ölüm yaşı ve iyileşme yaş ortalamaları görülmektedir. Hastaların yaş ortalamalarının ölüm ve iyileşme durumlarında farklılaşmasının incelenmesi amacıyla independent sample t testi uygulanmıştır.
H0: İki grubun ortalamaları arasında fark yoktur.
H1: İki grubun ortalamaları arasında fark vardır.
Tablo 5: Ölüm ve İyileşme Durumu ile Yaş Arasında Bağımsız Örneklem T Testi İncelemesi
Kategoriler | Hasta sayısı | Ortalama | SS | bP value |
Ölüm (Yaş) | ||||
Öldü | 42 | 70,11 | 12,44 | b0,000* |
Ölmedi | 785 | 48,10 | 17,68 | |
İyileşme(Yaş) | ||||
İyileşti | 145 | 42,41 | 17,36 | b0,000* |
İyileşmedi | 698 | 50,99 | 18,01 |
bIndependent Sample T Test *p<0,05
Analiz sonucuna göre; 42 ölen hastanın yaş ortalaması 70,11’dir, 785 ölmeyen hastanın yaş ortalaması ise 48,10’dur. Corona virüsü salgınının sonucunda vefat eden haftaların yaş ortalamasının, vefat etmeyenlerden 22 yaş daha fazla olduğu görülmektedir. Grupların ortalamaları arasında önemli bir fark olduğu gözlenmektedir. P değerinin 0,000 olması ve 0,05’ten küçük olması da grupların ortalamaları arasında fark olduğunu göstermektedir. Bu bağlamda, salgın sürecinde bahsedilen risk grubunun yaş ortalaması 70 olarak belirlenebilir.
İyileşen hastalar incelendiğinde, 145 iyileşen hastanın yaş ortalaması 42,41’dir, 698 iyileşmeyen hastanın yaş ortalaması ise 50,99’dur. Sonuç olarak, iyileşen ve iyileşmeyen vakaların yaş ortalamaları arasında istatistiksel olarak bir farklılık olduğu görülmektedir. Ayrıca, p değerinin de 0,05’ten küçük olmasıyla da farklılık belirlenmiştir. İyileşen hastaların iyileşmeyen hastalara göre ortalama 9 yaş daha küçük olduğu yorumu yapılabilir.
Vakaların hastaneye gitme tarihinden semptom başlangıç tarihlerinin çıkarılmasıyla elde edilen gün sayıları ortalamaları, ölen ve ölmeyen hasta gruplarında farklılaşmakta mıdır? Aynı şekilde semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısı ortalamaları, iyileşen ve iyileşmeyen gruplarda farklılaşmakta mıdır? Tabloda, 22 Ocak ile şubat ayı vakalarının semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısı ortalamalarının, ölüm ve iyileşme kategorilerindeki oranları verilmiştir.
H0: İki grubun ortalamaları arasında fark yoktur.
H1: İki grubun ortalamaları arasında fark vardır.
Tablo 6: Ölüm ve İyileşme Durumu ile Semptom Başlangıcından Hastaneye Gitme Süresine Kadar Geçen Süre Arasında Bağımsız Örneklem T Testi İncelemesi
Kategoriler | Hasta sayısı | Ortalama | SS | bP değeri |
Ölüm(Semptom başlangıcından hastaneye gitme zamanına kadar kaç gün geçti?) | ||||
Öldü | 33 | 6,06 | 3,16 | b0,000* |
Ölmedi | 238 | 3,88 | 3,07 | |
İyileşme(Semptom başlangıcından hastaneye gitme zamanına kadar kaç gün geçti?) | ||||
İyileşti | 44 | 3,02 | 2,30 | b0,010* |
İyileşmedi | 230 | 5,36 | 3,25 |
bIndependent Sample T Test *p<0,05
33 ölen hastanın semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısının ortalaması 6,06’dır, 238 ölmeyen hastanın semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısının ortalaması ise 3,88’dir. P değerinin 0,05’ten küçük olmasıyla H0 hipotezi reddedilerek gruplar arasında fark olduğu belirlenmiştir. Bu bağlamda, ölen hastaların semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısının ortalamasının, ölmeyen hastaların hastaneye gitme süresi ortalamasından daha fazla olduğu söylenebilir. Ölmeyen hastalar semptomları başladıktan sonra hastaneye ortalama 3 günde giderken, ölen hastalar semptomları yaşamaya başladıktan sonra ortalama 6 gün sonra hastaneye gitmiştir.
44 iyileşen hastanın semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısının ortalaması 3,02 gündür, 230 iyileşmeyen hastanın ise semptom başlangıcından hastaneye gitme zamanına kadar geçen gün sayısının ortalaması 5,36 gündür. Gruplar arasında farklılık olduğu görülmekte ve p değerinin 0,05’ten küçük olmasıyla H0 hipotezinin reddedilmesiyle de desteklenmektedir. Sonuç olarak iyileşen hastalar semptomları yaşamaya başladıktan sonra hastaneye ortalama 3 günde gitmişken, iyileşmeyen hastaların semptomları yaşamaya başladıktan sonra hastaneye ortalama 5 günde yani daha geç başvurdukları yorumu yapılabilir.
Not : Yazımın içeriğinde analizlerin yol haritasından ziyade bulgularıma yer verdim. Zor zamanlar geçirdiğimiz şu günlerde, internette verisi bile zor bulunan Corona salgını üzerine yapılan araştırmalar eleştirilmeden önce desteklenmelidir. Çünkü ben bir analist olarak, elbette ki bu salgını incelemek ve yararlı bilgiler elde edebilmek için elimden geleni yapacağım. Dolayısıyla, bana ait olan bulguların elbette ki kesin bilgi değeri yoktur. Ayrıca, raporumun yalnızca 22 Ocak ile şubat ayı verilerinden oluştuğu unutulmamalıdır. Yaşadığımız salgın sürecinde en kesin bilgileri Dünya Sağlık Örgütü (WHO) ve T.C. Sağlık Bakanlığının web adreslerinden takip etmeye özen gösterelim.
Sağlıcakla kalın…
Veri Seti : https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
KAYNAKÇA
https://www.who.int/emergencies/diseases/novel-coronavirus-2019/global-research-on-novel-coronavirus-2019-ncov
https://experience.arcgis.com/experience/685d0ace521648f8a5beeeee1b9125cd
https://www.seyahatsagligi.gov.tr/Site/HaberDetayi/2267
https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports/
https://dai-global-digital.com/covid-19-data-analysis-part-1-demography-behavior-and-environment.html?utm_source=daidotcom#Factor-1:-Age
hocam tablo 5 de bağımsız örneklem testi dediğiniz two independent sample means mi
formülünü çıkarmaya çalışıyorumda
ve n 30 dan büyük niye t testi kullandınız?
Hilal Hanım Merhabalar,
Bağımsız örneklem T-Testi (Independent Sample T-Test), iki bağımsız grup arasında ortalamalara bakarak istatistiksel olarak anlamlı bir fark olup olmadığını test etmek için kullanılan parametrik bir testtir. Verinin normal dağılması varsayımıyla seçilir. Sonuç olarak, öldü-ölmedi iki bağımsız gruba ait veri seti normal dağılım gösterdiğinden bu test uygulandı.
İyi çalışmalar dilerim.
Elif hanım merhaba;
SPSS de yapılmış yapay sinir ağları ile ilgi bir örnek internette vardı inceledim. öncelikle çok tşk. R ve SAS gibi programlarda da muhtemelen yapılan yapay sinir ağları istatistik analizleri olabilir, SPSS de yapılandan verdikleri sonuç itibariyle çok farklı mı? yoksa benzer analizler SPSS de de yapılabiliyor mu? Çünkü SPSS kullanmayı biraz biliyorum, başkalarına sürekli istatistik analiz yaptırmak zor geliyor. Makalelere gelen eleştiriler arasında da, bu kadar çok veriye sahip iken niçin ileri seviyeli istatistik analiz yöntemi kullanmadınız? eleştirisiyle karşı karşıya kalıyoruz. Çok tşk.
Elif YILMAZ,
Evlat, aklına, eline emeğine sağlık, Konuları anlatımın çok sade ve güzel. Ayrıca, toplumsal bir sorunu ele alıp,incelemek ve toplumu olası riskle ilgili uyarmanız saygıya değer. Ülkemizde böyle gençlerin olması umut verici,, Bilim yolunda, yolunuz açık olsun..
Fuat Koçyiğit