Nasıl Veri Bilimci Olunur?
Giriş
Bir klasik olarak internette bir dakikada neler oluyor görseli ile başlamadık. Burada olduğunuza göre her an yüksek miktarda veri üretildiği ve bu verinin hızlı bir şekilde anlamlı hale getirilmesi gerektiğinin farkındasınızdır. Eğlence kanallarımızdan savunma sistemlerimize kadar her noktada veri güdümlü hale gelmiş olan insanoğlu için veri odaklı yeni bir anlayış türü ortaya çıkıyor. Kısacası:
Homo Sapiens’ten Data Sapiens’e…
Sizler de artık bir veriden ibaretsiniz. Tüm yaşantınız ile beraber anlamlı hale getirilmeyi bekliyorsunuz. Dijital dünyada anlamı olmayan birer bir şeylersiniz.
Eskiden evrende bir zerre idiniz, en azından ne olduğunuzu biliyorduk, şimdi ise belki de henüz betimlemesi dahi yapılamamış bir veri yığını :).
Evet geyiği geçecek olursak; sizi, çevrenizi ve dünyayı daha anlamlı hale getirecek olanlardan Veri Bilimcilerden bahsedeceğiz.
Yazı, kapsayıcılık anlamında geniş bir kitleyi hedef almaktadır. Yazı başlığının, ilgili alanda son zamanlarda en çok araştırılan konulardan birisi olduğu şüphesiz. Konuyla ilgili gelen sorular genelde şu şekilde:
- Şirketimde veri odaklı iyileştirme yapılabilir mi? Mevcut verilerimden ne gibi değerler ortaya çıkarabilirim? Bu konuda ne yapacağımı bilmiyorum?
- 10 yıllık Javacıyım, bu işin bir sonu yok, yükselme şansım da sınırlı. Hem yükselsem ne olacak? Bu alan ilgilimi daha çok çekiyor. Bu alana yönelmek istiyorum, ne yapmam lazım?
- Yazılım geliştiriciyim, veri bilimci olmak istiyorum ne yapmam lazım?
- İstatistik-Ekonometri-Bilgisayar/Elektirik Elektronik Mühendisliği öğrenciyisim veri bilimci olmak istiyorum, ne yapmalıyım?
- İş zekası tarafındayım bu tarafa yönelmek istiyorum, ne yapmam lazım?
Yukarıdaki sorulara benzer, türetilebilecek tüm sorulara cevap olabilecek kapsamlı bir rehber olma motivasyonu ile yola çıkan Veri Bilimi Okulu, sizlere “Veri Bilimci” olma yolunda ihtiyaç duyabileceğiniz bir çok gereksinimi karşılamayı hedeflemektedir.
Öncelikle “Veri Bilimci” olma yoluna çıkmalı mıyım? Bu işin trendi ne? Sorularına bakıp Veri Bilimci olma kararını veriye dayalı yapalım! 🙂 Sonrasında Veri Bilimi ve Veri Bilimci kavramlarına gidelim.
Veri Bilimi Trendine Hızlı Bir Bakış
Amerika’daki En İyi 3 Meslek
Data Scientist: The Sexiest Job of the 21st Century
Google Trends ile Veri Bilimi İlgi Trendi
Son 5 yıl. İlginç. Bunu görünce bir de son iki yıla bakma ihtiyacı hissettim.
“Nasıl Veri Bilimci Olurum?” Sorusu ve Dünya’daki Popülerliği
Hindistan ve Amerika’nın göze çarpması herhalde yurt dışında iş arama sürecinde olanlar için tanıdık gelecektir.
Veri Bilimci Talebi
Bu konuda IBM’ın gerçekleştirdiği güzel bir çalışma var. 2020’ye kadar “Veri Bilimci” ve “Advanced Analyst” talebinin yüzde 28 artaracağını tahmin etmektedirler.
Bir diğer önemli nokta, “Veri Bilimci” ve “Advanced Analyst” pozisyonlarının yüzde 39’unun yüksek lisans veya doktora derecesi gerektirdiği üzerine…
Çöp üretmekten daha hızlı veri üretiyor olduğumuza göre, Veri Bilimi ve Veri Bilimci’lik için mevcut trendler uzun bir süre daha devam edecek gibi gözükmekte! Bu yüzden Veri Bilimci olmak için çalışmaya başlamanın tam zamanı!
Veri Bilimi Nedir?
Veri olarak tanımlanabilen her türden varlığın içerisinde; mevcut durumu tanımlayan, bilgi odaklı keşifler yapan, kategorize edici, sınıflandırıcı ve mevcut durum üzerinden gelecek ile ilgili tahminler yapılabilen bilgi odaklı çalışma sürecinin tamamına veri bilimi adı verilir. Veri bilimi süreçlerinde istatistik, makine öğrenmesi, programlama, büyük veri ve açık kaynak yazılımlar yoğun olarak kullanılmaktadır. Bununla birlikte sosyal olarak; araştırma, sorgulama, problemler ve teknik çözümler arasında bağlantı kurma, bulguların yorumlanması ve sunulabilmesi gibi yetenekleri de barındırması gerekmesiyle “Veri Bilimi” mevcut ilgiyi oldukça hak etmektedir.
Veri Bilimci Nedir? Ne İş Yapar?
Veri bilimci çeşitli araçlar ile elindeki veriyi betimleyen, içerisindeki yapılar üzerinden çıkarımlar yapabilen; tahminsel, öngörüsel, önleyici ve reçetesel modellemeler yapabilen görseldeki özelliklerin kesişiminde duran kişidir:
Veriden faydalı bilgi çıkarma sürecinin yöneticisidir. Bilgi sanatçısıdır. Verinin sadece “fiziki yer kaplama” formunu bozan kişidir. Eren Ocakverdi hocamızın ifadesiyle “Bilgi Kaşifi”dir.
Veriyi nereden alacağını bilir. Yoksa üretilmesini sağlar. Gelen verinin yapısını, ne anlam ifade ettiğini, ne gibi kısıtları ve eksiklikleri olduğunu bilir. Çözmek istediği probleme göre veriyi şekillendirir. Çözülecek bir problem yoksa keşif süreci ile herkesin gözden kaçırdığı o gizemli yapıları bulur, meraklıdır. Betimsel, çıkarımsal, kümeleyici, sınıflandırıcı, tahminsel, öngörücü, önleyici her türden yaklaşımı hangi durumlarda ne şekilde uygulayacağını bilir.
Veri Bilimcinin Sorumlulukları Nelerdir?
Her türlü araç ve bilimsel tekniğin kullanılarak veriden faydalı bilgiler, aksiyon tavsiyeleri, karar destek sistemleri ve veri odaklı ürünler çıkarmaktır.
Veri Bilimcinin Sahip Olması Gereken Yetenekler Nelerdir?
Minimal şekilde ifade edecek olursak:
- Programlama
- Matematik, İstatistik, Makine Öğrenmesi
- Kişisel Yetenekler
- İş Bilgisi (en önemli madde fakat başlangıç düzeyinde bu yetkinlik tabi ki olmayacak)
Biraz açacak olursak:
- Bireysel Yetenekler: Heyecan!, Merak, Doğru Soruları Sorabilmek, Analitik Bakış Açısı, Problem Çözme Yeteneği, Etkili İletişim, Hikayeleştirme ve Sunum Kabiliyeti
- Bilimsel Temeller: Matematik, İstatistik, Olasılık, Lineer Cebir
- Programlama: Algoritmik Yaklaşım, Programlama Mantığı, SQL(veri tabanları), NoSQL, Bash Script, R, Python, Scala, SPSS, SAS, MATLAB vb
- Büyük Veri Teknolojileri: Büyük Veri Konseptinin Kavranması, Hadoop, Spark, Hive, Impala, DB’ler, PySpark, SparkR, SparklyR ve diğerleri.
- Bulut Teknolojileri: AWS, Google Cloud, Microsoft Azure, IBM vs
- İstatistiksel Öğrenme(SL):
- Tidy Data Süreci ve Veri Ön İşleme (eksik veri, aykırı gözlem, tutarsızlık incelemeleri vb)
- Keşifçi Veri Analizi (Betimsel İstatistik, Veri Görselleştirme)
- Çıkarımsal İstatistik (örnek teorisi, olasılık dağılımları, rastgele değişkenler, hipotez testleri, bayesçi çıkarım, robust yöntemler)
- Çok Değişkenli İstatistiksel Yöntemler (korelasyon, boyut indirgeme (PCA, LDA, Kernel PCA), varyans analizi, kümeleme analizi, faktör analizi, uyum analizi, path analizi, ayırma analizi vb)
- Regresyon Modelleri: Doğrusal regresyon, logit-probit, m.logit-m.probit, kantil regresyon vb
- Resampling Methods (yeniden örnekleme yöntemleri: cross-validation, bootstrap)
- Doğrusal Model Seçimi ve Regularization
- Doğrusallık ve Nedensellik
- Makine Öğrenmesi(ML):
- Regresyon Modelleri: Multiple Regresyon, Polynominal Regresyon, SVR, Regresyon Ağaçları, Random Forest Regresyon…
- Classification(Sınıflandırma): Lojistik Regresyon, K-NN, SVM, Naive Bayes, Karar Ağaçları, Topluluk Öğrenme Yöntemleri(bagging, boosting, RF,…,)
- Clustering(Kümeleme): Hiyerarşik ve Hiyerarşik Olmayan Kümeleme Yöntemleri(Hiyerarşik kümeleme, K-Means)
- Association Rule Learning (Birliktelik Kuralları: Apriori, Eclat)
- Text Mining, NLP
- Reinforcement Learning
- Deep Learning
- Model Seçme (validasyon, test hatası yöntemleri, model performans değerlendirme, parametre tuning) ve Öğrenme Bozukluklarının Bilinmesi (underfitting, overfitting, good fitting)
- Basitin her zaman daha iyi olacağının ve “Tüm Modeller Kötüdür, Bazıları Kullanışlı” sözünün farkında olunması (George E.P. Box)
- Tahmin yakınlığı mı? Nedensellik mi? Durumlarının çok iyi kavranması.
Maddelerin yerleri, sıraları ve başlıkları değiştirilebilir. Genel anlamda bu yetenekler iyi bir Veri Bilimci’yi tanımlamış olur. Bu durumda veri madenciliği, makine öğrenmesi, veri bilimi gibi kavramların herbirisi iç içe geçmiş durumda olacağından herbirisinin yukarıda anıldığını varsayabiliriz.
Bazı istatistikçiler ML kısmına yazılanların aslında SL kısmında olması gerektiğini düşünecektir, evet aslında SL ve ML iç içedir ve aynı şeyleri ifade etmektedirler. Bir kaç ayrım ile. Bununla alakalı şu yazıya göz attıktan sonra mevcut durumda ikisini tek bir cümle ile ayıracak olursak:
“Nedensellik ilkesi ve aksiyoner modelleme amacı taşınıyorsa yani insan ve kurum davranışı odaklı bir çalışma yapılacak ve amaç gerçekleşen olayların nedenlerini anlamak olacak ise SL, sadece tahmin yakınlığı kaygısı var ise ML, hem nedensellik hemde tahmin yakınlığı ile ilgileniliyorsa önce SL sonra ML = SL*ML”
Bu durumda aslında mesele doğrusallıktan kopma ve kopmama noktasına indirgeniyor. Çünkü nedensellik sorgulamalarını doğrusal olmayan modellerde gerçekleştiremiyoruz.
Veri Biliminde İstatistiğin Önemi İsimli Yazımıza Göz Atabilirsiniz. Henüz çıkmamış olabilir çıkmadıysa link bağlı değildir 🙂
Statistical Learning, Machine Learning. Burada SL’in yanında aslında Ekonometrik Modelleme’de eklenebilir fakat ben bunu SL içerisinde ifade ettim. Peki bu neden önemlidir? İleride paylaşacağım kaynaklar arasında coursera’nın data scientist eğitim dizinin yetenek olarak en gelişmişliği ifade eden bölümlerinde Nedensellik ve Ekonometrik Modellemeler yer almaktadır. Nedensellik ilkesi ile ilgili detaylı bir yazı hazırlanmaktadır.
Sorular
Veri Bilimci Olmak İçin Bu Özelliklerin Hepsine Sahip Olmak Gerekli Mi?
Hayır. Örneğin; bulut teknolojileri, büyük veri teknolojilerine ve hatta açık kaynak yazılımlara ihtiyaç duyulmadığı durumlarda da veri bilimi projeleri götürülebilir. Bir Veri Bilimi Projesi SPSS ve SAS ile de götürülebilir. Küçük miktarda bir veri seti üzerinde bir modelleme yapılarakta veri bilimi projesi yapılabilir. Burada önemli olan nokta Veri Bilimci’inin yukarıdaki ARAÇ’ları kullanarak veri içerisinden anlamlı bilgi çıkarma işlemini yapması gerektiğidir. Yukarıdaki özelliklerin en azına sahip olunarakta proje yapılabilir fakat günümüzde yukarıdaki özelliklerin bir çoğunun kullanılması kaçınılmaz hale gelmiştir.
Peki En Azından Hangilerini Öğrenmeliyim ki Veri Bilimci Olma Yolunda Olayım?
- Motivasyon
- Problemler Üzerinde Doğru Soruları Sormak
- Analitik Bakış Açısı
- Temel
- Programlama: SQL + Herhangi Birisi
- İstatistiksel Öğrenme: Tüm maddeler
- Makine Öğrenmesi: Tüm maddeler
Yukarıdakileri Yapsam Diğerlerini Sallasam Nerede Takılırım?
- Verinin boyutu büyüdüğünde ve mevcut sistemler ile altından kalkamadığında takılırsın. Büyük Veri Teknolojileri ve Linux Komut Satırı öğrenmek gerekir.
- Şirketin paket programlara para vermek istemediğinde takılırsın. SPSS, SAS vb
- Paket programlar ölçeklenebilirlik ihtiyacı oluştuğunda taleplerine cevap veremeyecek duruma geldiklerinde yine takılırsın. R ve Python lazım olur.
- Verimiz ve uygulamalarımız bulutta dursun denirse yine takılırsın. Bulut teknolojilerini ve özellikle Linux Komut Satırı’nı bilmek gerekir.
Nasıl Veri Bilimci Olurum ?
Veri Bilimi Okuluna Hoşgeldiniz 🙂
Aslına bakarsanız yukarıdaki özellikleri edindiğiniz taktirde veri bilimci olmuş olacaksınız. Bizler size bu yetenekleri edinebilmeniz için gerekli olan her türlü bilgiyi veribilimiokulu.com adresi üzerinden sağlamaya çalışacağız. Uçtan uca veri bilimi projeleri götürülmesi için gereken tüm yetenekleri irdelemekle birlikte case odaklı çalışmalara da yer vereceğiz. Yani “eyvah veri elimde şimdi ne yapacağım?” sorularıyla birlikte verinin elde olmadığı durumlar içinde rehber niteliğinde içerikler oluşturacağız.
“Veri Bilimci Olmak İçin Yol Haritası” isimli yazı hazırlanmıştır. Bu yazıda uzun soluklu bir “Veri Bilimci Olma” macerasına nasıl başlamanız gerektiği, hangi yetenekler için hangi araçları kullanmanız gerektiği, nerelere başvurmanız gerektiği, teori ve uygulama yönünüzü nasıl geliştirmeniz gerektiği gibi konularda bilgiler verilmektedir.
Veri bilimi alanına sağlam bir giriş yapmak için Data Scientist Bootcamp eğitimine kayıt olabilirsiniz.
Kaynaklar
- https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
- https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#5bbd8b7c7e3b
- https://medium.freecodecamp.org/how-to-become-a-data-scientist-2d829fa33aba
- http://www.mastersindatascience.org/careers/data-scientist/
- https://www.dataquest.io/blog/how-to-become-a-data-scientist/
- https://hackernoon.com/minimalistic-learning-path-to-become-a-data-scientist-c0a4f614bd09
- https://www.geteducated.com/careers/how-to-become-a-data-scientist
- https://www.quora.com/How-can-I-become-a-data-scientist-1
- https://www.analyticsvidhya.com/blog/2016/01/ultimate-plan-data-scientist-2016/
- https://careers.coursera.org/data-scientist/
Güzel bir yazı olmuş, teşekkür ederim.
Matematik Bilgisayar Bilimleri mezunu olarak üniversite boyunca verimli bir açıklama bulamadım.İyi ki varsınız teşekkür ederim.
Futbol antrenörüyüm. Yıllar içinde futbol ve verileri iç içe sokarak ortaya değişik durumlar çıkartmayı planlıyorum. Ölçme ve değerlendirme kısmını biliyorum. Yorumlama ile ilgili kendimi geliştireceğim ve kendi kulübümü kuracağım. Ölçme ve değerlendirme konusunu biliyorum dedim. Bu konu, futbola dair konu. Yani futboldaki ölçülmesi ve değerlendirilmesi gereken konular ile ilgili.
Ama bu sayfaya geliş amacım, beni başka boyuta götürmenizi istememdi. Bir çok yazınızı okuyacağım. Sitenizin varlığı heyecan yarattı bende. Keşke 5-6 sene önce bu işe kafa yorsaymışım.
https://www.veribilimiokulu.com/nasil-veri-bilimci-olunur/ sayfasında altta bulunan veri bilimi yol haritası linki çalışmamaktadır.