Makine Öğrenmesi ile İstatistiksel Öğrenme Arasında Ne Fark Var?
Makine öğrenmesi ve istatistiksel öğrenme ifadeleri ne anlama gelmektedir? Veri bilimi kapsamında bu konular ile ilgili bir farkındalığın olması gerekmekte midir? Bu bilgiye sahip olmak neyi değiştirecektir? Problem çözme yaklaşımlarıma bir katkısı olacak mıdır? gibi sorulara yanıt olmasını umduğum bir takım bilgileri paylaşmak istiyorum.
Öncelikle rolleri bakımından bilgisayar bilimleri ve istatistikçilerin yapay öğrenme konusundaki durumlarını ifade etmek istiyorum. Ethem Alpaydın Hocamızın ifadesi ile:
“Yapay öğrenmede öğrenme işi istatistik ile yapılır, çünkü amaç örnek veri üzerinden genellenebilir yapılar ortaya çıkarmaktır. Bilgisayar bilimleri ise istatistiksel öğrenme alanında yer alan öğrenme yaklaşımlarının optimizasyonu ve performansı ile ilgilenir. “
Diğer bir ifade ile öğrenme modellerinin bir çoğunun doğuş noktası istatistik camiasında oluşmuş bu modellerin optimizasyonu ve tahmin başarısı bilgisayar bilimlerinde ilerletilmiştir. Harika bir birliktelik.
Peki neden ikisini de kullanıyoruz? Teknik anlamda farklılaştıkları noktalar nelerdir?
Genelde terminolojik farklar olmakla birlikte birbirlerinden ayrıldıkları en önemli nokta açıklanabilir modeller (istatistiksel öğrenme) ile açıklanabilirliği düşük modellerdir (makine öğrenmesi).
Yani nedenselliktir. Örneğin bir kedi resmine kedi demek için açıklanabilir modele ihtiyaç yoktur, bu makine öğrenmesidir. Fakat bir müşterinin sizi terk etmesini modellemek istediğinizde sizi neden terk ettiği sonucunu aksiyona dönüştürmek istediğinizde neden-sonuç bağlamında model kurmanız gerekir. Bu durumda iki yaklaşım arasında ihtiyaca göre seçim yapılması gerektiği ortaya çıkmaktadır.
Şu soruya yanıt aranmalıdır: tahmin yakınlığı mı? aksiyona dönebilecek nedensel yorumlar mı?
Bu yazıda hangi durumda hangi yaklaşımın kullanılması gerektiğine değinilecektir.
- Makine öğrenmesi yapay zekanın bir alt alanıdır.
- İstatistiksel öğrenme istatistiğin bir alt alanıdır.
- Birçok ortak noktaları vardır ve her iki alan da aynı problemleri çözmeye çalışır.
- Makine öğrenmesi ağırlıklı olarak büyük ölçekli uygulamalarda kullanılır ve tahmin yakınlığı ile ilgilenir.
- İstatistiksel öğrenme modellere ve modellerin yorumlarına odaklanmakla birlikte tutarlılık ve belirsizlik gibi kavramlara da ağırlık vermektedir.
İstatistiksel öğrenmede model kurmak için kullanılan bağımsız değişkenlerde meydana gelen değişimlerin yanıt değişkeninde meydana getirmesi beklenen değişimleri ile ilgili yorum yapılabilir. Yorum yapılabilmesinin sebebi oluşturulan tahmin fonksiyonunun doğrusal olmasıdır. Doğrusal olması yorumlama konusunda imkan tanımış olsa da gerçek dünyada doğrusallık çok kolay sağlanamamaktadır ve beraberinde fazlaca varsayım getirmektedir.
Bağımlı değişkende (yanıt değişkeni) meydana gelen değişiklikleri hangi bağımsız değişkenin ne düzeyde gerçekleştirdiği ve bağımsız değişkenler ile yapılacak oynamalarda bağımlı değişkenin ne tepkiler vereceğini görmek oldukça işlevseldir. Bu tür durumların gerektiği yerlerde istatistiksel öğrenme modelleri veya ekonometrik modeller kullanılmalıdır. (doğrusal regresyon, lojistik regresyon, logit, probit modeller vs)
İstatistiksel öğrenme modelleri varsayımlara ve varsayımların kontrollerine muhtaçtır, ideal durumlarda dahi yorumlama kısımlarında bir takım varsayımlar yapılır. Gerçek dünyada doğrusal modellerin varsayımlarını sağlamak oldukça güçtür. Eksik gözlem, aykırı gözlem gibi durumların çok fazla önemi vardır. Veri kalitesi ve veri ön işleme çok önemli hale gelir.
Makine öğrenmesi yaklaşımlarında ise varsayımlar daha azdır ve modellerin kullanımı daha kolaydır. Direk sonuç ile ilgilenildiğinden dolayı yani bağımsız değişkenler ile ilgili çok fazla yorum yapmaya olanak olmadığından dolayı makine öğrenmesi modellerinin sonuç odaklı olduğu ifade edilebilir.
Makine öğrenmesinde değişkenlerin anlamlılığı ya da bilgi katkısı gibi yorumlar yapılabilirken tahmin fonksiyonları esnek olduğundan dolayı bağımsız değişkenlerdeki değişikliklerin bağımlı değişken üzerindeki etkisinin değerlendirilmesi ve yorumlanması mümkün olmamaktadır.
Makine öğrenmesi yaklaşımları aykırı gözlem, eksik gözlem gibi durumlardan daha az etkilenir. Bunun sebebi veri içerisindeki yapıyı temsil etmek için oluşturulan fonksiyonların esnek yapıda olmasıdır.
Makine öğrenmesi yaklaşımları varsayımlara muhtaç olmaması, kolay uygulanabilmesi ve daha büyük ölçekte projeler için uygun olması sebebiyle tercih sebebi olabilmektedir.
İstatistiksel öğrenme yaklaşımları ise bağımlı ve bağımsız değişkenlerin ruhu ya da özü ile ilgilenildiğinde ve bu değişkenlerdeki değişimlere daha hassas yaklaşıldığında daha fazla tercih sebebi olmalıdır.
Bir örnek ile açıklayacak olursak:
Bir şirketin yıllık toplantısında şirket harcamaları için strateji geliştirilmeye çalışıldığını, harcamaların optimize edilmek istendiğini ve gelirin arttırılmasının hedeflendiğini düşünelim.
Veri bilimcinin önüne gelen bu projenin amacı harcamaları optimize edip geliri arttırmaktır.
Veri bilimci bu noktada şu soruya cevap aramalıdır: Hangi harcama kalemlerinin geliri ne düzeyde etkilediğini bulmalıyım ki buna göre iş stratejileri belirlenebilsin! Örneğin reklam harcamaları arttıkça gelir artmıyorsa ya da personel harcamaları arttıkça gelir artıyorsa bu durum ve bu durumun şiddeti tespit edildiği durumda sorun çözülecektir.
Bu durumda şirketin gelir giderleri ile alakalı istatistiksel ya da ekonometrik bir modele ihtiyaç duyulacaktır. Gelir bağımlı değişkeninin, personel harcamaları, ürün satışları, reklam harcamaları, sosyal sorumluluk yapılıp yapılmaması gibi değişkenler ile modellenmesi gerekmektedir. Kurulan model sonucunda şöyle bir sonuç ile karşılaşılacaktır:
Model çıktısında pazarlama harcamaları değişkeninin bu model için anlamlı olduğunu ve katsayısının -0.90 çıktığını varsayalım. Yorum: Diğer değişkenler sabit varsayıldığında pazarlama harcamalarındaki bir birimlik artışın gelirde meydana getirmesi beklenen ortalama değişim -0.90’dır.
Bu durumda pazarlama için harcama yapmak geliri arttırması bir kenara geliri düşürmektedir çünkü pazarlama harcamaları da bir gider kalemidir. Bu durumu görebilmek ve bu yorumu yapabilmek için istatistiksel ya da ekonometrik modellere ihtiyaç vardır. Bu yorumu yapma şansını veren şey veri içerisindeki yapının doğrusal bir fonksiyon ile modellenmesidir.
Peki makine öğrenmesi yaklaşımlarına hangi durumda ihtiyaç duyulurdu? Eğer yönetim şu sorunun cevabını arıyor olsaydı o zaman makine öğrenmesi modellerini kullanabilirdik:
Yıl sonu gelirlerimizin tahmin edilmesi gerekiyor. Bu tahminlere göre başka yatırımlar için alt yapı çalışmalarına başlayacağız. Bize harcama optimizasyonu lazım değil sadece geliri tahmin et ve iyi tahmin et, çok iyi çok yakın tahmin bekliyoruz. (söz konusu gelir olsa da zamansal bir veri olmadığını varsayıyorum) Bu durumda biz geliri etkileyen faktörlerle ve bu faktörlerde meydana gelecek değişikliklerin geliri ne düzeyde etkileyeceği ile ilgilenmediğimiz için burada yüksek tahminsel başarıya ve varsayımlarda boğulmayan yaklaşımlara ihtiyacımız var: Makine öğrenmesi!
Sonuçlar:
- Her iki alan birbiri ile iç içe geçmiş durumdadır.
- İstatistiksel öğrenme yorumlanabilirlik ile öne çıkmaktadır ve varsayımları ile başı beladadır.(fakat piyasada çatır çutur doğrusal regresyonlar yapılıyor ve varsayımların kontrolleri söz konusu dahi değil)
- Makine öğrenmesi esnek, kullanımı kolay, varsayımlardan nispeten arınmış olmasıyla öne çıkıp yorumlanabilirliğinin az olması ile göze batıyor.
- Bu yaklaşımların tümü yapay öğrenme başlığı altında toplanabilir ve galiba daha mantıklı olur. Ethem Alpaydın hocamızın yapay öğrenme kitabında da bu şekilde bir yaklaşım izlenilmişti.
- Son madde olarak makine öğrenmesi (yapay öğrenme) daha iyi pazarlanmaktadır 🙂
- En son madde olarak: vatandaş segmentasyon yapmış, regresyon ile gelir tahmin etmiş, karar ağacı çalıştırmış, diyor ki yapay zeka! Hadi kedi köpek tanımlamak için yapay zeka yapıyoruz demeyi anlarım da bu ne arkadaş? 🙂 Bari bu camia bu kadar popüler kültür kurbanı olmasın 🙂 Eller havaya! 🙂
Esneklik ve yorumlanabilirlik ile ilgili bir görsel:
and Fight! 🙂
Simon Blomberg:
To paraphrase provocatively, ‘machine learning is statistics minus any checking of models and assumptions’. — Brian D. Ripley (about the difference between machine learning and statistics) useR! 2004, Vienna (May 2004)
Andrew Gelman:
In that case, maybe we should get rid of checking of models and assumptions more often. Then maybe we’d be able to solve some of the problems that the machine learning people can solve but we can’t!
Kaynak:
An Introduction to Statistical Learning: http://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf
An Introduction to Machine Learning: http://robotics.stanford.edu/people/nilsson/MLBOOK.pdf
Veri bilimi alanında daha derinleşmek ve tüm bu süreçleri doğru bir kaynaktan öğrenmek isterseniz eğer Data Scientist Bootcamp eğitimine kayıt olabilirsiniz.
Kapanış 🙂
Değerli katkılarınızı esirgemeyiniz.
Eline sağlık hocam ama son koyduğun resim gözükmüyor. Bi güncelleme lazım gibi.