Ağaca Dayalı Yöntemlerde Bagging ve Boosting Arasında ne Fark var?

Random Forests, GBM, XGBoost’un bu yaklaşımlar ile ne ilgisi var?

Merhabalar,

Soru: Ağaca dayalı yöntemlerde “Bagging” ve “Boosting” ifadeleri geçiyor bunlar ne anlama gelmektedir ve aralarında ne fark vardır?

Cevap: İki yöntemde teknik olarak aşırı öğrenme ve model performanslarını arttırmaya yönelik ortaya çıkan yaklaşımlardır.

Bagging, “bootstrap aggregation” ifadesinin kısaltılmışıdır. Bu ne anlama gelir? Yeniden örneklem yöntemi ile elde edilen ağaçların bir araya getirilmesi anlamına gelir. Bu açıdan tek ağaç yapılarına bambaşka bir bakış açısı getirmiş ve makine öğrenmesi dünyasını ileri taşmıştır. Bu yöntemde örnek veri seti içerisinden yerine koyacak şekilde tekrar tekrar örnekler çekilerek yeni ağaçlar oluşturulur ve bu ağaçlardan ortaya bir topluluk çıkar. Ağaç topluluğu. Bu sebeple topluluk öğrenme yöntemleri olarak anılır. Ortaya çıkan ağaçların hepsi modelleme için kullanılarak her birisine fikri sorulur. Her birisinin fikri değerlendirilerek bir oylama/ortalama fikir alınarak tahmin işleminin sonucu tek bir ifade olarak ortaya sunulur. Bagging bir metodoloji olarak görülmelidir. Örneğin CART algoritması bag edildiğinde ortaya bagged tree çıkar. CART algoritması hem gözlem hem değişken bazında bag edildiğinde ortaya Random Forests çıkar.

Bu çabanın sonucunun bir başka şekilde ifadesi: gözlem ve değişken bazında rassallık sağlanır, aşırı öğrenme problemi hafifler ve tahmin başarısı artar.

Boosting yöntemleri ise tek bir cümle ile ifade edilecek olursa: artık optimizasyonuna dayalı performans arttırmaya çalışır.  Yani modeller adaptiftir. Kümülatif bir hata değerlendirme söz konusudur. Boosting de bir metodoloji olarak görülmelidir. AdaBoost, Gradient Boosting Machines, XGboost özelliklerini bu “boost” etme yaklaşımından almıştır. Temelinde zayıf sınıflandırıcıları bir araya getirilmesi fikri vardır. Bu fikrin algoritmik karşılığı ise tek bir tahminsel model formunda olan modeller serisi oluşturmaktır. Seri içerisindeki bir model serideki bir önceki modelin tahmin artıklarının/ hatalarının (residuals) üzerine kurularak (fit) oluşturulur. İşte burada adaptif learning kavramı daha iyi anlaşılacaktır. Ağaçlar bağımsız değil bağımlıdır.

Bagging ve boosting arasındaki en önemli fark budur. Oluşturulacak olan ağaçların bir önceki ağaçlar ile bağımlılıkları olup olmaması ve hata optimizasyonunun artıklar üzerinden kümülatif olarak olup olmamasıdır.

Netice olarak birden fazla ağaç ile çalışmak, gözlem ve değişken seçiminde rassallığı kullanmak, bağımsız ağaçlar ya da bağımlı ağaçlar oluşturmak fikirlerinin harmanlanarak zirveye ulaştığı algoritmalar GBM, XGboost ve LightGBM gibi algoritmalardır. En temelindeki çok ince konu ise RASSALLIK sağlamaya çalışmaktır.

Veri bilimi alanında daha derinleşmek ve tüm bu süreçleri doğru bir kaynaktan öğrenmek isterseniz eğer Data Scientist Bootcamp eğitimine kayıt olabilirsiniz.

 

 

Yazar Hakkında
Toplam 12 yazı
Mustafa Vahit KESKİN
Mustafa Vahit KESKİN
Yorumlar (1 Yorum)
Duygu Karasakal
Duygu Karasakal Yanıtla
- 13:56

Mükemmel bir anlatım.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×

Bir Şeyler Ara