Nedir Bu Iris Çiçek Muhabbeti?
Merhaba , veri bilimleriyle uğraşan arkadaşlar çoğu kez iris çiçeği ile temas kurmuştur. Bu işe ilk başladığımda ben de “Nedir bu çiçek muhabbeti?” diye anlamakta güçlük çekmiştim. Sonra olayı öğrenince “Haaa!, olay bu muymuş yahu” dedim. Bu işe yeni başlayanlar veya hala iris muhabbetini bilmeyenler benim gibi eziyet çekmeden olayı şipşak anlasınlar diye bu yazıyı yazıyorum. Yukarıdaki fotoğrafta görüldüğü gibi iris bir çiçek. 1936’da adamın biri [1] (bilim insanı) bu çiçeğin üç türüne (setosa, versicolor, virginica) ait 50’şer tane, toplamda 150 tane olmak üzere çiçek bulmuş ve hepsinin üst ve alt çiçek yapraklarını ölçmüş. Bu ölçümden dört nitelikli [sepal-length (alt yaprak uzunluğu cm), sepal-with (alt yaprak genişliği cm), pedal-length (üst yaprak genişliği cm), pedal-width (üst yaprak uzunluğu cm)] ve 150 elemanlı bir veri seti elde etmiş. Bu veri seti makine öğrenmesi (machine learning) alıştırmalarında çok sıklıkla kullanılagelmiş. Veri setini buradan indirebilirsiniz.
Bu olayda amaç iris çiçeğinin dört niteliğini kullanarak hangi türe ait olduğunu tahmin etmek. Yani klasik bir sınıflandırma problemi. Aşağıda 150 kayıtlık veri setinin bir bölümü görülmektedir.
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
5.5,2.3,4.0,1.3,Iris-versicolor
6.5,2.8,4.6,1.5,Iris-versicolor
5.7,2.8,4.5,1.3,Iris-versicolor
6.3,3.3,4.7,1.6,Iris-versicolor
4.9,2.4,3.3,1.0,Iris-versicolor
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
6.3,2.9,5.6,1.8,Iris-virginica
6.5,3.0,5.8,2.2,Iris-virginica
7.6,3.0,6.6,2.1,Iris-virginica
4.9,2.5,4.5,1.7,Iris-virginica
7.3,2.9,6.3,1.8,Iris-virginica
6.0,3.4,4.5,1.6,?
Yukarıdaki en son kaydın hangi türe ait olduğunu makine öğrenmesi ile tahmin etmeye çalışma problemi, sınıflandırma. Her bir satır, bir çiçeğe ait ölçüm değerlerini gösterir. Özellikler sırasıyla sepal-length (alt yaprak uzunluğu cm), sepal-with (alt yaprak genişliği cm), pedal-length (üst yaprak genişliği), pedal-width (üst yaprak uzunluğu). Sınıflarımız ise setosa, versicolor ve virginica. Lojistik regresyon yazımızda belirttiğimiz gibi lojistik regresyon binary sınıflandırmada üstün iken ikiden fazla sınıflandırmada lineer diskriminant analizi daha iyi sonuç veriyordu. Eğitim setimizdeki yaprak uzunluk ve genişliklerini kullanarak öğreniyoruz ve bunun karşılığında yeni kaydın üç adet sınıftan hangisine ait olduğunu tahmin ediyoruz. Iris setinin bu kadar yaygın olarak kullanılmasının sebebi yaprak uzunluk ve genişlikleri ile türler arasında güçlü bir ilişkinin olması hem de yeni başlayanlar için anlaşılması kolay olmasıdır. Lineer diskriminant analiziyle birlikte bu problemin çözümünde K-en yakın komşu yaklaşımı da kullanılabilir. Sınıfı bilinmeyen (soru işareti) yeni bir çiçeğin yaprak ölçüleri kendisine en yakın K adet çiçekten en çok hangi sınıfa mensup ise o sınıftadır diyeceğiz. Selamlar…
[1] R.A. Fisher. “The Use of Multiple Measurements in Taxonomic Problems.” Annual Eugenics 7:PartII (1936), 179–188.
Gercekten cok yararli bir yazi olmus. Erasmusta bu kadar aciklayici turk kaynak bulmak zordu. Tesekkurler 🙂
Çok teşekkür ederim.