Hadoop HDFS Nedir?

HDFS Hadoop projesinin en temelinde bulunan çok büyük hacimli verileri depolamak için tasarlanmış java tabanlı dağıtık bir dosya sistemidir. Hatalara karşı dayanıklıdır. Ölçeklenebilir. Düşük maliyetlidir. Büyük veriler için idealdir. HDFS Öne Çıkan Özellikler Bir kez yaz defalarca oku Özel bir donanım istemez, marka bağımsız Anında cevap beklenen uygulamalar için ideal değil Büyük verileri makul bir […]

Keras Derin Öğrenme Kütüphanesi ile Sınıflandırma: Iris Veri Seti Üzerinde Uygulama

Merhaba. Bu yazımızda son yıllarda çok popüler bir konu olan derin öğrenme ile basit bir sınıflandırma uygulaması yapacağız. Derin öğrenmenin temelinde yapay sinir ağları bulunmaktadır. Uygulamamızda veri seti olarak Iris veri setini, sınıflandırıcı olarak da yapay sinir ağını kullanacağız. Programlama dilimiz Python, temel kütüphenelerimiz scikit-learn, tensorflow, keras olacaktır. Iris veri setini bu yazı ile daha yakından […]

Çoklu Doğrusallık Sorunu Çözümünde VIF

Çoklu regresyon analizinde bağımsız niteliklerin bağımlı nitelik üzerindeki etkisi incelenir. Bazı bağımsız nitelikler birbirleriyle yüksek doğrusal korelasyona sahip olduğundan bağımlı değişken üzerindeki etkisi dağılır. Modelin sadeliği va anlaşılırlığı adına bağımlı değişkene en çok etki eden az sayıda değişken ile model oluşturmak arzu edilen bir durumdur. Küçük veri analizinde kullanılan SPSS gibi paket programlar çoklu bağlantı tesptini yapabilmektedir. […]

Anormallik Analizinde Kullanılan Yöntemler (Outlier Analysis Methods)

Outlier Analysis Methods’e girmeden önce kısa bir alıntı ile giriş yapalım. Siyah kuğular görülmeden evvel yeryüzündeki tüm kuğular beyaz sanılırmış. Bir gün siyah kuğu ile karşılaşan insanoğlu, onu sıra dışı ilan etmiş. Nicholas Taleb, Black Swan isimli kitabının girişinde bu konuya temas eder. Kitabın ana fikri şu: Aslında insanlar önemli kararları ve köklü düzen değişikliklerini […]

Apache Spark ML Kütüphanesi: Pipelines Örnek Uygulama

1. Giriş Merhabalar. Bildiğimiz gibi Spark, büyük veri dünyasının en popüler analitik motoru. Özellikle durağan büyük boyutlu veriler (persistent data) üzerinde hızlı bir şekilde makine öğrenmesi algoritmalarını çalıştırabilmesi Spark’ı farklı kılan özelliklerin başında geliyor. Arkadaşımız o kadar yetenekli ki sadece durağan verileri işlemiyor, aynı zamanda akan verileri de işleyebiliyor. Spark’ın makine öğrenmesi için bir kütüphanesi var. […]

Ensemble Yöntemler (Topluluk Öğrenmesi): Basit Teorik Anlatım ve Python Uygulama

1. Enseble Yöntemler Nedir? Bir Benzetme Sınıflandırma algoritmaları ile bir nesnenin hangi sınıfa dahil olacağını tahmin etmeye çalışırız. Birçok sınıflandırma yöntemi arasından probleme uygun olanı seçer, gerekli optimizasyonları yapar ve yüksek doğruluk oranlarını yakalamaya çalışırız. Peki bu işi 3-5 tane sınıflandırıcı ile yapsak veya aynı sınıflandırıcıyı aynı eğitim setinin farklı alt kümeleri ile eğitsek ve her birine […]

BG-12: Lokal Repository Kurulumu

Lokal respository kurum ve şirketlerin sıklıkla kullandığı bir uygulamadır. Lokal repository sayesinde her bir kullanıcı bilgisayarı veya sunucular genel internetten karşıladığı paket yükleme, güncelleme vb. işlemleri kurum/şirket lokal repository’sinden karşılar. Böylelikle yüzlerce binlerce bilgisayarın internetten tek tek yapacağı işi, bir sunucu bir kere yapar. Böylelikle geniş alan ağ trafiği azaltılmış olur. Lokalz repository kullanımına zorunlu […]

BG-9: Sanal Makineleri Kopyalama ve Parolasız SSH Bağlantısı

Baz şablon sunucu hazırlandıktan sonra bunu cluster planındaki sunucu sayısı kadar çoğaltıyoruz. Benim planımda 6 sunucu kurmak vardı, o yüzden 6 tane kopyaladım. Bu yazıda kopyalanmış sunucuların içine tek tek girip ip ve hostname değişikliği yapacağız. Tek tek yapmak ip çakışmasını önlemek için önemlidir. Sonrasında sunucular arasında passwordless-ssh kuracağız. Passwordless-ssh Ambari ile yapılan kurulumlarda büyük […]

BG6: VMWare Tools Yükleme

Sunucuları kopyalamadan önce sanal makinemize VMware Tools yüklemekte fayda var. Aslında bu diziden bağımsız bir yazı da olabilir. Buradaki salt amaç: Linux CentOS sanal makineye VMware Tools kurmaktır. Kuruluma geçmeden önce vmware tools için bazı ön gereksinimler var onları yum ile kurmalısınız: perl ve gcc. WM menüsünden Install VMware Tools’a basıyoruz. Karşımıza aşağıdaki ikaz çıkıyor. […]

BG1: Kişisel Bilgisayara Büyük Veri Kurulumu Yapmak

1. Giriş Big data bildiğimiz gibi son zamanlarda üzerinde çok konuşulan bir kavram. Yapılan araştırmalar ve sektörel gelişmeler big data kullanımının artan bir trendle devam edeceğini gösteriyor. Artık big data ile ilgili bilgi ve yeteneklerimizi; big data nedir? iyi bir şey midir? çalışma mantığı nedir? vb. ötesine taşımalıyız. Yani elimizi hamura sokmalıyız, pardon kodlara dokunmalıyız. Ben […]

BG2: Cluster Ağ ve IP Planlaması

1. VMware Sanal Ağ Ayarları Editörü (Virtual Network Editor) Hadoop Big Data Cluster için basit de olsa ağ ve ip planlaması yapmamız gerekiyor. Tüm sunucularımızın internete çıkmasını istiyoruz. Bu sebeple VMware network adaptörü NAT’da (varsayılan) bıraktık. Böylelikle oluşturulan her sanal sunucu ana makinenin ip’si ile internete çıkış sağlayacaktır. Ağ ve ip yapılandırmasını yapmak için VMware […]

BG3: VMWare ile Sanal Makine Yaratmak

Kişisel Bilgisayara Gerçek Bir Hadoop Big Data Clusterı Kurmak yazı dizimizin üçüncüsüne devam ediyoruz. İlk yazımızda genel bir giriş yapmıştık. İkinci yazımızda ise ağ ve ip planlaması yaptık. Bu yazımızda belirlediğimiz uygulama planına göre devam ediyoruz. Planımıza göre 6 sunuculu bir Hadoop cluster kurmayı hedeflemiştik. İşimizi kolaylaştırmak için VMware ile bir sanal makine oluşturacağız. Bu […]

BG4: İşletim Sistemini Yüklemek

Bu yazımızda daha önce VMware ile yarattığımız sanal makine üzerine CentOS7 64-bit işletim sistemini kuracağız, gerekli yükleme seçeneklerini belirleyeceğiz ve internete erişir hale getireceğiz. BASECENTOS7 sanal makinemizi başlatıyoruz. Sanal DVD sürücüde CentOS-7-x86_64-DVD-1708.iso takılı olduğu için oradan başlatacaktır. Karşımıza çıkan ekranın içine tıklayıp mouse ve klavye komutlarını sanal makineye teslim editoruz. TAB tuşuna tıklayıp imlecin yanıp […]

BG5: Gerekli Yazılımları Yüklemek

Şimdiye kadar internete bağlanan bir makine kurduk. Öncelikle internete bağlı bir makine yapmamızın sebebi gerekli yazılımların kurulması için internet bağlantısına ihtiyacımızın olmasıydı. Bu yazımızda aşağıdaki yazılımları kurup bazı küçük ayarlamalar yapacağız. 1. Yüklemesi Zorunlu Programlar: yum rpm scp, curl, unzip, tar wget OpenSSL Python 2.7.X java (1.8 ve üzeri) ssh ntp Ayrıca ben bu yazıdan itibaren ana […]

BG7: Baz Şablon Sunucu Konfigürasyonu

Baz şablon sunucumuza (basecentos7min) gerekli yazılımları yükledik. Şimde bazı ayarları yapılandıracağız. 1. Ağ ayarlarının kontrolü İşletim sistemi kurulumu esnasında ağ ayarlarını yapmıştık. Ağ ayarları deyince gözümüz korkmasın basit bir kaç değerden ibaret. ip, gateway, dns server, subnetmask ve hostname. 2. Hosts dosyasını düzenleme Her bilgisayar aslında kendi içinde küçük bir dosyada isim çözümlemesi tutar. Linux […]

BG8: Uzman Seviyesi Linux Kernel Ayarları

Linux kernel ayarlarını varsayılanda bıraksak da sıkıntı olmaz ancak biz bu makineleri big data için kullanacağız bu sebeple bazı konfigürasyon değişikliği yapmak hem faydalı hem de performans artırıcı olacaktır. Bu ayarları yapmadan devam edebilirsiniz. 1. Tavsiye Edilen Linux Kernel Parametreleri: Değiştireceğimiz temel kernel ayarları /etc/sysctl.conf dosyasındadır. [root@basecentos7min ~]# nano /etc/sysctl.conf # sysctl settings are defined through […]

BG9: Sanal Makineleri Kopyalama ve Parolasız (Passworless-SSH) Bağlantısı

BG10: Hadoop Cluster Planı

Hadoop clusterında bulunacak servislerin sunuculara dağıtımına cluster planlaması diyoruz. Hangi servis hangi sunucuda çalışacak, master nodelar hangileri, slave nodelar hangileri, edge server hangisi olacak, meta data tutan ilişkisel veritabanlarını nereye kuracağız, local repository nerede olacak bunların planlamasını bu aşamada yapıyoruz. Aşağıdaki şekilde plana göz atılabilir. Şeklin anlaşılır kılmak adına ayrıntılara yer vermedik. Biz burada basit […]

BG11: Edge Server Hazırlama (httpd ve pssh)

Şimdiye kadar cluster planımızı yaptık, birbiriyle haberleşen 6 sunucu hazırladık. Cluster planımızda node3’ü edge server olarak belirlemiştik. Bu yazımızda edge serverı clusterı kurmaya yönelik olarakApache httpd servisini ve paralel ssh (pssh) kurulumu yapacağız. 1. Paralel ssh Kurulumu ve Kullanımı Cluster kurulumunda veya yönetiminde sunucularımıza birçok işlem yapıyoruz. Her sunucuya tek tek bağlanıp bu işlemleri yapmak çok […]

BG12: Local Repository Kurulumu

1. Giriş Lokal respository kurum ve şirketler tarafından sıklıkla kullanılır. Lokal repository sayesinde kullanıcı bilgisayarları veya sunucular genel internetten karşıladığı paket yükleme, güncelleme vb. işlemleri kurum/şirket lokal repositorysinden karşılar. Böylelikle yüzlerce, binlerce bilgisayarın internetten tek tek yapacağı işi, bir sunucu bir kere yapar ve geniş alan ağ trafiği azaltılmış olur. Lokal repository kullanımına zorunlu hale […]

Yazar: Erkan ŞİRİN