Sık Kullanılan Hadoop HDFS Komutları

Giriş Merhabalar bu yazımızda en sık kullanılan Hadoop hdfs komutlarına örnekler vereceğiz. Öncelikle belirtmem gerekir ki nasılki linux dünyasının süper kullanıcısı root ise hdfs dünyasının da süper kullanıcısı hdfs kullanıcıdır. Komutlar içinde sık sık hdfs kullanacağız. Bu hdfs’lerin bazısı kullanıcı bazısı da komuttur. Lütfen karıştırmayalım. Erişim yetkisi hatası almamak adına komutların başında bazen sudo -u hdfs […]

Python Pandas ile Aynı Anda Birden Fazla CSV Dosyasını Okumak

Bazen bir dizin içindeki tüm csv uzantılı dosyaları okuyup tek bir dataframe yapmak isteyebiliriz. Apache Spark bunu rahatlıkla yapabilirken pandas read_csv bunu tek başına yapamıyor maalesef. Basit okumada mutlaka csv uzantılı dosya ismini belirtmemiz gerekiyor. Aşağıda dosya ismini belirtmeden bir dizindeki csv dosyalarını okuyup tek bir pandas dataframe yapma ile ilgili bir örnek paylaşacağım. Ancak […]

Docker Sık Kullanılan Komutlar-2

Merhabalar serinin 2. yazısında sık kullandığım docker komutlarını eklemeye devam ediyorum. İlk yazıya buradan erişebilirsiniz. Docker Network Kavramı Docker Container IP Adresini Öğrenmek Docker Network (Sanal Ağ) Oluşturmak Docker Network Listeleme Docker Network Bilgilerini İnceleme Çalışan Bir Docker Container’ı Bir Network’e Bağlamak Docker Container Adını Değiştirmek Askıda Kalan Imajları Silmek Docker’ı sudo ile çalıştırmaktan kurtulmak […]

CentOS7’de yum ile yüklenen java home işlemleri

Java nereye yüklü JAVA_HOME neresi zaman zaman siz de karıştırıyor olabilirsiniz. Bu yazıda CentOS7 üzerine yum ile yüklenen java’nın home diznini öğrenecek ve kalıcı olarak JAVA_HOME’u set edeceğiz. java home dizini: Kalıcı olarak set etme: en alt satıra Ctrl+O -> Enter -> Ctrl+X Ayarların geçerli olması için: Ayarlamanın kontrolü: 0

Docker Sık Kullanılan Komutlar-1

Merhaba bu yazımda sık sık kullandığım docker komutlarını derleyeceğim. NGINX Örneği ile Docker Container Yaratma ve Çalıştırma Docker Container Listelemek Çalışan Docker Container Özelliklerini Yazdırmak Docker Container Durdurmak Docker Container Kaldırmak (rm) Docker Images Listeleme Ana Makineden Docker Container’a Dosya Kopyalamak Docker Container’dan Ana Makineye Dosya Kopyalamak Çalışmayanlar dahil Docker Container’ları Listelemek Docker Container Komut […]

HDP-Sandbox içinde YARN’a Daha Fazla Kaynak Tahsis Etmek

Merhabalar. Bu yazımızda Hortonworks’ün Hadoop sürümü olan HDP 2.6.4 Sandbox üzerinde YARN’a daha fazla kaynağı nasıl tahsis edeceğimizi göreceğiz. Bu yazımızın amacı Sandbox ile uygulama yaparken en fazla bir YARN uygulaması çalıştırabilecek kadar kısıtlı kaynağa (özellikle de RAM) sahip omasıdır. Örneğin Sandbox’ın varsayılan ayarlarında YARN belleği 3000 MB ayrılmış. Biz bu kısıtlı kaynak ile hemSpark […]

Apache Spark ile Parquet Formatında Veri Okuma (Python)

Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile csv gibi yaygın formatları okumaktan farklılık göstermesidir. Bu çalışma esnasında kullandığım ortamlar: İşletim sistemi: Windows 10 64 bit Pro IDE: Jupyter Notebook (Anaconda ile kuruldu) Spark 2.3.1 Dil: Python 3 […]

Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

Merhaba. Bu yazımızda Apache Spark ile csv uzantılı bir veri dosyasını okuyup parquet uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi okuyup yazabiliyor. Parquet, csv dosyalarına göre daha az yer kapladığı gibi okuma performansı da daha yüksek. Ayrıca okuma yaparken inferSchema veya header gibi ilave seçenekler kullanmıyoruz. Bu bilgiyi parquet formatından […]

Python Pandas float_format

Merhaba. Pandas dataframe çıktılarını incelemek için çoğu zaman df.head() metodunu kullanırız. Ancak bazen ondlıklı sayıların gösteriminde noktadan sonra çok fazla rakam olur ve bu çıktının okunup anlaşılmasını güçleştirir. Daha basit ve sade bir çıktı için ondalıklı sayıları formatlayabiliriz. Bu yazımızla bununla ilgili basit bir örnek yapacağız. Basit bir pandas dataframe oluşturalım: Yukarıdaki dataframe içinde noktadan […]

Python Pandas ile Aynı Anda Birden Fazla Excel Dosyasını Okumak

Dosya veri kaynakları arasında csv uzantılı dosyalar kadar excel dosyaları da bulunmaktadır. Pandas kütüphanesi her ne kadar bize bir .xls veya .xlsx uzantılı excel dosyalarını okumamıza imkan tanısa da bir dizin içinde birden fazla excel dosyasını okumak gerektiğinde iş bu kadar basit olmuyor. Birden çok excel dosyasını aşağıdaki gibi okuyabiliriz. yukarıda all_data ile her for […]

Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı sürecinde stringIndexer, OneHotEncoder gibi daha farklı aşamalardan geçer. Bu yazımızda Spark dataframe içindeki nitelikleri kategorik ve nümerik olarak ayırt eden ve iki farklı liste içinde bunları toplayan spark kodlarını yazacağız. […]

Apache Spark DataFrame İçinden Değerlere Ulaşmak

Merhabalar. Bu yazımızda Apache Spark Dataframe içindeki tekil bir değeri basit veri türünde (Int, Double vb.) nasıl elde edeceğimizi bir örnek ile göreceğiz. Benim yaptığım çalışma esnasında kullandığım ortam bilgileri: İşletim sistemi: Windows 10 64 bit Pro IDE: Intellij IDEA Community Edition Spark 2.3.1 Dil: Scala Kütüphaneler import org.apache.spark.sql.SparkSession import org.apache.log4j.{Logger, Level} Log Seviyesini ERROR […]

Ubuntu Kafka Kurulumu

Apache Kafka, büyük miktarlarda gerçek zamanlı veriyi verimli bir şekilde ele almak için tasarlanmış popüler bir dağıtık mesaj sistemidir. Bir Kafka kümesi(cluster), sadece yüksek derecede ölçeklenebilir ve hataya dayanıklı olmakla kalmaz, aynı zamanda ActiveMQ ve RabbitMQ gibi diğer mesaj platformlarına kıyasla çok daha yüksek bir performansa sahiptir. Genel olarak yayınla (publish) / abone ol(subscribe) mesajlaşma […]

Windows 10 Üzerine Kafka Kurmak, Mesaj Okumak ve Yazmak

Merhaba, bu yazımızda akan veri işleme ve yönetmede oldukça popüler olan Apache Kafka’nın Windows 10 üzerine kurulumu ve temel komutlarından bahsedeceğiz. Ön Gereksinimler Java kurulu olmalı Sıkıştırma programı kurulu olmalı (Örn:7-zip) ———- 1. Zookeeper Kurulumu: Bir çok Apache projesi gibi Kafka da çalışmak için Zookeeper’ın varlığına ihtiyaç duyuyor. Zookeeper’ı buradan indirebilirsiniz. Zookeeper için C veya […]

Spark Dataframe&Dataset Operasyonları-2:

Merhaba, bu yazımızda veri ön hazırlığı aşamasında, veri yüklerken, Spark Dataframe oluştururken, dataframe şekillendirirken, onu dönüştürürken, dataframe üzerinde veri keşfi yaparken vb. işlemler için kullandığım spark yapısal API operasyonlarından faydalı bulduklarımı paylaşacağım. Görkemli ve haşmetli makine öğrenmesi, derin öğrenme ve yapay zeka modelleri ile kedileri ve köpekleri ayırmak dururken bu tür basit işlerle niye uğraşıyorsun […]

Kovaryans Matrisi (Covariance Matrix) Nedir?

Kovaryans iki değişken arasındaki doğrusal ilişkinin değişkenliğini ölçen bir kavramdır. Betimsel istatistiktir. Yani var olan bir şeyi bize söyler. Ortada tahmin yoktur. Sonucun pozitif olması artan bir doğrusal ilişkiyi, negatif olması azalan bir doğrusal ilişkiyi ve sıfır civarında olması ilişkinin olmadığını gösterir. Kovaryans matrisi ise bu değişkenlerin karşılıklı kovaryans değerlerinin bulunduğu bir matristir. Aşağıda örnek […]

Apache Spark ile Artık İdeal Küme Sayısını Bulmak Daha Kolay

Bildiğimiz gibi makine öğrenmesinde öğrenme yöntemleri genel olarak denetimli (supervised) ve denetimsiz (unsupervised) şeklinde ikiye ayrılıyor. Denetimli yöntemlerde sınıflandırma ağırlık kazanırken denetimsiz yöntemlerde ise kümeleme öne çıkmaktadır. Sınıflandırmada veri içinde etiketlenmiş bir hedef değişken bulunurken kümelemede ise herhangi bir hedef değişken bulunmaz. Bu nedenle kümeleme daha çok veri içindeki nesnelerin doğal gruplanmalarını ortaya çıkarmaya yöneliktir. […]

Windows 10 Spark-2 Kurulumu

Apache Spark büyük veri analizinin en önde gelen platformu olarak popülerliğini ve önemini gittikçe arttırıyor. Bir çok insan Spark’ın bu değerini farkettiğinden Spark öğrenmeye başlıyor. Birçok kullanıcının bilgisayarında Windows işletim sistemi kurulu. Spark’ı Windows işletim sistemi üzerine de kurarak kullanabiliriz. Ancak bu hususta çok detaylı bir kılavuz olmadığından bir çok Spark öğrencisi Windows üzerinde Spark […]

Apache Spark 2.3.0 OneHotEncoderEstimator: Scala Örnek Uygulaması

Apache Spark 2X’e geçtikten sonra dördüncü sürümünü genel kullanıma sundu. Son sürüm 2.3.0. Bu sürümle birlikte gelen bir çok yenilik arasında MLlib kütüphanesindeki OneHotEncoderEstimator da yer alıyor. Bu sınıf, makine öğrenmesinde veri hazırlığı aşamasında kategorik niteliklerin vektör haline getirilmesine katkıda bulunuyor. Eskisinden farkı; sınıf Transformer’dan Estimator’a dönmüş. Anlaşılabilecek değişiklik; eski sürümde nitelikleri tek tek girdi olarak […]

Linux Kullanıcı Ekleme, Gruba Ekleme, Parola-Şifre Belirleme

Linux’ta sık sık yapmayıp da ara sıra yaptığımız bazı şeyleri unutuyoruz. Ben de öncelikle kendim hatırlamak için kısa ve öz bir şekilde CentOS7 üzerinde kullanıcı oluşturma, grup oluşturma, home dizin oluşturma, kullanıcıyı gruba ekleme ve şifre belirleme gibi hususlara örnek vereceğim. Kullanıcı ve home dizin oluşturma Önce kullanıcı ve home dizin oluşturalım: -m argümanı kullanıcı […]

Yazar: Erkan ŞİRİN