Yazar Hakkında
Toplam 180 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Python

Python Pandas ile Aynı Anda Birden Fazla CSV Dosyasını Okumak

Bazen bir dizin içindeki tüm csv uzantılı dosyaları okuyup tek bir dataframe yapmak isteyebiliriz. Apache Spark bunu rahatlıkla yapabilirken pandas read_csv bunu tek başına yapamıyor...

Teknik

Docker Sık Kullanılan Komutlar-2

Merhabalar serinin 2. yazısında sık kullandığım docker komutlarını eklemeye devam ediyorum. İlk yazıya buradan erişebilirsiniz. Docker Network Kavramı Docker Container IP Adresini Öğrenmek Docker Network...

Genel bir bakış

CentOS7’de yum ile yüklenen java home işlemleri

Java nereye yüklü JAVA_HOME neresi zaman zaman siz de karıştırıyor olabilirsiniz. Bu yazıda CentOS7 üzerine yum ile yüklenen java’nın home diznini öğrenecek ve kalıcı olarak...

Docker Teknik

Docker Sık Kullanılan Komutlar-1

Merhaba bu yazımda sık sık kullandığım docker komutlarını derleyeceğim. NGINX Örneği ile Docker Container Yaratma ve Çalıştırma Docker Container Listelemek Çalışan Docker Container Özelliklerini Yazdırmak...

Büyük Veri Hadoop

HDP-Sandbox içinde YARN’a Daha Fazla Kaynak Tahsis Etmek

Merhabalar. Bu yazımızda Hortonworks’ün Hadoop sürümü olan HDP 2.6.4 Sandbox üzerinde YARN’a daha fazla kaynağı nasıl tahsis edeceğimizi göreceğiz. Bu yazımızın amacı Sandbox ile uygulama...

Büyük Veri Python Spark

Apache Spark ile Parquet Formatında Veri Okuma (Python)

Merhaba bu yazımızda parquet uzantılı bir dosyanın pyspark ile nasıl okunacağını göreceğiz. Bu yazıyı yazmamızın sebebi pyspark ile parquet dosyası okumanın, standart dataframe API’si ile...

Büyük Veri Spark Veri hazırlığı Veri Ön İşleme

Apache Spark ile Parquet Formatında Veri Yazma ve Okuma (Scala)

Merhaba. Bu yazımızda Apache Spark ile csv uzantılı bir veri dosyasını okuyup parquet uzantılı olarak diske kaydedeceğiz ve kaydettiğimiz parquet dosyasını tekrar Spark ile okuyacağız. Spark, birçok formatta veriyi...

Python Veri hazırlığı Veri Ön İşleme

Python Pandas float_format

Merhaba. Pandas dataframe çıktılarını incelemek için çoğu zaman df.head() metodunu kullanırız. Ancak bazen ondlıklı sayıların gösteriminde noktadan sonra çok fazla rakam olur ve bu çıktının...

Python Uygulama Veri hazırlığı Veri Ön İşleme

Python Pandas ile Aynı Anda Birden Fazla Excel Dosyasını Okumak

Dosya veri kaynakları arasında csv uzantılı dosyalar kadar excel dosyaları da bulunmaktadır. Pandas kütüphanesi her ne kadar bize bir .xls veya .xlsx uzantılı excel dosyalarını...

Genel bir bakış Büyük Veri Spark Veri hazırlığı Veri Ön İşleme

Spark Dataframe İçindeki Kategorik Nitelikleri Otomatik Olarak Seçmek

Merhaba. Spark dataframe ile çalışırken zaman zaman içindeki kategorik değişkenleri seçeriz. Özellikle makine öğrenmesi öncesinde veri hazırlığı aşamasında bunu mutlaka yapmalıyız. Çünkü kategorik nitelikler veri hazırlığı...

×

Bir Şeyler Ara