Yazar Hakkında
Toplam 180 yazı
Erkan ŞİRİN
Erkan ŞİRİN
10 yılı aşkın süredir yurtiçi ve yurtdışında sektörde büyük veri mühendisliği, platform yönetimi ve makine öğrenmesi ile ilgili çalışmalar yürütmekte ve aynı zamanda birçok kurum ve şirkete danışmanlık ve eğitimler vermektedir. Çalışma alanları: Data ve MLOps platformları, gerçek zamanlı veri işleme, değişen veriyi yakalama (CDC) ve Lakehouse.
Data Engineering

Airflow-GitHub Entegrasyonu: GitHub DAG Dosyalarınız Anında Airflow’da

Airflow-Github veri akışları (data pipelines) orkestrasyonu için sektörde yaygın olarak kullanılan bir ikili. Python ile yazdığınız DAG dosyaları Airflow ile buluştuğunda Airflow bu DAG dosyalarında...

Data Engineering Docker

Linux Container SSH Bağlantısı

Bu yazıda özetle bir docker konteynerden diğerine ssh (container to container ssh) ile bağlanma örneği yapacağız. İş hayatında sık sık bir uzak linux sunucuya bağlanıyoruz....

Büyük Veri Makine Öğrenmesi PySpark Spark Veri hazırlığı Veri Ön İşleme

Spark ML Custom Transformer Yazma

Bu yazımızda Spark ML Custom Transformer yazacağız. Spark’ın makine öğrenimi kütüphanesi (MLlib), veri bilimcilere ve makine öğrenimi mühendislerine zengin bir araç seti sunuyor. Model geliştirme...

Büyük Veri PySpark Regresyon Veri Bilimi

Scikit-Learn Spark Deployment

Makine öğrenimi modelleri, günümüzde birçok alanda veri analizinin ve tahminlerin temelini oluşturuyor. Scikit-learn ise en başından beri Python ile yapılan çalışmalarda, basit arayüzü ve geniş...

Büyük Veri

Polars ClickHouse Veri Okuma ve Yazma

Ham verinin düzenli olarak temizlenerek analitik ortamlarda istiflenmesi ve buradan da analiz, görselleştirme ve yapay zeka çalışmalarının yapılması hemen hemen her işletmede standart, temel ve...

Data Engineering

Docker ile Kolay ve Hızlı Apache Airflow Kurulumu

Veri mühendisliği, analitik ve makine öğrenmesi projelerinde, iş akışlarını yönetmek ve otomatikleştirmek için güçlü bir araç arıyorsanız, Apache Airflow ilk seçeneklerden birisi olacaktır. Airflow, karmaşık...

Büyük Veri PySpark

Docker ile Hızlı ve Kolay PySpark ve Jupyter Kurulumu

Büyük veri analizi, günümüzün veri odaklı dünyasında giderek daha önemli hale geliyor. PySpark ve Jupyter Notebook, bu alanda en popüler araçlardan ikisi. PySpark, büyük veriyi...

Büyük Veri PySpark Spark

Apache Spark, Minio, Nessie Catalog, Iceberg ve Docker ile Lakehouse Örneği

Veri ambarı (data warehouse) ile veri gölünün (data lake) en iyi yönlerini birleştirerek bizlere ilişkisel veri tabanı konforunu büyük veri üzerinde sunan lakehouse çözümleri gün...

Kafka Büyük Veri Data Engineering Distributed Systems

Kafka Connect Nedir?

Kafka Connect, Apache Kafka’nın tamamlayıcı bir parçasıdır ve diğer sistemleri Kafka ile entegre eder. Örneğin Kafka Connect, değişiklikleri bir veritabanından (source) Kafka’ya aktarmak ve buradan...

AWS Büyük Veri Data Engineering

AWS Glue ile Basit Bir ETL Uygulaması

AWS Glue, birden çok kaynaktan veri keşfetmeyi, hazırlamayı, taşımayı ve entegre etmeyi kolaylaştıran sunucusuz bir veri entegrasyon hizmetidir. AWS üzerinde ETL ihtiyaçları genellikle Glue ile...

×

Bir Şeyler Ara