Veri Kalitesi ve Güvenirliliği için Great Expectations
Meraklı okurlarımıza tekrar merhaba! Günümüzün veri odaklı dünyasında, verilerin kalitesini ve güvenilirliğini sağlamak işletmeler ve kuruluşlar için önemli bir hal almıştır. Uygun doğrulama ve izleme...
Veri Kalitesi ve Güvenirliliği için Great Expectations
Meraklı okurlarımıza tekrar merhaba! Günümüzün veri odaklı dünyasında, verilerin kalitesini ve güvenilirliğini sağlamak işletmeler ve kuruluşlar için önemli bir hal almıştır. Uygun doğrulama ve izleme...
Delta Lake Temizliği ile Depolama Alanı Optimizasyonu
Herkese merhaba! Gittikçe artan veri hacimleriyle birlikte, verilerin depolanması, yönetilmesi konusundaki güçlüklerin de benzer oranda arttığını biliyoruz. Açık kaynaklı bir depolama katmanı olan olan Delta...
Ray: Python ile Dağıtık Veri İşleme
Ray, gerçek zamanlı veri işleme sistemleri ve yapay zeka araştırmalarının yapıldığı RISELab tarafından 2017’de başlatılan bir projedir. Apache 2.0 lisansına sahip olan Ray, açık kaynaklı...
AWS Glue ile Basit Bir ETL Uygulaması
AWS Glue, birden çok kaynaktan veri keşfetmeyi, hazırlamayı, taşımayı ve entegre etmeyi kolaylaştıran sunucusuz bir veri entegrasyon hizmetidir. AWS üzerinde ETL ihtiyaçları genellikle Glue ile...
Airflow EmailOperator Kullanarak E-Posta Gönderme
Merhaba, bu yazıda Airflow EmailOperator’ü kullanarak nasıl e-posta gönderileceğinden bahsedeceğim. İlk olarak Docker ile Airflow’u kuracağız. Kurulumu, Airflow’un resmi web sitesinden indirilebilen docker-compose.yaml dosyasını kullanarak...
Trino
Merhaba bu yazıda size Trino’dan bahsedeceğim. İlk olarak Trino’nun kısaca ne olduğuna bakalım ve ardından demo uygulaması yapalım. Trino Nedir? Trino, büyük veri analizi için...
Apache Spark’ı Hangi Ortamlarda Kullanabiliriz?
Apache Spark büyük veri ve analitik dünyada çok popüler bir araç. Spark’ı bir çok farklı amaçla kullanabileceğimiz gibi bir çok farklı ortamda çalıştırabiliriz. Bu yazımızda...
Jenkins ile bilgilendirme e-postası nasıl gönderilir?
Jenkins, herhangi bir projeyi oluşturmayı, dağıtmayı ve otomatikleştirmeyi destekleyen bir CICD aracıdır. Projeyi oluşturduk, dağıtımını da gerçekleştirip otomatize ettik peki sürecin herhangi bir yerinde hata...
Apache Flink ile Kafka’dan Mesaj Okuma (Scala)
Herkese merhaba. Apache Flink gerçek zamanlı veri işleme konusunda oldukça başarılı ve popüler bir araç. Böyle olmasına rağmen ilginç bir şekilde Flink öğrenmek için yeterli...
Zookeeper-less Kafka Cluster Kurulumu
Bu yazımızda Zookeeper olmadan Docker ile Kafka cluster kurulumu yapacağız ve böylelikle 3-node Zookeeper-less Kafka’yı deneme şansı bulacağız. Bildiğimiz gibi Kafka yakın zamanda Zookeeper bağımlılığına...