ClickHouse : Hızlı ve Yüksek Performanslı Analitik Veri Tabanı

Herkese merhaba! Bu yazıya giriş yaparken yine “verinin giderek artan hacmi ve önemi” hakkında birkaç cümle yazmayı düşünüyordum, ancak bu farkındalık noktasına bence çoktan ulaştık😉 Geçmişten günümüze veri hacmindeki artış sürerken, büyük veri kümelerini anlamlı ve kullanışlı bilgilere dönüştürmek için, yüksek performanslı ve ölçeklenebilir veri işleme çözümlerine ihtiyaç duyulmuş, böylece paralel hesaplama ve dağıtık sistemler […]
Apache Superset ile Veri Görselleştirme

Veri görselleştirme bilindiği üzere verilerin grafiksel temsilidir. Verinin yorumlanmasını ve anlaşılmasını kolaylaştırmak için verileri çizelgeler, grafikler, haritalar ve gösterge tabloları gibi görsel formatlara dönüştürerek sunmaktır. Görselleştirme, analistlerin karmaşık bilgileri daha sezgisel bir şekilde iletmesine olanak tanıyarak, paydaşların verilerdeki eğilimleri, kalıpları ve ilişkileri hızlı bir şekilde kavramasını sağlar. Veriler, görsel olarak sunulduğunda buradan edinilecek bilgi ve […]
dbt (DataBuildTool) ile Veri Analitiği Yolculuğunda Yeni Bir Dönem

Yeniden merhaba! Hemen hemen her yazımızda veri analitiğinin, karmaşık ve dinamik bir süreç olduğuna değiniyoruzdur. Büyük veri setleri, farklı kaynaklardan gelen veri çeşitliliği ve hızla değişen iş gereksinimleri, veri analistlerine ve mühendislerine zorlayıcı bir ortam yaratıyor. Geleneksel veri yapıları ve analitik yöntemler, bu hızlı değişime ayak uydurmakta zorlanırken ve süreçler zaman alıcı ve karmaşık hale […]
Veri Kalitesi ve Güvenirliliği için Great Expectations

Meraklı okurlarımıza tekrar merhaba! Günümüzün veri odaklı dünyasında, verilerin kalitesini ve güvenilirliğini sağlamak işletmeler ve kuruluşlar için önemli bir hal almıştır. Uygun doğrulama ve izleme mekanizmaları olmadan, veri tutarsızlıkları, yanlışlıklar ve anormallikler yanlış içgörüler edinerek hatalı karar vermeye, uygulamalarımızda istenmeyen sonuçların oluşmasına veya önemli mali kayıplara yol açabilmektedir. Bilgi (yani verilerimiz) ancak yüksek kalitede olduğu […]
Delta Lake Temizliği ile Depolama Alanı Optimizasyonu

Herkese merhaba! Gittikçe artan veri hacimleriyle birlikte, verilerin depolanması, yönetilmesi konusundaki güçlüklerin de benzer oranda arttığını biliyoruz. Açık kaynaklı bir depolama katmanı olan olan Delta Lake kullanıyorsanız, bir Delta tablosunda yapılan tüm değişikliklerin izlenmesi için kullanılan log dosyaları ve verilerin kaydedildiği parquet uzantılı dosyaların zamanla arttığını gözlemlemişsinizdir. Bu dosyalar zamanla ciddi boyutlara ulaşabilir, sorgu performansını […]
Debezium ile MySQL veri tabanı değişikliklerinin yakalanması

Herkese merhaba! Bugünkü yazımızda yine keyifli bir konuya değineceğiz. Diyelim ki veri tabanımızdaki değişiklikleri yakalamak ve başka bir sunucuya/buluta kesintisiz şekilde taşımak istiyoruz veya analiz/raporlama yapmak için gerçek zamanlı veri akışı sağlamak istiyoruz. Peki bunu nasıl gerçekleştirebiliriz? Gelin cevaplamak için hem veri değişikliklerinin yakalanması (Change Data Capture) işlemini hem de bunun için özelleşmiş bir araç […]
Apache Spark, Apache Airflow, Delta Lake ve MinIO ile ETL Çalışması

Veri odaklı kuruluşlarda, çeşitli ham ve karmaşık verilerden içgörü elde etmek için gerektiğinde büyük miktarda verinin düzenlenmesi, basitleştirilmesi veya zenginleştirilmesi gerekir. ETL (Çıkart, Dönüştür, Yükle) konsepti, büyük ölçekli verileri parçalara ayırır ve veri bilimcilerin/analistlerin verilere erişmesini, verileri analiz etmesini ve bunları iş zekasına dönüştürmesini kolaylaştırır. Aynı zamanda ETL, belirli bir veri hattı (pipeline) türünü ifade […]