Veri Bilimi Okulu

Apache Spark’ın Çalışma Mimarisi

Loading

Herkese merhabalar, önceki yazımda Apache Spark’a giriş yapmıştık. Bu sefer daha derinliklere inip Apache Spark’ın çalışma mimarisine ve cluster moduna göz atacağız. 1. Spark’ın Cluster Moduna Bakış 1.1. Cluster manager Spark Cluster’ı bir çok cluster manager (cluster kaynak yöneticisi) ile birlikte çalışabilmektedir. Standalone Spark’ın kendine ait cluster yöneticisidir, varsayılan olarak gelir. Apache Spark Hadoop ve […]

Apache Spark’a Giriş

Loading

Verinin her geçen gün katlanarak büyüdüğü günümüz dünyasında o veriyi işleyebilmenin ve veriden anlamlı çıkarımlarda bulunabilmenin önemi de katlanarak artmaktadır. Ancak terabaytlarca ve hatta petabaytlarca verimizin olduğu ve içinde ilişkisel veritabanlarının, NoSQL’lerin ve text, CSV ve JSON, parquet gibi yarı yapısal ve yapısal olmayan verilerin bulunduğu bir ekosistemde klasik yöntemlerle analiz yapmak çok zordur. İşte […]

Apache Kafka’da Dağıtım Stratejileri ve Tutarlılık/Erişebilirlik Tercihleri

Loading

Merhaba VBO okuyucuları, Bu yazımda öncelikle Apache Kafka’nın kullandığı mesajlaşma modellerinden ve mesaj dağıtım stratejilerinden bahsedeceğim. CAP teoremine göre dağıtık sistemler tutarlılık (Consistency), erişebilirlik (Availability) ve bölünebilme toleransı (Partition tolerance) özelliklerinden aynı anda en fazla iki tanesine sahip olabilir. Kafka’da da tutarlılık ve erişebilirlik arasında bir seçim (tradeoff) vardır. Olası senaryolara göre sisteminizin tutarlılığının veya […]

Apache Kafka CLI Uygulaması

Loading

Merhabalar, önceki yazımda Apache Kafka’ya giriş yapıp, temel bileşenlerinden bahsetmiştim. Bu yazıdaysa kavramların daha iyi anlaşılması için komut satırında uygulama yapacağım. Özellikle topic partition ve consumer group gibi kavramların üzerinde durmayı planlıyorum. 1 – Kafka Topic Özellikleri Kafka’da topic ile ilgili işlemler kafka-topics komutuyla yapılır. –create ile yeni bir topic oluşturabiliriz. Topic’ler daha önceleri sadece […]

Apache Kafka: Temel Kavramlar

Loading

Apache Kafka, verilerin bir sistemden hızlı bir şekilde toplanıp diğer sistemlere hatasız bir şekilde transferini sağlamak için geliştirilen dağıtık bir veri akış mekanizmasıdır. Başlangıçta 2011’de Linkedin tarafından Java ile geliştirilen Kafka daha sonra Apache çatısı altında açık kaynak bir projeye dönüştürülmüştür. Günümüzde Linkedin, Netflix, Uber, Twitter gibi devasa boyutlarda veriye sahip olan birçok firma tarafından […]

Password Requirements:

  • At least 8 characters
  • At least 1 lowercase letter
  • At least 1 uppercase letter
  • At least 1 numerical number
  • At least 1 special character