Pratik Bilgiler ve Komutlar: Hive

Merhabalar. Pratik Bilgiler ve Komutlar serisinin bu yazısındaki ipuçları Apache Hive ile ilgili olacaktır. Apache Hive HDFS (Hadoop Distributed File System) üzerinde tutulan verileri SQL yeteneklerimizle manipüle etmemizi sağlayan bir araç. Tek cümle ile tanımlamak gerekirse; veri tabanı tadında ama veri tabanı değil. MapReduce kodu yazmak yerine SQL sorguları ile veri manipülasyonu yapmamızı sağlıyor. Aşağıda […]

Spark ile Cassandra’dan Veri Okumak

Merhabalar, Spark ve Cassandra büyük veri dünyasının önde gelen 2 popüler aracı. Apache Cassandra NoSQL veri tabanlarının önde gelen isimlerinden birisi. Adem-i merkeziyetçi yapısıyla (no master-slave) ve yüksek yazma performansıyla dikkatleri üzerine çekiyor. Apache Spark ise bildiğimiz gibi büyük veri işleme motoru/çatısı. Spark ile çok geniş yelpazede veri manipülasyonlarını gerçekleştirebiliyoruz. Spark’ın klasik veri işleme araçlarından […]

Pratik Bilgiler Komutlar: Linux

Merhabalar. Serimizin bu yazısındaki ipuçları linux işletim sistemleri ile ilgili olacak. İki linux bilgisayar arasında nasıl dosya kopyalanır? Linux’ta her şeye otomatik olarak yes demek. Elle her sorulduğunda yes demekten kurtulmak – otomatik yes demek – otomatik evet demek. Linux CentOS7’de zaman dilimini İstanbul olarak ayarlamak. Linux CentOS7’de tarih saati güncellemek Aramada büyük-küçük harf duyarlılığını […]

Local Outlier Factor ile Anormallik Tespiti

Local Outlier Factor(LOF) bir noktanın (gözlemin) anormallik derecesini bize söyleyen bir algoritmadır[1]. Anormallik Tespiti (Outlier Detection) Yöntemleri yazımda anormallik tespit algoritmalarının genelde iki tür sonuç ürettiğinden ve bu sonuçların skor veya etiket olabileceğinden bahsetmiştim. LOF, skor üretenlerden. LOF ne yapıyor? LOF aslında biraz k en yakın komşu (K Nearest Neighbor – KNN) sınıflandırma algoritmasına benziyor. […]

Pratik Bilgiler ve Pratik Komutlar: Elasticsearch

Merhabalar. Serinin bu yazısındaki ipuçları Elasticsearch ile ilgili olacak. Elasticsearch ile adres satırından nasıl sorgulama yapılır? Elasticsearch ile adres satırı sorguları nasıl pretty yazdırılır? Elasticsearch index listeleme Elasticsearch truncate index, delete all documents from Elasticsearch index Elasticsearch üzerinde SQL kullanabilir miyiz? Nasıl? Elasticsearch’te mevcut index’e bir alan eklemek: Adding a field on existing index on […]

Apache Spark Elasticsearch Entegrasyonu

Merhabalar. Bu yazımızda csv dosyasından okuduğumuz bir veri setini Elasticsearch’e bir index olarak yazacağız ve yazdığımız index’i Spark ile okuyacağız. 1. Giriş Apache Spark ve Elasticsearch büyük veri dünyasının en popüler araçlarından ikisi. Spark Elasticsearch ile harika işler çıkarabilirsiniz. Spark ile büyük veriyi işleyebilirken, Elasticserach ile büyük veriyi aranabilir, analiz edilebilir ve görselleştirilebilir bir şekilde […]

Python Kafka: Veri Yazma ve Okuma

Merhabalar, veri ile uğraşan hemen hemen herkes Kafka’ya veri yazıp Kafka’dan veri okumadıysa bile Kafka’nın adını mutlaka duymuştur. Bu yazımızda Python Kafka ile Kafka’ya mesaj gönderip Kafka’dan mesaj okuyacağız. İlk önce elle yazdığımız basit bir metni, daha sonrada pandas dataframe’i mesaj olarak gönderip okuyacağız. 1.Giriş Apache Kafka son dönemlerin en popüler kendi tabirleri ile “A […]

Anormallik Tespiti (Outlier Detection) Yöntemleri

Merhaba. Bu yazımda outlier detection Türkçe ifadesiyle aykırı gözlem (anomali), anormallik tespitinden bahsedeceğim. Yazının devamında aykırı, sıra dışı, anormal, outlier, anomaly, anomali kelimelerini benzer anlamlarda kullanıyor olacağım. Aykırı gözlem nedir? Grubbs[1]’a göre aykırı gözlem; “Aynı örneklem içindeki diğer gözlemlerden belirgin derecede farklı olan / sapma gösterendir“. Belli bir zamana kadar aykırılık tespitine veri ön işlemesinin […]

Pratik Bilgiler ve Komutlar: MongoDB

Merhabalar pratik bilgiler, pratik komutlar yazı dizimizin bu bölümü tamamen mongodb ile ilgili olacak. Python ile MongoDB’ye nasıl bağlanırım? MongoDB’de bulunan veri tabanlarını nasıl listelerim? MongoDB’de veri tabanı yaratmak veya seçmek MongoDB’de bir veri tabanındaki collection isimlerini listelemek MongoDB veritabanında yeni bir collection yaratmak MondoDB collection içinde kaç document (kayıt) var? MongoDB’de bir collection içine […]

Python Mongodb: Pandas Dataframe’i MongoDB’ye Yazmak

Merhabalar bu yazımızda Python Mongodb entegrasyonunu yapıp Python Pandas Dataframe verisini Python kullanarak MongoDB’ye yazacağız. MongoDB ile etkileşime geçmek için çok farklı dillere ait driver paketler yazılmış. Bu dillerden birisi de Python. Bu yazımızda Python’ın pymongo kütüphanesini kullanacağız. Bu kütüphane Python diliyle MongoDB’de bir şeyler yapmak isteyenler için yegane çözüm. Bu yazıyı takip etmek için […]

Pratik Bilgiler ve Komutlar-3

Merhaba “Pratik Bilgiler, Pratik Komutlar” yazı serisinin 3.’süne hoş geldiniz. Bu serinin amacı karşılaştığımız hata ver zorlukları pratik ve hızlı bir şekilde aşmak. Örneğin mysql root şifremi unuttum ya da bilmiyorum ne yapmalıyım? sorusunun cevabı “MySQL root şifresini nasıl sıfırlarız?” sorusunda. Python listesini filtrelemek Apache Spark Dataframe string timestamp tür dönüşümü MySQL root şifresini nasıl […]

Python ile Veri Bilimi Çalışma Ortamı Kurmak (Python Jupyter ve Paket Kurulumu)

Merhaba bu yazımızda veri bilimine yeni başlayanlar için başlangıç çalışma ortamını oluşturacağız. Amacımız python jupyter notebook kullanabilmek ve numpy, pandas, sklearn ve matplotlib gibi temel paketleri yüklemek. 1. Python yüklemek Python şuan 3.7.X sürümünde ancak ben biraz geriden takip etmenizi ve daha kararlı sürüm olan 3.6.X’i kullanmanızı öneriyorum. Kendim 3.6.8 kullanıyorum, bu yazıda da bu […]

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-1/2

1. Giriş Merhabalar. Uygulama geliştirirken geliştirme(dev), test ve canlı (prod) gibi farklı farklı ortamlar kullanırız. Farklı ortamlarda çalışırken bazı ayarlamalar yapmamız gerekir. Şayet hızlı bir şekilde uygulamayı çıkarayım, geliştirme, canlı vb. uğraşmayayım diyorsanız bu yazı size göre. Bu yazıda Windows bilgisayarımızı driver olarak kullanarak IntelliJ IDEA ile canlı Hadoop Cluster üzerinde kodlarımızı geliştirme esnasında çalıştıracağız. […]

IntelliJ IDEA ile Apache Spark Projesini Uzak YARN Cluster Üzerinde Çalıştırmak-2/2

Merhaba. Yazı serimizin ikincisine devam ediyoruz. Bir önceki ilk yazımızda konuya giriş yapmıştık. Hatırlayalım, amacımız Spark uygulamasını Windows bilgisayarımızda kurulu IntelliJ ile uzak hadoop cluster üzerinde geliştirmekti. IntelliJ ile devam ediyoruz. 4. IntelliJ Spark Uygulaması: Maven Projesi Oluşturmak Şimdi uygulamamızı yazmaya başlayacağız. Bunun için IntelliJ’i başlatalım. Intellij üzerinden yeni proje (Create New Project) diyoruz. Bir […]

SQL Sorgularının Python Pandas Dataframe Karşılıkları-3 (UPDATE, DELETE)

Merhaba serimizin üçüncü yazısında SQL update ve delete operasyonlarını pandas ile nasıl yaparız onu göreceğiz. Veri kaynaklarına ilk yazımızdan ulaşabilirsiniz. 1. UPDATE Verimizde bazı satırlarda meslek bilgisi boştu gelin onu güncelleyerek dolduralım. SQL UPDATE operasyonu tehlikeli bir iştir. Şayet filtreyi iyi ayarlamaz iseniz istenmeyen yerleri istenmeyen bilgilerle değiştirirsiniz. O yüzden ben UPDATE sorgusunda kullanacağım filtreyi […]

SQL Sorgularının Python Pandas Dataframe Karşılıkları-2 (GROUP BY, ORDER BY)

Merhabalar. Yaygın kullanılan SQL sorgularının Python pandas dataframe karşılıklarını bir örnek üzerinden paylaşmaya devam ediyoruz. Serimizin ilki olan bir önceki yazımızda SELECT ve WHERE cümlecikleri ile ilgili örnek yapmıştık. Bu yazıda kullanılacak veri kaynaklarına (sql ve pandas) ulaşmak için lütfen ilk yazıya müracaat ediniz. 1. GROUP BY GROUP BY özellikle veri keşfinde çok sık kullanılan […]

SQL Sorgularının Python Pandas Dataframe Karşılıkları (PANDAS SQL)-1 (SELECT, WHERE)

Merhabalar. Bu yazımızda yaygın kullanılan SQL sorgularının Python pandas dataframe karşılıklarını (Pandas SQL) bir örnek üzerinden paylaşmaya çalışacağım. Veri biliminin en zor ve meşakkatli aşaması veri hazırlığıdır. Hem SQL hem de pandas kendi alanlarında veri hazırlığında çok önemli rol oynarlar. Eğer bu ikisinden birini çok iyi bilmiyorsanız (Pythonistler için söylüyorum, sql yanındaki python değil R, […]

Pratik Bilgiler ve Komutlar-2

Scala’da boşluklardan kelimeleri ayırma Scala ile dosya nasıl okunur? Scala dosya okuma Scala ile dosyaya yazma işlemi Scala uygulamasına komut satırından argüman gönderme Bir dizinde kaç dosya var Python ile nasıl öğrenilir? Elasticsearch Curl Query Örneği Ubuntu üzerine sbt kurmak Ubuntu server üzerinde root kullanıcısına geçiş yapmak Jupyter notebook geri plan – jupyter arkaplan – jupyter […]

Pratik Bilgiler ve Komutlar-1

Merhaba pratik bilgiler ve pratik komutlar yazı dizisindeki amacımız herkese her an lazım olabilecek pratik bilgiler paylaşmaktır. Bu yazı dizisi oluşurken yine kendi ihtiyaçlarımdan yola çıktım. Çok sık veya seyrek ihtiyaç duyduğum bilgileri not aldım ve sizlere de faydalı olabileceğini düşündüm. Baştan sona bir bütün olarak belki okumazsınız ama muhtemelen arama motorları ile bu yazı […]

Python Pandas Dataframe’i Elasticsearch’e Yazmak

Merhabalar bu yazımızda Python Pandas Dataframe verisini Python kullanarak Elasticsearch’e yazacağız. Şükür ki Python çok gelişmiş ve zengin bir dil. Birileri biz kullanalım diye kütüphane yazmış, biz de bunu kullanarak dataframe’i Elasticsearch’e yazacağız. Bu yazıyı takip etmek için bazı ön koşullarımız olacak. Elasticsearch 7.9.0 kurulu ve 9200 portundan erişilebilir durumdadır. Örneğin, benim elasticsearch sunucum aşağıdaki […]

Yazar: Erkan ŞİRİN