Veri Ambarı Nedir?
Selam, bu blog yazısında birlikte veri ambarlarına bakacağız. Veri ambarı, bir organizasyonun farklı yerlerinden gelen, genellikle devasa miktarda veriyi saklama, yönetme ve düzenleme işini üstlenen bir sistem. Bu teknoloji, belirli bir konuda bilgi sağlama, farklı yerlerden gelen verileri birleştirme ve veri değişimini izleme gibi hedefleri var. İlk kez Bill Inmon, veri ambarını “konuya dayalı, entegre, zamanla değişen ve kalıcı veri koleksiyonu” olarak tarif etmiş. Inmon’un bu çalışmaları, veri ambarı konusunda önemli bir temel oluşturmuş. Inmon’dan sonra Ralph Kimball, veri ambarlarını oluşturma ve yönetme konusunda kendi yaklaşımını önermiş. Kimball’ın çalışmaları, Inmon’un oluşturduğu temel üzerine inşa edilmiş ve veri ambarı teknolojisinin gelişmesine katkı sağlamış.
Veri Ambarı Bileşenleri
1. Veri Kaynağı Katmanı (Data Source Layer): İşletmenin farklı bölümlerinden gelen veriler bu katmanda toplanır. Bu veriler, işletimsel veritabanlarından (Oracle, MySQL), CRM sistemlerinden (Salesforce, Hubspot), web sitelerinden (Google Analytics) ve sensörler gibi çeşitli kaynaklardan gelir. Bu katman, verinin çeşitli kaynaklardan gelen ilk durak noktasıdır.
2. Veri Alma Katmanı (Data Ingestion Layer): Bu katmanda, toplanan veriler temizlenir, dönüştürülür ve veri ambarına yüklenir. Bu işlemler genellikle ETL (Extract, Transform, Load) araçları (Informatica, Talend) ile gerçekleştirilir. Bu katman, verinin analize uygun bir hale getirilmesini sağlar.
3. Veri Depolama Katmanı (Data Storage Layer): Veri ambarına yüklenen veriler bu katmanda depolanır. Bu katman, verinin güvenli ve düzenli bir şekilde saklanmasını sağlar.
4. Veri Erişim Katmanı (Data Access Layer): Bu katman, kullanıcıların veri ambarındaki verilere erişmesine olanak sağlar. Bu erişim genellikle SQL sorguları, raporlama araçları (Tableau, Power BI) ve analitik araçlar (R, Python) aracılığıyla gerçekleştirilir. Bu katman, veriye erişimin kolay ve hızlı olmasını sağlar.
5. Meta Veri Katmanı (Metadata Layer): Bu katmanda, veri ambarı hakkındaki bilgiler depolanır. Burada verilerin anlamı, kökeni ve kullanımı hakkında bilgiler saklanır. Meta veri yönetim araçları (IBM InfoSphere, Informatica Metadata Manager) kullanılır. Bu katman, verinin anlamını ve kaynağını anlamak için gereklidir.
6. Veri İşleme Katmanı (Data Processing Layer): Bu katmanda, toplanan veriler analiz edilir ve dönüştürülür. Burada genellikle makine öğrenimi ve yapay zeka modelleri (TensorFlow, PyTorch) kullanılır. Bu katman, veriden bilgi çıkarmak için gereklidir.
7. Sunum Katmanı (Presentation Layer): Bu son katmanda, kullanıcılara veri ambarındaki veriler görsel olarak sunulur. Grafikler, çizelgeler ve gösterge panoları gibi araçlar (Tableau, Power BI) kullanılır. Bu katman, verinin son kullanıcıya ulaştığı yerdir ve veriyi anlamak için görsel araçlar sağlar.
Veri Ambarı ve Veri Tabanı Arasındaki Fark
Veritabanı ile Veri Ambarı arasındaki farkı kavramak için, OLAP ve OLTP sistemlerini anlamamız gerekiyor. OLTP sistemleri, günlük işlemleri gerçekleştirmek ve veritabanı bakımını yapmak için kullanılır. Genellikle basit işlemler yaparlar ve büyük sorgulamalar için uygun değillerdir. Buna karşın, OLAP sistemleri, büyük veri kümeleri üzerinde sorgulamalar yapmayı kolaylaştıran ve veri analizi için geliştirilmiş sistemlerdir.
Veri Ambarları, geniş veri setlerini depolamak ve analiz etmek için tasarlanmış veritabanlarıdır. Farklı departmanlardan gelen verileri birleştirir, geniş bir bakış açısı sunar ve işletmelerin bilinçli kararlar almasını destekler. Veri Ambarı ile klasik bir veritabanı karşılaştırıldığında:
Veri Ambarı | Veri Tabanı | |
---|---|---|
Amaç | Bilgiye dayalı kararlar almak için verileri analiz etmek | Günlük işlemleri yönetmek ve işlem verilerini saklamak |
Veri | Farklı kaynaklardan toplanan ve düzenlenen veriler | İşlem verileri |
Yapı | Konuya dayalı, entegre, zamanla değişen ve kısmen normalleştirilmiş | İlişkisel ve normalleştirilmiş |
Sorgular | Genellikle okuma üzerine karmaşık sorgular | Basit ve hızlı sorgular, okuma ve yazma işlemleri |
Veri Güncelleme | Veriler genellikle yükleme işlemleriyle eklenir | Sık güncellemeler ve canlı veri |
Zaman Boyutu | Veriler genellikle zaman damgası ile saklanır ve tarihsel bilgi içerir | Genellikle tarihsel bilgi olmaksızın, anlık durumları temsil eder |
Örnek Teknolojiler | Amazon Redshift, Google BigQuery, Microsoft SQL Server Analysis Services | MySQL, Oracle Database, Microsoft SQL Server |
Veri Ambarı Mimari Yaklaşımları
Veri ambarı, birleşik bir şema altında düzenlenen farklı veri kaynaklarının heterojen bir koleksiyonudur. Veri ambarı oluşturmada 2 yaklaşım vardır: Inmon Yaklaşımı (Top-Down Approach) ve Kimball Yaklaşımı (Bottom-Up Approach).
- Inmon Yaklaşımı (Top-Down Approach): Bu yaklaşım, kurumsal veri modeline dayanarak genellikle bir veri ambarını inşa etmeyi öngörür. İlk olarak, tüm veri unsurlarını kapsayan ve kurumun genel işleyişini yansıtan tek ve kapsamlı bir veri ambarı oluşturulur. Bu veri ambarı, kurumun tüm veri ihtiyaçlarını karşılayacak şekilde tasarlanır ve oluşturulur. Oluşturulan bu veri ambarının ardından, belirli işlevsel alanlara veya belirli iş süreçlerine yönelik data mart oluşturulur. Bu data mart, genel veri ambarından alınan verileri kullanarak, belirli işlevsel alanların veya iş süreçlerinin veri ihtiyaçlarını karşılar.
- Kimball Yaklaşımı (Bottom-Up Approach): Bu özgün ve etkili yaklaşım, veri yönetiminde belirli iş alanlarına hizmet eden özel data mart oluşturmayı içerir. Bu data mart, her biri belirli bir iş alanına odaklanarak bilgiyi organize eder ve işlemeye hazır hale getirir. Daha sonra, bu data mart, geniş bir veri ambarını oluşturmak için birleştirilir. Bu, genellikle daha hızlı ve daha etkili sonuçlar verirken aynı zamanda sistemin genel esnekliğini artırır. Kimball yaklaşımı, işletmelerin hızlı bir şekilde değer elde etmek ve ihtiyaç duydukları bilgilere hızlı bir şekilde erişmek için kullanabileceği bir yöntemdir.
Veri Ambarı Tipleri
Veri ambarı teknolojisi genellikle üç ana kategoriye ayrılır; her biri belirli bir işlevi yerine getirir ve birbirini tamamlar. Bir e-ticaret şirketinin veri ambarını örnek olarak alırsak, veri ambarı tiplerini aşağıdaki gibi tanımlayabiliriz:
1- Operasyonel Veri Ambarı (ODS): ODS’nin amacı günlük işlemleri hızlandırmaktır. ODS, e-ticaret platformunun günlük işlemlerinden gelen verileri yakalar ve depolar. Bu veriler, siparişler, müşteriler, ürünler ve ödemeler gibi kritik bilgileri içerir. ODS sayesinde aşağıdaki sorgulamaları hızlıca yapabiliriz:
- Sipariş durumunu izleme
- Stok seviyelerini yönetme
- Müşteri davranışlarını analiz etme
- Dolandırıcılık tespiti
2- Kurumsal Veri Ambarı (EDW): EDW, şirketin tüm verisini saklar. Şirketin geçmiş performansını analiz etmesine ve gelecekteki trendleri tahmin etmesine olanak sağlar. EDW, ODS’ye kıyasla daha fazla veri saklayabilir ve daha karmaşık analizler gerçekleştirebilir. Bu, şirketin daha geniş bir bakış açısıyla faaliyetlerini değerlendirmesine ve stratejik kararlar vermesine yardımcı olur. EDW, aşağıdakiler gibi karmaşık sorguları ve analizleri destekler:
- Satış trendlerini analiz etme
- Müşteri segmentasyonu ve hedefleme
- Pazarlama kampanyalarının etkinliğini değerlendirme
- Ürün yelpazesini optimize etme
3- Data mart: Data Mart, EDW’den belirli bir konuya odaklanan veri kümelerini ayıklar ve analiz için optimize eder. Örneğin, bir pazarlama datamart, müşteriler, satın alma geçmişleri ve demografik bilgiler gibi verileri içerebilir. Bu, pazarlama departmanının aşağıdakileri yapmasına olanak tanır:
- Pazarlama kampanyalarının performansını analiz etme
- Müşteri segmentasyonu ve hedefleme
- Kişiselleştirilmiş pazarlama mesajları oluşturma
Veri ambarları, büyük veri çağında organizasyonlar için kaçınılmaz bir araç haline gelmiştir. Bu yazıda, veri ambarlarının önemini, bileşenlerini, farklı modelleme tekniklerini ve çeşitlerini ayrıntılı olarak ele aldık. Inmon ve Kimball’ın yaklaşımları, veri ambarı oluşturma konusunda yol gösterirken, günümüzde bulut tabanlı veri ambarları modern çözümler sunmaktadır. Amazon Redshift, Google BigQuery ve Microsoft Azure SQL Data Warehouse gibi platformlar, büyük veri kümelerini saklama, işleme ve analiz etme işlemlerini kolaylaştırır. Bu modern veri ambarları, hızlı veri işleme, ölçeklenebilirlik ve analiz için üstün özellikler sunar. Üstelik, makine öğrenmesi ve yapay zeka gibi ileri teknolojileri de entegre edebiliyorlar, böylece veriden daha fazla değer elde edebiliyoruz. Yazıyı okuduğunuz için çok teşekkür ederim, yeniden görüşmek dileğiyle.
Kaynaklar
Guru99 – Data Warehousing Tutorial
Ödevim için çok yardımcı oldu teşekkür ederim.