Veri platformlarını düşünürken mevcut tüm hizmetleri ve mimari seçenekleri göz önünde bulundurmak biraz zor olabilir.
Bir kurumsal veri platformu genellikle her biri belirli bir amaca ve ihtiyaç duyulan becerilere sahip veri ambarlarından, veri modellerinden, veri göllerinden ve raporlardan oluşur. Buna karşılık, son birkaç yılda veri göl evi adı verilen yeni bir tasarım ortaya çıktı.
Veri göllerinin çok yönlülüğü ve veri ambarı veri yönetimi, “veri göl evi” olarak adlandırılan devrim niteliğindeki bir veri depolama mimarisinde birleştirilmiştir.
Veri göl evini bu yazıda bileşenleri, özellikleri, mimarisi ve diğer yönleri dahil olmak üzere derinlemesine inceleyeceğiz.
Veri Gölü Evi nedir?
Adından da anlaşılacağı gibi, bir veri göl evi, her birinin eksikliklerini ayrı ayrı çözmek için bir veri gölünü bir veri ambarıyla birleştiren yeni bir veri mimarisi türüdür.
Özünde, göl evi sistemi, veri göllerine çok benzer şekilde, büyük miktarda veriyi orijinal biçimlerinde tutmak için ucuz depolama kullanır. Meta veri katmanının mağazanın üstüne eklenmesi de veri yapısı sağlar ve veri ambarlarında bulunanlara benzer veri yönetimi araçlarını güçlendirir.
Kuruluşlarında kullanılan farklı iş uygulamalarından, sistemlerinden ve gadget'larından elde ettikleri çok büyük hacimli organize, yarı yapılandırılmış ve yapılandırılmamış verileri depolar.
Çoğu zaman, veri gölleri, verileri açık, genel dosya biçimlerinde depolamak için bir dosya uygulama programlama arabirimi (API) ile düşük maliyetli depolama altyapısı kullanır.
Bu, birçok ekibin veri bilimi gibi çeşitli girişimler için tek bir sistem üzerinden tüm şirket verilerine erişmesini mümkün kılar. makine öğrenmeve iş zekası.
Özellikler
- Düşük maliyetli depolama. Bir veri göl evi, verileri aşağıdakiler gibi ucuz nesne depolamada depolayabilmelidir: Google Bulut Depolama, Azure Blob Depolama, Amazon Basit Depolama Hizmeti veya yerel olarak ORC veya Parquet kullanarak.
- Veri optimizasyonu için yetenek: Veri düzeni optimizasyonu, önbelleğe alma ve indeksleme, bir veri göl evinin verilerin orijinal biçimini korurken verileri nasıl optimize edebilmesi gerektiğine dair birkaç örnektir.
- İşlemsel meta veri katmanı: Temel düşük maliyetli depolamaya ek olarak, bu, veri ambarı performansı için çok önemli olan veri yönetimi yeteneklerini sağlar.
- Bildirimsel DataFrame API desteği: Yapay zeka araçlarının çoğu, ham nesne deposu verilerini almak için DataFrame'leri kullanabilir. Deklaratif DataFrame API desteği, belirli veri bilimi veya yapay zeka görevine yanıt olarak verilerin sunumunu ve yapısını dinamik olarak iyileştirme yeteneğini artırır.
- ACID işlemleri için destek: Atomiklik, tutarlılık, izolasyon ve dayanıklılık anlamına gelen ACID kısaltması, bir işlemi tanımlamada ve verilerin tutarlılığını ve güvenilirliğini sağlamada kritik bir bileşendir. Bu tür işlemler daha önce yalnızca veri ambarlarında mümkündü, ancak lakehouse, bunları veri gölleriyle kullanma seçeneği sunar ilave olarak. Eşzamanlı veri okuma ve yazma dahil olmak üzere birkaç veri hattı ile bu, ikincisinin düşük veri kalitesi sorununu çözer.
Data Lakehouse'un Unsurları
Veri göl evinin mimarisi, yüksek düzeyde iki ana katmana ayrılmıştır. Depolama katmanının veri alımı Lakehouse platformu (yani veri gölü) tarafından kontrol edilir.
Verileri bir veri ambarına yüklemeye veya özel bir formata dönüştürmeye gerek kalmadan, işleme katmanı bir dizi araç kullanarak doğrudan depolama katmanındaki verileri sorgulayabilir.
Ardından, BI uygulamalarının yanı sıra AI ve ML teknolojileri de verileri kullanabilir. Bir veri gölünün ekonomisi bu tasarımla sağlanır, ancak herhangi bir işleme motoru bu verileri okuyabildiğinden, işletmeler hazırlanan verileri bir dizi sistem tarafından analiz için erişilebilir hale getirme özgürlüğüne sahiptir. Bu yöntem işleme ve analiz için kullanılarak hem işlemci performansı hem de maliyet iyileştirilebilir.
Aşağıdaki ACID (atomiklik, tutarlılık, izolasyon ve dayanıklılık) kriterlerine uyan veritabanı işlemlerine verdiği destek sayesinde, mimari aynı zamanda birçok tarafın sistem içinde aynı anda verilere erişmesine ve yazmasına olanak tanır:
- Atomsallık işlemin tamamının veya hiçbirinin bir işlemi tamamlarken başarılı olmamasını ifade eder. Bir işlemin kesintiye uğraması durumunda bu, veri kaybını veya bozulmasını önlemeye yardımcı olur.
- Tutarlılık işlemlerin öngörülebilir ve tutarlı bir şekilde gerçekleşmesini garanti eder. Her verinin önceden belirlenmiş kurallar çerçevesinde meşru olmasını sağlayarak veri bütünlüğünü korur.
- Izolasyon tamamlanana kadar hiçbir işlemin sistem içindeki diğer işlemlerden etkilenmemesini sağlar. Bu, çok sayıda tarafın birbirine müdahale etmeden aynı sistemden aynı anda okuma ve yazma yapmasına olanak tanır.
- dayanıklılık bir sistem arızası durumunda bile, bir işlem tamamlandıktan sonra sistemdeki verilerde yapılan değişikliklerin var olmaya devam etmesini garanti eder. Bir işlemden kaynaklanan herhangi bir değişiklik sonsuza kadar dosyada tutulur.
Veri Gölü Evi Mimarisi
Databricks (Delta Lake konseptinin yaratıcısı ve tasarımcısı) ve AWS, veri göl evi konseptinin iki ana savunucusudur. Bu nedenle, göl evlerinin mimari düzenini tanımlamak için onların bilgi ve anlayışlarına güveneceğiz.
Bir veri göl evi sistemi tipik olarak beş katmana sahip olacaktır:
- Besleme katmanı
- Depolama katmanı
- Meta veri katmanı
- API katmanı
- Tüketim katmanı
Besleme katmanı
Sistemin ilk katmanı, çeşitli kaynaklardan veri toplamaktan ve depolama katmanına göndermekten sorumludur. Katman, çok sayıda dahili ve harici kaynağa bağlanmak için toplu ve akışlı veri işleme yeteneklerinin birleştirilmesi dahil olmak üzere çeşitli protokoller kullanabilir.
- NoSQL veritabanları,
- dosya paylaşımları
- CRM uygulamaları,
- web siteleri,
- IoT sensörleri,
- sosyal medya,
- Hizmet Olarak Yazılım (SaaS) uygulamaları ve
- ilişkisel veritabanı yönetim sistemleri, vb.
Bu noktada, veri akışı için Apache Kafka ve RDBMS'lerden ve NoSQL veritabanlarından veri içe aktarmak için Amazon Data Migration Service (Amazon DMS) gibi bileşenler kullanılabilir.
Depolama katmanı
Göl evi mimarisi, çeşitli veri türlerinin AWS S3 gibi ucuz nesne depolarında nesneler olarak depolanmasını sağlamak içindir. Açık dosya biçimlerini kullanarak, istemci araçları bu öğeleri doğrudan mağazadan okuyabilir.
Bu, birçok API'nin ve tüketim katmanı bileşeninin aynı verilere erişmesini ve kullanmasını mümkün kılar. Meta veri katmanı, yapılandırılmış ve yarı yapılandırılmış veri kümeleri için şemaları depolar, böylece bileşenler bunları okurken verilere uygulayabilir.
Örneğin, Hadoop Dağıtılmış Dosya Sistemi (HDFS) platformu, şirket içi bilgi işlem ve depolamayı ayıran bulut havuzu hizmetleri oluşturmak için kullanılabilir. Lakehouse bu hizmetler için idealdir.
Meta veri katmanı
Meta veri katmanı, bu tasarımı diğerlerinden ayıran bir veri göl evinin temel bileşenidir. Gölde depolanan tüm öğeler için meta veriler (diğer veri parçaları hakkında bilgi) sunan ve kullanıcıların aşağıdakiler gibi yönetim özelliklerini kullanmasına olanak tanıyan tek bir katalogdur:
- ACID işlemleri sayesinde eşzamanlı işlemlerde veritabanının tutarlı bir versiyonu görülür;
- bulut nesne deposu dosyalarını kaydetmek için önbelleğe alma;
- sorgu işlemeyi hızlandırmak için indekslemeyi kullanarak veri yapısı indeksleri ekleme;
- veri nesnelerini çoğaltmak için sıfır kopya klonlamayı kullanma; ve
- verilerin belirli sürümlerini vb. depolamak için veri sürümü oluşturmayı kullanın.
Ek olarak, meta veri katmanı, şema yönetiminin uygulanmasını, yıldız/kar tanesi şemaları gibi DW şema topolojilerinin kullanılmasını ve doğrudan veri gölü üzerinde veri yönetişimi ve denetleme yeteneğinin sağlanmasını sağlayarak tüm veri hattının bütünlüğünü artırır.
Şema geliştirme ve uygulama özellikleri, şema yönetimine dahil edilmiştir. Şema zorlaması, tablonun şemasına uymayan tüm yazma işlemlerini reddederek, kullanıcıların veri bütünlüğünü ve kalitesini korumasını sağlar.
Şema evrimi, tablonun mevcut şemasının değişen verilere uyum sağlamak için değiştirilmesine izin verir. Veri gölünün üzerindeki tek bir yönetim arayüzü sayesinde, erişim kontrolü ve denetleme olanakları da vardır.
API katmanı
Mimarinin bir diğer önemli katmanı artık mevcut ve tüm son kullanıcıların işleri daha hızlı gerçekleştirmek ve daha karmaşık istatistikler elde etmek için kullanabileceği bir dizi API'yi barındırıyor.
Meta veri API'lerinin kullanımı, belirli bir uygulama için gereken veri öğelerini tanımlamayı ve bunlara erişmeyi kolaylaştırır.
Makine öğrenimi kitaplıkları açısından, TensorFlow ve Spark MLlib gibi bazıları, Parquet gibi açık dosya biçimlerini okuyabilir ve meta veri katmanına doğrudan erişebilir.
Aynı zamanda, DataFrame API'leri daha fazla optimizasyon şansı sunarak programcıların dağınık verileri düzenlemesine ve değiştirmesine olanak tanır.
Tüketim katmanı
Power BI, Tableau ve diğer araçlar ve uygulamalar, tüketim katmanının altında barındırılır. Göl evi tasarımıyla, bir gölde tutulan tüm meta verilere ve tüm verilere istemci uygulamaları tarafından erişilebilir.
Göl evi, bir şirket içindeki tüm kullanıcılar tarafından her türlü işlemi gerçekleştirmek için kullanılabilir. analitik operasyonlariş zekası panoları oluşturma ve SQL sorguları ve makine öğrenimi görevlerini çalıştırma dahil.
Data Lakehouse'un Avantajları
Kuruluşlar, mevcut veri platformlarını birleştirmek ve tüm veri yönetimi süreçlerini optimize etmek için bir veri göl evi oluşturabilir. Bir veri göl evi, çeşitli kaynakları birbirine bağlayan silo bariyerlerini kaldırarak, farklı çözümlere duyulan ihtiyacın yerini alabilir.
Seçilmiş veri kaynaklarıyla karşılaştırıldığında, bu entegrasyon, uçtan uca önemli ölçüde daha etkili bir prosedür üretir. Bunun birkaç avantajı vardır:
- Daha az yönetim: Bir veri göl evi, ham verilerden veri çıkarmak ve bir veri ambarında kullanım için hazırlamak yerine, kendisine bağlı tüm kaynakların verilerini kullanılabilir ve kullanım için organize etmesine izin verir.
- Artan maliyet etkinliği: Veri göl evleri, hesaplama ve depolamayı ayıran çağdaş altyapı kullanılarak inşa edilir, bu da bilgi işlem gücünü artırmadan depolamayı genişletmeyi kolaylaştırır. Sadece ucuz veri depolamanın kullanılması, uygun maliyetli ölçeklenebilirlik ile sonuçlanır.
- Daha iyi veri yönetimi: Veri göl evleri, güvenlik, ölçümler, rol tabanlı erişim ve diğer önemli yönetim bileşenleri üzerinde daha fazla kontrole izin veren standartlaştırılmış açık mimari ile inşa edilmiştir. Kaynakları ve veri kaynaklarını birleştirerek yönetişimi basitleştirir ve geliştirir.
- Basitleştirilmiş standartlar: Veri ambarlarının ilk geliştirildiği 1980'lerde bağlantı oldukça kısıtlı olduğundan, işletmelerde, hatta departmanlarda sıklıkla yerelleştirilmiş şema standartları geliştirildi. Veri göl evleri, prosedürleri kolaylaştırmak için örtüşen tek tip şema ile çok sayıda veri kaynağını alarak birçok veri türünün artık şema için açık standartlara sahip olduğu gerçeğinden yararlanır.
Data Lakehouse'un Dezavantajları
Veri göl evlerini çevreleyen tüm çemberlere rağmen, fikrin hala çok yeni olduğunu akılda tutmak önemlidir. Bu yeni tasarıma tamamen bağlı kalmadan önce dezavantajları tarttığınızdan emin olun.
- monolitik yapı: Bir göl evinin her şey dahil tasarımı çeşitli avantajlar sunar, ancak aynı zamanda bazı sorunları da beraberinde getirir. Monolitik mimari genellikle tüm kullanıcılar için kötü hizmete yol açar ve katı ve bakımı zor olabilir. Tipik olarak, mimarlar ve tasarımcılar, çeşitli kullanım durumları için özelleştirebilecekleri daha modüler bir mimariyi severler.
- Teknoloji henüz tam olarak orada değil: nihai hedef, önemli miktarda makine öğrenimi ve yapay zeka gerektirir. Göl evlerinin öngörüldüğü gibi çalışabilmesi için önce bu teknolojilerin daha da gelişmesi gerekiyor.
- Mevcut yapılar üzerinde önemli bir ilerleme değil: Göl evlerinin gerçekte ne kadar daha değerli katkıda bulunacağı konusunda hala kayda değer bir şüphe var. Bazı eleştirmenler, uygun otomatik ekipmanla eşleştirilmiş bir göl deposu tasarımının karşılaştırılabilir verimlilik sağlayabileceğini iddia ediyor.
Data Lakehouse'un Zorlukları
Veri göl evi tekniğini benimsemek zor olabilir. Bileşen parçalarının karmaşıklığı nedeniyle, veri göl evini her şeyi kapsayan ideal bir yapı veya “her şey için tek bir platform” olarak görmek yanlıştır.
Ek olarak, veri göllerinin artan oranda benimsenmesi nedeniyle, işletmelerin mevcut veri ambarlarını onlara taşımak zorunda kalacak ve hiçbir kanıtlanabilir ekonomik fayda olmaksızın yalnızca bir başarı sözüne güvenecekler.
Aktarım süreci boyunca herhangi bir gecikme sorunu veya kesinti olursa, bu pahalı, zaman alıcı ve belki de güvenli olmayabilir.
Çözümleri açık veya dolaylı olarak veri göl evleri olarak pazarlayan belirli satıcılara göre, iş kullanıcıları son derece uzmanlaşmış teknolojileri benimsemelidir. Bunlar, sistemin merkezindeki veri gölüne bağlı diğer araçlarla her zaman çalışmayabilir ve sorunlara ek olarak.
Ayrıca, uygun maliyetli ölçeklenebilirlik ile altyapı gerektiren iş açısından kritik iş yüklerini çalıştırırken 24/7 analitik sağlamak zor olabilir.
Sonuç
Son yıllardaki en yeni veri merkezi çeşidi veri göl evidir.. Bilgi teknolojisi, açık kaynaklı yazılım gibi çeşitli alanları bütünleştirir. cloud computingve dağıtılmış depolama protokolleri.
İşletmelerin her türlü veriyi herhangi bir yerden merkezi olarak depolamasını sağlayarak yönetimi ve analizi basitleştirir. Data Lakehouse oldukça ilgi çekici bir konsept.
Bir veri ambarı kadar hızlı ve verimli olan ve aynı zamanda bir veri gölü kadar esnek olan hepsi bir arada bir veri platformuna erişimi olan her firma önemli bir rekabet avantajına sahip olacaktır.
Fikir hala gelişiyor ve nispeten yeni kalıyor. Sonuç olarak, bir şeyin yaygınlaşıp yaygınlaşamayacağını belirlemek biraz zaman alabilir.
Lakehouse mimarisinin gittiği yönü hepimiz merak etmeliyiz.
Yorum bırak