Data lakehouses biznes uchun ma'lumotlar ombori va ma'lumotlar ko'li tushunchalarini birlashtiradi.
Ushbu vositalar ma'lumotlar omborlarida joylashgan ma'lumotlar arxitekturasi bilan ma'lumotlar ko'llarini boshqarish imkoniyatlarini birlashtirib, iqtisodiy jihatdan samarali ma'lumotlarni saqlash echimlarini yaratishga imkon beradi.
Bundan tashqari, ma'lumotlarning ko'chishi va ortiqcha miqdori qisqaradi, ma'muriyatga kamroq vaqt sarflanadi va sxema va ma'lumotlarni boshqarishning qisqaroq tartiblari haqiqatda haqiqatga aylanadi.
Bitta data lakehouse bir nechta echimlarga ega saqlash tizimiga nisbatan juda ko'p afzalliklarga ega.
Ushbu vositalar hali ham ma'lumotlar olimlari tomonidan biznes razvedkasi va mashinani o'rganish tartib-qoidalarini tushunishlarini yaxshilash uchun foydalaniladi.
Ushbu maqolada data lakehouse, uning imkoniyatlari va mavjud vositalarni tez ko'rib chiqamiz.
Data Lakehouse-ga kirish
Ma'lumotlar arxitekturasining yangi turi "Data Lakehouse” har birining zaif tomonlarini mustaqil ravishda hal qilish uchun maʼlumotlar koʻli va maʼlumotlar omborini birlashtiradi.
Lakehouse tizimi, xuddi ma'lumotlar ko'llari kabi, katta hajmdagi ma'lumotlarni asl ko'rinishida saqlash uchun arzon saqlashdan foydalanadi.
Do'konning yuqori qismiga metadata qatlamini qo'shish, shuningdek, ma'lumotlar tuzilmasini ta'minlaydi va ma'lumotlar omborlarida topilganlarga o'xshash ma'lumotlarni boshqarish vositalarini kengaytiradi.
U butun korxonada qo'llaniladigan turli biznes ilovalari, tizimlari va qurilmalaridan olingan katta hajmdagi tuzilgan, yarim tizimli va tuzilmagan ma'lumotlarni o'z ichiga oladi.
Natijada, ma'lumotlar ko'llaridan farqli o'laroq, lakehouse tizimi ushbu ma'lumotlarni SQL ishlashi uchun boshqarishi va optimallashtirishi mumkin.
Shuningdek, u ma'lumotlar omborlariga qaraganda arzonroq narxda katta hajmdagi turli ma'lumotlarni saqlash va qayta ishlash qobiliyatiga ega.
Data lakehouse har qanday ma'lumotlarga kirish yoki har qanday ma'lumotlarga qarshi tahlilni amalga oshirish kerak bo'lganda foydali bo'ladi, lekin ma'lumotlar yoki tavsiya etilgan tahlillarga ishonchingiz komil bo'lmasa.
Agar ko'l uyi arxitekturasi ishlashi asosiy muammo bo'lmasa, juda yaxshi ishlaydi.
Bu sizning butun tuzilmangizni ko'l uyiga asoslashingiz kerak degani emas.
Har bir foydalanish holati uchun ma'lumotlar ko'li, ko'l ombori, ma'lumotlar ombori yoki ixtisoslashtirilgan tahliliy ma'lumotlar bazasini qanday tanlash haqida ko'proq ma'lumot olish mumkin. Bu yerga.
Data Lakehouse xususiyatlari
- Bir vaqtning o'zida ma'lumotlarni o'qish va yozish
- Moslashuvchanlik va kengayish qobiliyati
- Ma'lumotlarni boshqarish vositalari bilan sxema yordami
- Bir vaqtning o'zida ma'lumotlarni o'qish va yozish
- Saqlash uchun qulay narx
- Barcha ma'lumotlar turlari va fayl formatlari qo'llab-quvvatlanadi.
- Optimallashtirilgan ma'lumotlar faniga va mashinani o'rganish vositalariga kirish
- Sizning ma'lumotlar guruhlaringiz ish yuklarini tezroq va aniqroq o'tkazish uchun faqat bitta tizimga kirish imkoniga ega bo'ladilar.
- Ma'lumotlar fanlari, mashinalarni o'rganish va analitika sohasidagi tashabbuslar uchun real vaqtda imkoniyatlar
Top 5 Data Lakehouse vositalari
Ma'lumotlar bazalari
Databricks, Apache Spark-ni birinchi marta ishlab chiqqan va uni yaratgan shaxs tomonidan asos solingan Ochiq manba, boshqariladigan Apache Spark xizmatini taqdim etadi va ma'lumotlar ko'llari uchun platforma sifatida joylashtirilgan.
Databricks lakehouse arxitekturasining ma'lumotlar ko'li, delta ko'li va delta dvigateli komponentlari biznes razvedkasi, ma'lumotlar fanlari va mashinalarni o'rganish holatlaridan foydalanish imkonini beradi.
Ma'lumotlar ko'li ommaviy bulutli saqlash omboridir.
Ko'p tizimli ma'lumotlar to'plamlari uchun metama'lumotlarni boshqarish, ommaviy va oqimli ma'lumotlarni qayta ishlash, ma'lumotlarni topish, xavfsiz kirishni boshqarish va SQL tahlilini qo'llab-quvvatlash bilan.
Databricks ma'lumotlar lakehouse platformasida ko'rishni kutish mumkin bo'lgan ma'lumotlarni saqlash funktsiyalarining ko'pini taklif qiladi.
Databricks yaqinda ETL va ma'lumotlarni kiritishni avtomatlashtiradigan va ma'lumotlar ko'lini saqlash strategiyasining muhim tarkibiy qismlarini etkazib berish uchun turli xil ma'lumotlar turlari uchun sxemani aniqlash uchun ma'lumotlar namunalaridan foydalanadigan o'zining Auto Loader-ni taqdim etdi.
Shu bilan bir qatorda, foydalanuvchilar Delta Live jadvallari yordamida ommaviy bulutli ma'lumotlar ko'li va Delta ko'li o'rtasida ETL quvurlarini qurishlari mumkin.
Qog'ozda Databricks barcha afzalliklarga egadek ko'rinadi, ammo yechimni o'rnatish va uning ma'lumotlar quvurlarini yaratish malakali ishlab chiquvchilardan ko'p inson mehnatini talab qiladi.
Masshtabda javob ham murakkablashadi. Bu tuyulganidan ham murakkabroq.
Axana
Ma'lumotlar ko'li - bu siz tanlagan har qanday turdagi ma'lumotlarni, shu jumladan tuzilmagan va tuzilgan ma'lumotlarni saqlashingiz mumkin bo'lgan yagona, markaziy joy. AWS S3, Microsoft Azure va Google Cloud Storage uchta umumiy maʼlumot koʻllaridir.
Ma'lumotlar ko'llari nihoyatda yaxshi ko'riladi, chunki ular juda hamyonbop va ulardan foydalanish oson; juda oz pul evaziga siz xohlagancha har qanday turdagi ma'lumotlarni saqlashingiz mumkin.
Ammo ma'lumotlar ko'li tahlil, so'rov va boshqalar kabi o'rnatilgan vositalarni taklif qilmaydi.
Ma'lumotlaringizni so'rash va undan foydalanish uchun sizga ma'lumotlar ko'li (Ahana Cloud kiradi) tepasida so'rovlar mexanizmi va ma'lumotlar katalogi kerak.
Ma'lumotlar ombori va Ma'lumotlar ko'lining eng yaxshisi bilan yangi ma'lumotlar ko'li dizayni ishlab chiqildi.
Bu uning shaffofligini, moslashuvchanligini, yaxshi narx/samaraga ega ekanligini, ma'lumotlar ko'li kabi shkalasi tranzaktsiyalarni qo'llab-quvvatlaydi va ma'lumotlar ombori bilan taqqoslanadigan yuqori darajadagi xavfsizlikka ega ekanligini ko'rsatadi.
Sizning yuqori samarali SQL so'rovlar vositangiz Data Lakehouse ortidagi miyadir. Shu sababli, siz ma'lumotlar ko'li ma'lumotlaringizda yuqori samarali tahlillarni amalga oshirishingiz mumkin.
Presto uchun Ahana Cloud AWS-da Presto uchun SaaS bo'lib, Presto-dan bulutda foydalanishni boshlashni nihoyatda oson qiladi.
S3-ga asoslangan ma'lumotlar ko'lingiz uchun Ahana allaqachon o'rnatilgan ma'lumotlar katalogiga va keshlashga ega. Ahana sizga Presto funksiyalarini sizdan ortiqcha xarajatlarni talab qilmasdan beradi, chunki u buni ichkarida bajaradi.
AWS Lake Formation, Apache Hudi va Delta Lake - bu stekning bir qismi bo'lgan va u bilan integratsiyalashgan tranzaksiya menejerlarining bir nechtasi.
Dremio
Tashkilotlar tez o'sib borayotgan katta hajmdagi ma'lumotlarni tez, sodda va samarali baholashga intiladi.
Dremio fikricha, ochiq ma'lumotlar ombori ma'lumotlar ko'llari va ma'lumotlar omborlarining afzalliklarini ochiq asosda birlashtiradi, buni amalga oshirishning eng yaxshi usuli.
Dremio-ning lakehouse platformasi foydalanuvchilarga qisqa vaqt ichida tahlillarni yakunlash imkonini beruvchi oson UI bilan hamma uchun ishlaydigan tajribani taqdim etadi.
Dremio Cloud, to'liq boshqariladigan ma'lumotlar ko'li platformasi va ikkita yangi xizmatning ishga tushirilishi: ko'l uyi uchun so'rovlar mexanizmi bo'lgan Dremio Sonar va Apache Iceberg uchun aqlli megado'kon bo'lgan Dremio Arctic ko'l uyi uchun noyob Git-ga o'xshash tajribani taqdim etadi.
Tashkilotning barcha SQL ish yuklari ishqalanishsiz, cheksiz kengaytiriladigan Dremio Cloud platformasida ishlashi mumkin, bu esa ma'lumotlarni boshqarish vazifalarini ham avtomatlashtiradi.
U SQL uchun yaratilgan, Gitga o'xshash tajribani taklif qiladi, ochiq manba va har doim bepul.
Ular uni ma'lumotlar guruhlari yaxshi ko'radigan lakehouse platformasi sifatida yaratdilar.
Apache Iceberg va Apache Parquet kabi ochiq kodli jadval va fayl formatlaridan foydalangan holda, Dremio Cloud-dan foydalanganda ma'lumotlaringiz shaxsiy ma'lumotlar ko'lingiz xotirasida doimiy saqlanadi.
Kelajakdagi innovatsiyalarni osongina o'zlashtirish mumkin va sizning ish yukingizdan kelib chiqqan holda to'g'ri dvigatelni tanlash mumkin.
qor
Snowflake — maʼlumotlar koʻllari va omborlar ehtiyojlarini qondira oladigan bulutli maʼlumotlar va tahliliy platforma.
U bulutli infratuzilmaga asoslangan ma'lumotlar ombori tizimi sifatida boshlangan.
Platforma AWS, Microsoft Azure yoki Google Cloud Platform (GCP) dan ommaviy bulutli saqlash tepasida joylashgan markazlashtirilgan saqlash omboridan iborat.
Undan keyin foydalanuvchilar virtual ma'lumotlar omborini ishga tushirishlari va ma'lumotlarni saqlashga qarshi SQL so'rovlarini o'tkazishlari mumkin bo'lgan ko'p klasterli hisoblash qatlami.
Arxitektura saqlash va hisoblash resurslarini ajratish imkonini beradi, bu esa tashkilotlarga kerak bo'lganda ikkalasini mustaqil ravishda kengaytirishga imkon beradi.
Va nihoyat, Snowflake metadata toifalari, resurslarni boshqarish, ma'lumotlarni boshqarish, tranzaktsiyalar va boshqa xususiyatlar bilan xizmat ko'rsatish qatlamini taqdim etadi.
BI asboblari konnektorlari, metadata boshqaruvi, kirish boshqaruvlari va SQL so'rovlari platforma taklif qilishda ustun bo'lgan ma'lumotlar ombori funksiyalarining bir nechtasi.
Snowflake, ammo SQL-ga asoslangan yagona relyatsion so'rovlar mexanizmi bilan cheklangan.
Natijada, uni boshqarish osonroq bo'ladi, lekin kamroq moslashtiriladi va ko'p modelli ma'lumotlar ko'lini ko'rish amalga oshirilmaydi.
Bundan tashqari, bulutli saqlash ma'lumotlarini qidirish yoki tahlil qilishdan oldin, Snowflake korxonalardan uni markazlashtirilgan saqlash qatlamiga yuklashni talab qiladi.
Qo'lda ma'lumotlarni uzatish jarayoni tekshirilishidan oldin ETL, ta'minlash va ma'lumotlarni formatlashni talab qiladi. Ushbu qo'lda jarayonlarni kengaytirish ularni asabiylashtiradi.
Qog'ozga yaxshi mos keladigan, lekin aslida oddiy ma'lumotlarni kiritishning ma'lumotlar ko'li printsipidan chetga chiqadigan yana bir variant - Snowflake's data lakehouse.
Oracle
“Data Lakehouse” deb nomlanuvchi zamonaviy, ochiq arxitektura barcha maʼlumotlaringizni saqlash, tushunish va tahlil qilish imkonini beradi.
Eng mashhur ochiq manbali ma'lumotlar ko'li yechimlarining kengligi va moslashuvchanligi ma'lumotlar omborlarining kuchi va chuqurligi bilan birlashtirilgan.
Eng yangi AI ramkalari va oldindan tuzilgan AI xizmatlaridan Oracle Cloud Infrastructure (OCI) da maʼlumotlar koʻli bilan foydalanish mumkin.
Ochiq manbali ma'lumotlar ko'lidan foydalanganda qo'shimcha ma'lumotlar turlari bilan ishlash mumkin. Ammo uni boshqarish uchun zarur bo'lgan vaqt va kuch doimiy kamchilik bo'lishi mumkin.
OCI to'liq boshqariladigan ochiq manbali ko'l uyi xizmatlarini pastroq narxlarda va kamroq boshqaruv bilan taklif qiladi, bu sizga kamroq operatsion xarajatlarni, yaxshi miqyoslash va xavfsizlikni va barcha mavjud ma'lumotlarni bir joyda birlashtirish imkoniyatini kutish imkonini beradi.
Ma'lumotlar ombori muvaffaqiyatli korxonalar uchun zarur bo'lgan ma'lumotlar omborlari va martlarning qiymatini oshiradi.
Ma'lumotni faqat bitta SQL so'rovi bilan bir nechta joydan lakehouse yordamida olish mumkin.
Mavjud dasturlar va vositalar o'zgartirishlar yoki yangi ko'nikmalarni talab qilmasdan barcha ma'lumotlarga shaffof kirish huquqiga ega.
Xulosa
Data lakehouse yechimlarining joriy etilishi katta maʼlumotlardagi kengroq tendentsiyaning aksidir, yaʼni maʼlumotlardan biznes qiymatini maksimal darajada oshirish uchun tahlil va maʼlumotlarni saqlashning yagona maʼlumotlar platformalarida integratsiyalashuvi, shu bilan birga qiymat olishning vaqtini, narxini va murakkabligini kamaytiradi.
Databricks, Snowflake, Ahana, Dremio va Oracle kabi platformalar "ma'lumotlar ko'li" g'oyasi bilan bog'langan, ammo ularning har biri o'ziga xos xususiyatlar to'plamiga ega va haqiqiy ma'lumotlar ko'lidan ko'ra ko'proq ma'lumotlar ombori kabi ishlashga moyildir. bir butun sifatida.
Yechim "ma'lumotlar ko'li" sifatida sotilganda, korxonalar aslida nimani anglatishidan ehtiyot bo'lishlari kerak.
Korxonalar "data lakehouse" kabi marketing jargonidan tashqariga qarashlari kerak va buning o'rniga kelajakda o'z bizneslari bilan kengaytiriladigan eng yaxshi ma'lumotlar platformasini tanlash uchun har bir platformaning xususiyatlarini ko'rib chiqishlari kerak.
Leave a Reply