Ma'lumotlar platformalari haqida o'ylashda barcha mavjud xizmatlar va arxitektura variantlarini ko'rib chiqish biroz qiyin bo'lishi mumkin.
Korxona ma'lumotlar platformasi ko'pincha ma'lumotlar omborlari, ma'lumotlar modellari, ma'lumotlar ko'llari va hisobotlardan iborat bo'lib, ularning har biri o'ziga xos maqsad va zarur ko'nikmalar to'plamiga ega. Bundan farqli o'laroq, so'nggi bir necha yil ichida data lakehouse deb nomlangan yangi dizayn paydo bo'ldi.
Ma'lumotlar ko'llarining ko'p qirraliligi va ma'lumotlar ombori ma'lumotlarini boshqarish "ma'lumotlar ko'li" deb nomlangan inqilobiy ma'lumotlarni saqlash arxitekturasida birlashtirilgan.
Biz ushbu postda ma'lumotlar lakehouse-ni, jumladan uning tarkibiy qismlari, xususiyatlari, arxitekturasi va boshqa jihatlarini batafsil ko'rib chiqamiz.
Data Lakehouse nima?
Nomidan ko'rinib turibdiki, ma'lumotlar ko'li uyi - bu har birining kamchiliklarini alohida hal qilish uchun ma'lumotlar ko'lini ma'lumotlar ombori bilan birlashtirgan ma'lumotlar arxitekturasining yangi turi.
Aslini olganda, lakehouse tizimi ma'lumotlar ko'llari kabi katta hajmdagi ma'lumotlarni asl shakllarida saqlash uchun arzon saqlashdan foydalanadi. Do'konning yuqori qismiga metadata qatlamini qo'shish, shuningdek, ma'lumotlar tuzilmasini beradi va ma'lumotlar omborlarida joylashgan kabi ma'lumotlarni boshqarish vositalarini kengaytiradi.
U o'z tashkilotida ishlatiladigan turli xil biznes ilovalari, tizimlari va gadjetlaridan oladigan katta hajmdagi tashkillashtirilgan, yarim tizimli va tuzilmagan ma'lumotlarni saqlaydi.
Ko'pincha ma'lumotlar ko'llari ochiq, umumiy fayl formatlarida ma'lumotlarni saqlash uchun fayl ilovalarini dasturlash interfeysi (API) bilan arzon saqlash infratuzilmasidan foydalanadi.
Bu ko'plab jamoalarga kompaniyaning barcha ma'lumotlariga turli tashabbuslar uchun yagona tizim orqali kirish imkonini beradi, masalan, ma'lumotlar fanlari, kompyuterni o'rganish, va biznes razvedkasi.
Xususiyatlari
- Kam xarajatli saqlash. Data lakehouse ma'lumotlarni arzon ob'yektlar xotirasida saqlash imkoniyatiga ega bo'lishi kerak, masalan Google Cloud Saqlash, Azure Blob Storage, Amazon Simple Storage Service yoki ORC yoki Parketdan foydalanish.
- Ma'lumotni optimallashtirish qobiliyati: Ma'lumotlar tartibini optimallashtirish, keshlash va indekslash ma'lumotlar ko'li uyi ma'lumotlarning asl formatini saqlab qolgan holda ma'lumotlarni optimallashtirishga qodir bo'lishi kerakligiga bir necha misoldir.
- Tranzaksiyaviy metama'lumotlar qatlami: muhim arzon saqlashdan tashqari, bu ma'lumotlar ombori ishlashi uchun muhim bo'lgan ma'lumotlarni boshqarish imkoniyatlarini beradi.
- Deklarativ DataFrame API-ni qo'llab-quvvatlash: AI vositalarining aksariyati xom ob'ektni saqlash ma'lumotlarini olish uchun DataFrames-dan foydalanishi mumkin. Deklarativ DataFrame API-ni qo'llab-quvvatlash muayyan ma'lumotlar faniga yoki AI vazifasiga javoban ma'lumotlar taqdimoti va tuzilishini dinamik ravishda yaxshilash qobiliyatini oshiradi.
- ACID tranzaktsiyalarini qo'llab-quvvatlash: Atomlik, izchillik, izolyatsiya va chidamlilik degan ma'noni anglatadigan ACID qisqartmasi tranzaktsiyani aniqlash va ma'lumotlarning izchilligi va ishonchliligini ta'minlashda muhim komponent hisoblanadi. Bunday operatsiyalar ilgari faqat ma'lumotlar omborlarida mumkin edi, lekin lakehouse ulardan ma'lumot ko'llari bilan foydalanish imkoniyatini taklif qiladi shuningdek. Bir vaqtning o'zida ma'lumotlarni o'qish va yozishni o'z ichiga olgan bir nechta ma'lumotlar quvurlari bilan bu ikkinchisining past ma'lumotlar sifati muammosini hal qiladi.
Data Lakehouse elementlari
Data lakehouse arxitekturasi yuqori darajada ikkita asosiy darajaga bo'lingan. Saqlash qatlamining ma'lumotlar qabul qilinishi Lakehouse platformasi (ya'ni, ma'lumotlar ko'li) tomonidan boshqariladi.
Ma'lumotlarni ma'lumotlar omboriga yuklamasdan yoki uni xususiy formatga o'zgartirmasdan, qayta ishlash qatlami bir qator vositalar yordamida to'g'ridan-to'g'ri saqlash qatlamidagi ma'lumotlarni so'rashi mumkin.
Keyin, BI ilovalari, shuningdek, AI va ML texnologiyalari ma'lumotlardan foydalanishi mumkin. Ma'lumotlar ko'lining iqtisodini ushbu dizayn taqdim etadi, ammo har qanday ishlov berish mexanizmi ushbu ma'lumotlarni o'qiy olishi sababli, korxonalar tayyorlangan ma'lumotlarni bir qator tizimlar tomonidan tahlil qilish uchun ochiq qilish erkinligiga ega. Protsessorning ishlashi va narxini qayta ishlash va tahlil qilish uchun ushbu usuldan foydalanish orqali yaxshilash mumkin.
Quyidagi ACID (atomlik, mustahkamlik, izolyatsiya va chidamlilik) mezonlariga mos keladigan ma'lumotlar bazasi tranzaktsiyalarini qo'llab-quvvatlashi tufayli, arxitektura ko'plab tomonlarga bir vaqtning o'zida tizim ichida ma'lumotlarga kirish va yozish imkonini beradi:
- Atomiklik tranzaktsiyani yakunlashda to'liq tranzaksiya yoki uning hech biri muvaffaqiyatli bo'lmasligini anglatadi. Agar jarayon to'xtatilgan bo'lsa, bu ma'lumotlar yo'qolishi yoki buzilishining oldini olishga yordam beradi.
- Munosabatlar tranzaktsiyalarning bashorat qilinadigan, izchil amalga oshirilishini kafolatlaydi. U har bir ma'lumotlarning oldindan belgilangan qoidalarga muvofiq qonuniyligini ta'minlash orqali ma'lumotlarning yaxlitligini ta'minlaydi.
- Izolyatsiya u tugaguniga qadar hech qanday tranzaksiyaga tizimdagi boshqa tranzaksiya ta'sir qilmasligini ta'minlaydi. Bu ko'plab tomonlarga bir vaqtning o'zida bir-biriga aralashmasdan bir xil tizimdan o'qish va yozish imkonini beradi.
- mustahkamlik tizimdagi ma'lumotlarga kiritilgan o'zgarishlar tranzaksiya tugagandan so'ng, hatto tizim ishlamay qolgan taqdirda ham mavjud bo'lishini kafolatlaydi. Tranzaksiya natijasida yuzaga kelgan har qanday o'zgarishlar faylda abadiy saqlanadi.
Data Lakehouse arxitekturasi
Databricks (ularning Delta Lake kontseptsiyasining innovatori va dizayneri) va AWS ma'lumotlar ko'li kontseptsiyasining ikkita asosiy himoyachisidir. Shunday qilib, biz ko'l uylarining arxitektura tartibini tasvirlashda ularning bilim va tushunchasiga tayanamiz.
Data lakehouse tizimi odatda besh qatlamga ega bo'ladi:
- Yutish qatlami
- Saqlash qatlami
- Metadata qatlami
- API qatlami
- Iste'mol qatlami
Yutish qatlami
Tizimning birinchi qatlami turli manbalardan ma'lumotlarni yig'ish va uni saqlash qatlamiga yuborish uchun javobgardir. Qatlam ko'plab ichki va tashqi manbalarga ulanish uchun bir nechta protokollardan foydalanishi mumkin, jumladan, ommaviy va oqimli ma'lumotlarni qayta ishlash imkoniyatlarini birlashtirish, masalan.
- NoSQL ma'lumotlar bazalari,
- fayl almashish
- CRM ilovalari,
- veb-saytlar,
- IoT sensorlari,
- ijtimoiy media,
- Xizmat sifatida dasturiy ta'minot (SaaS) ilovalari va
- relyatsion ma'lumotlar bazasini boshqarish tizimlari va boshqalar.
Shu nuqtada, ma'lumotlar oqimi uchun Apache Kafka va RDBMS va NoSQL ma'lumotlar bazalaridan ma'lumotlarni import qilish uchun Amazon Data Migration Service (Amazon DMS) kabi komponentlardan foydalanish mumkin.
Saqlash qatlami
Lakehouse arxitekturasi AWS S3 kabi arzon ob'ektlar do'konlarida ob'ektlar sifatida har xil turdagi ma'lumotlarni saqlashni ta'minlash uchun mo'ljallangan. Ochiq fayl formatlaridan foydalangan holda, mijoz asboblari ushbu elementlarni to'g'ridan-to'g'ri do'kondan o'qishi mumkin.
Bu ko'plab API va iste'mol qatlami komponentlariga bir xil ma'lumotlarga kirish va ulardan foydalanish imkonini beradi. Metadata qatlami tuzilgan va yarim tuzilgan ma'lumotlar to'plamlari uchun sxemalarni saqlaydi, shunda komponentlar ularni o'qiyotganda ma'lumotlarga qo'llashi mumkin.
Hadoop Distributed File System (HDFS) platformasi, masalan, mahalliy hisoblash va saqlashni ajratuvchi bulutli ombor xizmatlarini yaratish uchun ishlatilishi mumkin. Lakehouse ushbu xizmatlar uchun juda mos keladi.
Metadata qatlami
Metadata qatlami ushbu dizaynni ajratib turadigan ma'lumotlar ko'lining asosiy komponentidir. Bu ko'lda saqlangan barcha ob'ektlar uchun metadata (boshqa ma'lumotlar bo'laklari haqida ma'lumot) taklif qiladigan yagona katalog bo'lib, foydalanuvchilarga ma'muriy imkoniyatlardan foydalanish imkonini beradi:
- Ma'lumotlar bazasining izchil versiyasi ACID tranzaksiyalari tufayli bir vaqtning o'zida amalga oshiriladigan tranzaksiyalar orqali ko'rinadi;
- bulut ob'ekti do'kon fayllarini saqlash uchun keshlash;
- so'rovlarni qayta ishlashni tezlashtirish uchun indekslashdan foydalangan holda ma'lumotlar strukturasi indekslarini qo'shish;
- ma'lumotlar ob'ektlarini takrorlash uchun nol nusxali klonlashdan foydalanish; va
- ma'lumotlarning ma'lum versiyalarini saqlash uchun va hokazo, ma'lumotlar versiyasini ishlatish.
Bundan tashqari, metama'lumotlar qatlami sxemalarni boshqarishni amalga oshirish, yulduz/qor parchalari sxemalari kabi DW sxema topologiyalaridan foydalanish va ma'lumotlar ko'lida to'g'ridan-to'g'ri ma'lumotlarni boshqarish va audit qobiliyatini ta'minlash, butun ma'lumotlar quvurining yaxlitligini oshirish imkonini beradi.
Sxema evolyutsiyasi va qo'llanilishi uchun xususiyatlar sxema boshqaruviga kiritilgan. Jadval sxemasiga mos kelmaydigan har qanday yozishni rad etish orqali sxemani qo'llash foydalanuvchilarga ma'lumotlar yaxlitligi va sifatini saqlab qolish imkonini beradi.
Sxema evolyutsiyasi o'zgaruvchan ma'lumotlarga moslashish uchun jadvalning mavjud sxemasini o'zgartirishga imkon beradi. Ma'lumotlar ko'li ustidagi yagona boshqaruv interfeysi tufayli kirishni boshqarish va tekshirish imkoniyatlari ham mavjud.
API qatlami
Arxitekturaning yana bir muhim qatlami hozirda mavjud bo'lib, u barcha oxirgi foydalanuvchilar ishlarni tezroq bajarish va yanada murakkab statistik ma'lumotlarni olish uchun foydalanishi mumkin bo'lgan bir qator API-larni o'z ichiga oladi.
Metadata API-laridan foydalanish ma'lum bir ilova uchun zarur bo'lgan ma'lumotlar elementlarini aniqlash va ularga kirishni osonlashtiradi.
Mashina o'rganish kutubxonalari nuqtai nazaridan, ularning ba'zilari, masalan, TensorFlow va Spark MLlib, Parket kabi ochiq fayl formatlarini o'qiy oladi va to'g'ridan-to'g'ri metadata qatlamiga kira oladi.
Shu bilan birga, DataFrame API-lari optimallashtirish uchun ko'proq imkoniyatlarni taqdim etadi, bu esa dasturchilarga tarqalgan ma'lumotlarni tartibga solish va o'zgartirish imkonini beradi.
Iste'mol qatlami
Power BI, Tableau va boshqa vositalar va ilovalar iste'mol qatlami ostida joylashgan. Leykhouse dizayni bilan barcha metama'lumotlar va ko'lda saqlanadigan barcha ma'lumotlar mijoz ilovalari uchun ochiqdir.
Ko'l uyidan kompaniya ichidagi barcha foydalanuvchilar barcha turdagi ishlarni bajarish uchun foydalanishlari mumkin tahliliy operatsiyalar, shu jumladan biznes razvedkasi asboblar panelini yaratish va SQL so'rovlari va mashinani o'rganish vazifalarini bajarish.
Data Lakehouse-ning afzalliklari
Tashkilotlar o'zlarining joriy ma'lumotlar platformasini birlashtirish va butun ma'lumotlarni boshqarish jarayonini optimallashtirish uchun ma'lumotlar lakehouse yaratishlari mumkin. Turli manbalarni bog'laydigan silos to'siqlarini demontaj qilish orqali ma'lumotlar ko'li uyi aniq echimlarga bo'lgan ehtiyojni almashtirishi mumkin.
Muhokama qilingan ma'lumotlar manbalari bilan solishtirganda, bu integratsiya oxirigacha sezilarli darajada samaraliroq protsedurani ishlab chiqaradi. Bu bir qator afzalliklarga ega:
- Kamroq ma'muriyat: Xom ma'lumotlardan ma'lumotlarni ajratib olish va uni ma'lumotlar omborida foydalanishga tayyorlash o'rniga, ma'lumotlar ko'li ombori unga bog'langan har qanday manbalarga o'z ma'lumotlarini mavjud bo'lishiga va ulardan foydalanish uchun tashkil etilishiga imkon beradi.
- Iqtisodiy samaradorlikni oshirish: Data lakehouses zamonaviy infratuzilma yordamida qurilgan bo‘lib, hisoblash va saqlashni ajratadi, bu esa hisoblash quvvatini oshirmasdan saqlashni kengaytirishni osonlashtiradi. Faqat arzon ma'lumotlarni saqlashdan foydalanish iqtisodiy jihatdan samarali bo'lgan masshtablilikka olib keladi.
- Yaxshiroq ma'lumotlarni boshqarish: Data lakehouses standartlashtirilgan ochiq arxitektura bilan qurilgan bo'lib, xavfsizlik, o'lchovlar, rolga asoslangan kirish va boshqa muhim boshqaruv komponentlarini ko'proq nazorat qilish imkonini beradi. Resurslar va ma'lumotlar manbalarini birlashtirib, ular boshqaruvni soddalashtiradi va yaxshilaydi.
- Soddalashtirilgan standartlar: Aloqa 1980-yillarda, ma'lumotlar omborlari birinchi marta ishlab chiqilganda, juda cheklanganligi sababli, mahalliylashtirilgan sxema standartlari ko'pincha korxonalar, hatto bo'limlar ichida ishlab chiqilar edi. Ma'lumotlar ko'l uylari ko'plab ma'lumotlar turlarining sxemalar uchun ochiq standartlarga ega ekanligidan, protseduralarni soddalashtirish uchun bir-birining ustiga chiqadigan yagona sxema bilan ko'plab ma'lumotlar manbalarini qabul qilish orqali foydalanadi.
Data Lakehouse-ning kamchiliklari
Data lakehouses atrofidagi barcha hooplalarga qaramay, g'oya hali ham juda yangi ekanligini yodda tutish kerak. Ushbu yangi dizaynni to'liq bajarishdan oldin kamchiliklarni ko'rib chiqing.
- Monolitik tuzilish: Ko'l uyining hamma narsani o'z ichiga olgan dizayni bir qancha afzalliklarni taqdim etadi, lekin u ham ba'zi muammolarni keltirib chiqaradi. Monolit arxitektura ko'pincha barcha foydalanuvchilar uchun yomon xizmat ko'rsatishga olib keladi va qattiq va parvarish qilish qiyin bo'lishi mumkin. Odatda, me'morlar va dizaynerlar turli xil foydalanish holatlari uchun sozlashlari mumkin bo'lgan modulli arxitekturani yaxshi ko'radilar.
- Texnologiya hali u erda emas: yakuniy maqsad katta miqdordagi mashinani o'rganish va sun'iy intellektni o'z ichiga oladi. Ko'l uylari ko'zda tutilgan tarzda ishlashidan oldin, bu texnologiyalar yanada rivojlanishi kerak.
- Mavjud tuzilmalarga nisbatan sezilarli rivojlanish emas: Hali ham ko'l uylari qanchalik qimmatga tushishiga shubha bor. Ba'zi tanqidchilarning ta'kidlashicha, tegishli avtomatlashtirilgan uskunalar bilan bog'langan ko'l ombori dizayni taqqoslanadigan samaradorlikka erishishi mumkin.
Data Lakehouse muammolari
Data lakehouse texnikasini qabul qilish qiyin bo'lishi mumkin. Uning tarkibiy qismlarining murakkabligi tufayli, ma'lumotlar ko'li uyini hamma narsani qamrab oluvchi ideal tuzilma yoki "hamma narsa uchun bitta platforma" sifatida ko'rish noto'g'ri.
Bundan tashqari, ma'lumotlar ko'llarining tobora ko'payib borayotganligi sababli, korxonalar o'zlarining mavjud ma'lumotlar omborlarini ularga ko'chirishlari kerak bo'ladi, faqat muvaffaqiyat va'dasiga tayanib, hech qanday iqtisodiy foyda keltirmaydi.
Agar uzatish jarayonida kechikish bilan bog'liq muammolar yoki uzilishlar bo'lsa, bu qimmat, vaqt talab qiluvchi va ehtimol xavfli bo'lishi mumkin.
Biznes foydalanuvchilari aniq yoki bilvosita ma'lumotlar ko'li kabi echimlarni sotadigan ayrim sotuvchilarga ko'ra, yuqori ixtisoslashgan texnologiyalarni qo'llashlari kerak. Ular har doim ham tizim markazidagi ma'lumotlar ko'liga bog'langan boshqa vositalar bilan ishlamasligi mumkin, bu esa muammolarni yanada kuchaytiradi.
Bundan tashqari, biznes uchun muhim ish yuklarini bajarayotganda 24/7 tahliliy ma'lumotlarni taqdim etish qiyin bo'lishi mumkin, bu esa tejamkor miqyosli infratuzilmani talab qiladi.
Xulosa
So'nggi yillarda ma'lumotlar markazlarining eng yangi turi - bu data lakehouse. U turli sohalarni birlashtiradi, masalan, axborot texnologiyalari, ochiq kodli dasturiy ta'minot, cloud computing, va tarqatilgan saqlash protokollari.
Bu korxonalarga boshqaruv va tahlilni soddalashtirib, istalgan joydan barcha maʼlumotlar turlarini markazlashtirilgan holda saqlash imkonini beradi. Data Lakehouse - bu juda qiziq tushuncha.
Har qanday firma, agar u ma'lumotlar ombori kabi tez va samarali, shuningdek, ma'lumotlar ko'li kabi moslashuvchan bo'lgan yaxlit ma'lumotlar platformasiga kirish imkoniga ega bo'lsa, sezilarli raqobatdosh ustunlikka ega bo'lar edi.
G'oya hali ham rivojlanmoqda va nisbatan yangiligicha qolmoqda. Natijada, biror narsa keng tarqalishi mumkinmi yoki yo'qligini aniqlash uchun biroz vaqt kerak bo'lishi mumkin.
Biz hammamiz Lakehouse arxitekturasi qaysi yo'nalishda borayotgani bilan qiziqishimiz kerak.
Leave a Reply