Mundarija[Yashirish][Show]
Kompaniyalar har qachongidan ham ko'proq ma'lumotlarni to'plashmoqda, chunki ular muhim biznes qarorlarini xabardor qilish, mahsulot takliflarini yaxshilash va mijozlarga yaxshi xizmat ko'rsatish uchun tobora ko'proq tayanmoqda.
Eksponensial tezlikda yaratilgan ma'lumotlar miqdori bilan bulut ma'lumotlarni qayta ishlash va tahlil qilish uchun bir qator afzalliklarni, jumladan, miqyoslilik, ishonchlilik va mavjudlikni taklif qiladi.
Bulutli ekotizimda ma'lumotlarni qayta ishlash va tahlil qilish uchun bir nechta vositalar va texnologiyalar ham mavjud. Eng ko'p ishlatiladigan ikki turdagi katta ma'lumotlarni saqlash tuzilmalari - ma'lumotlar omborlari va ma'lumotlar ko'llari.
Ma'lumotlar ko'lidan foydalanish unchalik jozibador bo'lmasa-da, chunki siz hali ham dolzarb bo'lgan model va ma'lumotlarni so'rashingiz mumkin emas, oqimli ma'lumotlarni saqlash uchun ma'lumotlar omboridan foydalanish behudadir.
Wbulut arxitekturasining qaysi turini tanlaymiz?
Data lakehouse uchun yangi tushunchalarni ko'rib chiqishimiz kerakmi yoki ombor cheklovlari yoki ko'l cheklovlari bilan qanoatlanishimiz kerakmi?
"Ma'lumotlar ko'li" deb nomlangan yangi ma'lumotlarni saqlash arxitekturasi ma'lumotlar ko'llarining moslashuvini ma'lumotlar omborlari ma'lumotlarini boshqarish bilan birlashtiradi.
Katta ma'lumotlarni saqlashning turli usullarini tushunish biznes razvedkasi (BI), ma'lumotlar tahlili va ma'lumotlar tahlili uchun ishonchli ma'lumotlarni saqlash quvurini yaratish uchun zarur kompyuterni o'rganish (ML) ish yuklari, kompaniyangiz talablariga qarab.
Ushbu postda biz Data Warehouse, Data Lake va Data Lakehouse-ni afzalliklari, cheklovlari, shuningdek, ijobiy va salbiy tomonlari bilan yaqindan ko'rib chiqamiz. Keling, boshlaymiz.
Ma'lumotlar ombori nima?
Ma'lumotlar ombori - bu tashkilot tomonidan ko'plab manbalardan katta hajmdagi ma'lumotlarni saqlash uchun foydalaniladigan markazlashtirilgan ma'lumotlar ombori. Ma'lumotlar ombori tashkilotning yagona "ma'lumotlar haqiqati" manbai bo'lib ishlaydi va hisobot berish va biznes tahlili uchun zarurdir.
Odatda, ma'lumotlar omborlari tarixiy ma'lumotlarni saqlash uchun dastur, biznes va tranzaksiya ma'lumotlari kabi bir nechta manbalardan relyatsion ma'lumotlar to'plamini birlashtiradi. Ombor tizimiga yuklanishidan oldin ma'lumotlar ma'lumotlar omborlarida o'zgartiriladi va tozalanadi, shunda ular ma'lumotlar haqiqatining yagona manbai sifatida ishlatilishi mumkin.
Kompaniyaning barcha sohalari bo'yicha biznes tushunchalarini tezda taklif qilish qobiliyati tufayli korxonalar ma'lumotlar omborlariga sarmoya kiritadilar. BI vositalari, SQL mijozlari va boshqa unchalik murakkab boʻlmagan (yaʼni, maʼlumotlar fanidan tashqari) tahliliy yechimlardan foydalangan holda, biznes tahlilchilari, ma'lumotlar muhandislari va qaror qabul qiluvchilar ma'lumotlar omborlaridan ma'lumotlarga kirishlari mumkin.
Har doim o'sib borayotgan ma'lumotlar hajmiga ega omborni saqlash qimmatga tushadi va ma'lumotlar ombori xom yoki tuzilmagan ma'lumotlarni qayta ishlay olmaydi. Bundan tashqari, bu mashinani o'rganish yoki bashoratli modellashtirish kabi murakkab ma'lumotlarni tahlil qilish usullari uchun ideal variant emas.
Shunday qilib, ma'lumotlar ombori so'rovlarga tezroq javoblar va yuqori sifatli ma'lumotlarni taqdim etadi. Google Big Query, Amazon Redshift, Azure SQL ma'lumotlar ombori va Snowflake ma'lumotlar omborlari uchun mavjud bulutli xizmatlardir.
Ma'lumotlar omborining afzalliklari
- Biznes razvedkasi va ma'lumotlar tahlili ish yuklarining samaradorligi va tezligini oshirish: Ma'lumotlar omborlari ma'lumotlarni tayyorlash va tahlil qilish uchun zarur bo'lgan vaqtni qisqartiradi. Ular ma'lumotlar tahlili va biznes razvedkasi vositalariga osongina ulanishi mumkin, chunki ma'lumotlar omboridan olingan ma'lumotlar ishonchli va izchil. Bundan tashqari, ma'lumotlar omborlari ma'lumotlarni yig'ish uchun zarur bo'lgan vaqtni tejaydi va jamoalarga hisobotlar, asboblar paneli va boshqa tahliliy talablar uchun ma'lumotlardan foydalanish imkoniyatini beradi.
- Ma'lumotlarning izchilligi, sifati va standartlashtirilishini oshirish: Tashkilotlar foydalanuvchi, savdo va tranzaksiya ma'lumotlarini o'z ichiga olgan turli manbalardan ma'lumotlarni to'playdi. Firma biznes talablari bo'yicha ma'lumotlarga ishonishi mumkin, chunki ma'lumotlar ombori korporativ ma'lumotlarni yagona, standartlashtirilgan formatga to'playdi va ma'lumotlar haqiqatining yagona manbai sifatida ishlaydi.
- Umuman olganda, qaror qabul qilishni kuchaytirish: Ma'lumotlarni saqlash so'nggi va eski ma'lumotlar uchun markazlashtirilgan do'konni taklif qilish orqali yaxshiroq qaror qabul qilishni osonlashtiradi. Aniq tushunchalar uchun ma'lumotlar omboridagi ma'lumotlarni qayta ishlash orqali qaror qabul qiluvchilar xavflarni baholashlari, mijozlar istaklarini tushunishlari va tovarlar va xizmatlarni yaxshilashlari mumkin.
- Yaxshiroq biznes ma'lumotlarini taqdim etish: Ma'lumotlar ombori odatda muntazam ravishda to'planadigan katta hajmdagi xom ma'lumotlar va tushunchalarni taqdim etadigan saralangan ma'lumotlar o'rtasidagi tafovutni yo'q qiladi. Ular tashkilotning ma'lumotlarini saqlash uchun asos bo'lib xizmat qiladi, bu unga ma'lumotlariga oid murakkab savollarga javob berishga va himoyalangan biznes qarorlarini qabul qilish uchun javoblardan foydalanishga imkon beradi.
Ma'lumotlar omborining cheklovlari
- Ma'lumotlarning moslashuvchanligi yo'qligi: Ma'lumotlar omborlari tuzilgan ma'lumotlar bilan ishlashda ustun bo'lsa-da, jurnal tahlili, oqim va ijtimoiy media ma'lumotlari kabi yarim tizimli va tuzilmagan ma'lumotlar formatlari ular uchun qiyin bo'lishi mumkin. Bu mashina o'rganish bilan bog'liq foydalanish holatlari uchun ma'lumotlar omborlarini tavsiya qiladi va sun'iy intellekt qiyinchilik.
- O'rnatish va texnik xizmat ko'rsatish qimmat: Ma'lumotlar omborlarini o'rnatish va texnik xizmat ko'rsatish qimmatga tushishi mumkin. Bundan tashqari, ma'lumotlar ombori ko'pincha statik emas; u qariydi va tez-tez parvarish qilishni talab qiladi, bu qimmat.
Taroziga
- Ma'lumotlarni topish, olish va so'rash oson.
- Ma'lumotlar toza bo'lsa, SQL ma'lumotlarini tayyorlash oson.
Kamchiliklari
- Siz faqat bitta tahliliy sotuvchidan foydalanishga majbursiz.
- Tarkibi bo'lmagan yoki oqimli ma'lumotlarni tahlil qilish va saqlash juda qimmatga tushadi.
Data Lake nima?
Har bir turdagi ma'lumotlar va'da qilingan va ma'lumotlar ko'llari orqali amalga oshiriladi. Ma'lumotlarning markazda joylashgan va o'qish uchun qulay bo'lishi foydalidir.
Ma'lumotlar ko'li - bu markazlashtirilgan, o'ta moslashtiriladigan saqlash joyi bo'lib, unda tashkillashtirilgan va tuzilmagan ma'lumotlarning katta hajmlari qayta ishlanmagan, o'zgartirilmagan va formatlanmagan shakllarda saqlanadi.
Ma'lumotlar ko'li avval "tozalangan" aloqador ma'lumotlarni saqlaydigan ma'lumotlar omborlaridan farqli o'laroq, ma'lumotlarni saqlash uchun tekis arxitektura va qayta ishlanmagan holatda saqlanadigan ob'ektlardan foydalanadi.
Ushbu formatdagi ma'lumotlarni qayta ishlashda qiyinchiliklarga duch keladigan ma'lumotlar omborlaridan farqli o'laroq, ma'lumotlar ko'llari moslashuvchan, ishonchli va hamyonbop bo'lib, korxonalarga tuzilmagan ma'lumotlardan kengaytirilgan tushuncha olish imkonini beradi.
Ma'lumotlar ko'llarida ma'lumotlar ma'lumotlar yig'ish vaqtida tuzilgan sxema yoki ma'lumotlarga ega bo'lishdan ko'ra tahliliy maqsadlarda olinadi, yuklanadi va o'zgartiriladi (ELT).
IoT qurilmalaridan ko'plab ma'lumotlar turlari uchun texnologiyalardan foydalanish, ijtimoiy media, va oqimli ma'lumotlar, ma'lumotlar ko'llari mashinani o'rganish va bashoratli tahlillarni amalga oshiradi.
Bundan tashqari, xom ma'lumotlarni qayta ishlay oladigan ma'lumot olimi ma'lumotlar ko'lidan foydalanishi mumkin. Boshqa tomondan, ma'lumotlar ombori korxonalar uchun foydalanish uchun qulayroqdir. Bu foydalanuvchi profilini yaratish uchun juda mos keladi, Bashoratli analitik, mashinani o'rganish va boshqa vazifalar.
Ma'lumotlar ko'llari ma'lumotlar omborlari bilan bog'liq bir nechta muammolarni hal qilsa-da, ularning ma'lumotlar sifati past va so'rov tezligi etarli emas. Bundan tashqari, biznes foydalanuvchilari uchun SQL so'rovlarini o'tkazish uchun qo'shimcha vositalar kerak bo'ladi. Noto'g'ri tuzilgan ma'lumotlar ko'li ma'lumotlarning turg'unligi bilan bog'liq muammoga duch kelishi mumkin.
Data Lakening afzalliklari
- Mashinani o'rganish va ma'lumotlar fanini qo'llash holatlarining keng doirasini qo'llab-quvvatlash Ma'lumotlar ko'llarida ma'lumotlarni qayta ishlash uchun boshqa mashina va chuqur o'rganish algoritmlaridan foydalanish osonroq, chunki ma'lumotlar ochiq, xom shaklda saqlanadi.
- Ma'lumotlar ko'llarining ko'p qirraliligi, bu sizga oldindan o'rnatilgan sxema talab qilmasdan ma'lumotlarni istalgan formatda yoki ommaviy axborot vositalarida saqlash imkonini beradi. Kelajakda ma'lumotlardan foydalanish holatlari qo'llab-quvvatlanishi mumkin va agar ma'lumotlar asl holatida qolsa, ko'proq ma'lumotlarni tahlil qilish mumkin.
- Har ikki turdagi ma'lumotlarni turli kontekstlarda saqlashga majbur bo'lmaslik uchun ma'lumotlar ko'llari ham tuzilgan, ham tuzilmagan ma'lumotlarni o'z ichiga olishi mumkin. Har xil turdagi tashkiliy ma'lumotlarni saqlash uchun ular bitta joyni taklif qilishadi.
- An'anaviy ma'lumotlar omborlari bilan solishtirganda, ma'lumotlar ko'llari arzonroq, chunki ular ob'ektni saqlash kabi arzon tovar uskunasida saqlash uchun qurilgan, bu ko'pincha saqlanadigan gigabayt uchun arzonroq narxga mo'ljallangan.
Data Lakening cheklovlari
- Ma'lumotlar tahlili va biznes razvedkasidan foydalanish holatlari yomon baholanadi: Ma'lumotlar ko'llari, agar ular etarli darajada saqlanmasa, tartibsiz bo'lib qolishi mumkin, bu ularni biznes razvedkasi va tahlil vositalari bilan bog'lashni qiyinlashtiradi. Bundan tashqari, hisobot va tahliliy foydalanish holatlari uchun zarur bo'lganda, izchillik yo'qligi ma'lumotlar tuzilmalari va ACID (atomlik, mustahkamlik, izolyatsiya va chidamlilik) tranzaktsion yordami suboptimal so'rovlar ishlashiga olib kelishi mumkin.
- Ma'lumotlar ko'llarining nomuvofiqligi ma'lumotlar ishonchliligi va xavfsizligini ta'minlashni imkonsiz qiladi, bu ikkalasining ham etishmasligiga olib keladi. Nozik ma'lumotlar turlarini ta'minlash uchun tegishli ma'lumotlar xavfsizligi va boshqaruv standartlarini ishlab chiqish qiyin bo'lishi mumkin, chunki ma'lumotlar ko'llari har qanday ma'lumotlar shaklini boshqarishi mumkin.
Taroziga
- Barcha turdagi ma'lumotlar uchun hamyonbop echimlar.
- Uyushtirilgan va yarim tizimli ma'lumotlar bilan ishlashga qodir.
- Murakkab ma'lumotlarni qayta ishlash va oqimlash uchun ideal.
Kamchiliklari
- Murakkab quvur liniyasini qurish kerak.
- Ma'lumotlar so'raladigan bo'lishi uchun biroz vaqt bering.
- Ma'lumotlar ishonchliligi va sifatini kafolatlash uchun vaqt talab etiladi.
Data Lakehouse nima?
"Ma'lumotlar ko'li" deb nomlangan yangi katta ma'lumotlarni saqlash arxitekturasi ma'lumotlar ko'llari va ma'lumotlar omborlarining eng katta jihatlarini birlashtiradi. Sizning barcha ma'lumotlaringiz, xoh tuzilgan, xoh yarim tuzilmaviy, xoh tuzilmagan bo'lsin, ma'lumotlar ko'li tufayli mumkin bo'lgan eng yaxshi mashina o'rganish, biznes razvedkasi va oqim imkoniyatlari bilan bir joyda saqlanishi mumkin.
Barcha turdagi ma'lumotlar ko'llari ko'pincha ma'lumotlar ko'li uylari uchun boshlang'ich nuqtadir; shundan so'ng, ma'lumotlar Delta Lake formatiga aylantiriladi (ma'lumotlar ko'llariga ishonchlilik keltiradigan ochiq manbali saqlash qatlami).
Delta ko'llari bo'lgan ma'lumotlar ko'llari an'anaviy ma'lumotlar omborlaridan ACID tranzaksiya protseduralarini amalga oshirishga imkon beradi. Aslini olganda, lakehouse tizimi ma'lumotlar ko'llari kabi katta hajmdagi ma'lumotlarni asl shakllarida saqlash uchun arzon saqlashdan foydalanadi.
Do'konning yuqori qismiga metadata qatlamini qo'shish, shuningdek, ma'lumotlar tuzilmasini beradi va ma'lumotlar omborlarida mavjud bo'lgan ma'lumotlarni boshqarish vositalarini kengaytiradi.
Bu ko'plab jamoalarga ma'lumotlar fani, mashinani o'rganish va biznes razvedkasi kabi turli tashabbuslar uchun yagona tizim orqali kompaniyaning barcha ma'lumotlariga kirish imkonini beradi.
Data Lakehouse-ning afzalliklari
- Ish yuklarining kengroq diapazonini qo'llab-quvvatlash: Murakkab tahlillarni osonlashtirish uchun ma'lumotlar lakehouse'lari foydalanuvchilarga biznes razvedkasining eng mashhur vositalaridan (Tableau, PowerBI) to'g'ridan-to'g'ri foydalanish imkonini beradi. Bundan tashqari, ma'lumotlar olimlari va mashinani o'rganish bo'yicha muhandislar ma'lumotlardan osongina foydalanishlari mumkin, chunki ma'lumotlar ko'li uylari API va Python/R kabi mashinani o'rganish tizimlari bilan birgalikda ochiq ma'lumotlar formatlarini (masalan, Parket) ishlatadi.
- Iqtisodiy samaradorlik: Ma'lumotlar ko'l uylari ma'lumotlar ko'llarining iqtisodiy jihatdan samarali saqlash xususiyatlarini amalga oshirish uchun ob'ektlarni saqlash uchun arzon echimlardan foydalanadi. Yagona yechimni taklif qilish orqali ma'lumotlar ko'l uylari turli xil ma'lumotlarni saqlash tizimlarini boshqarish bilan bog'liq xarajatlar va vaqtni ham yo'q qiladi.
- Data lakehouse dizayni sxema va ma'lumotlar yaxlitligini ta'minlab, samarali ma'lumotlar xavfsizligi va boshqaruv tizimlarini yaratishni osonlashtiradi. Osonlik ma'lumotlarni versiyalash, boshqaruv va xavfsizlik.
- Data lakehouses kompaniyaning barcha ma'lumotlar talablarini qondira oladigan yagona, ko'p maqsadli ma'lumotlarni saqlash platformasini taklif qiladi, bu esa ma'lumotlarning takrorlanishini kamaytiradi. Ko'pgina korxonalar ma'lumotlar ombori va ma'lumotlar ko'lining afzalliklari tufayli gibrid echimni tanlaydilar. Shu bilan birga, ushbu strategiya ma'lumotlarning qimmat takrorlanishiga olib kelishi mumkin.
- Ochiq formatlarni qo'llab-quvvatlash. Ochiq formatlar - bu ko'plab dasturiy ilovalar tomonidan ishlatilishi mumkin bo'lgan va spetsifikatsiyalari hamma uchun ochiq bo'lgan fayl turlari. Hisobotlarga ko'ra, Lakehouses ma'lumotlarni Apache Parket va ORC (Optimallashtirilgan qator ustuni) kabi umumiy fayl formatlarida saqlashga qodir.
Data Lakehouse cheklovlari
Data Lakehouse-ning eng katta kamchiligi shundaki, u hali yosh va rivojlanayotgan texnologiya. Natijada u o'z majburiyatlarini bajara oladimi yoki yo'qmi, noma'lum. Ma'lumotlar ko'li uylari o'rnatilgan katta ma'lumotlarni saqlash tizimlari bilan raqobatlasha olishi uchun yillar kerak bo'lishi mumkin.
Biroq, zamonaviy innovatsiyalar tezligini hisobga olsak, boshqa ma'lumotlarni saqlash tizimi oxir-oqibat uning o'rnini bosa olmaydi, deyish qiyin.
Taroziga
- Bitta platformada barcha ma'lumotlar mavjud, ya'ni saqlash uchun kamroq xost nomlari mavjud.
- Atomlik, mustahkamlik, izolyatsiya va qattiqlik ta'sir qilmaydi.
- Bu sezilarli darajada arzonroq.
- Bitta platformada barcha ma'lumotlar mavjud, ya'ni saqlash uchun kamroq xost nomlari mavjud.
- Boshqarish oson va har qanday muammolarni tezda hal qiladi
- Quvurni qurishni soddalashtiring
Kamchiliklari
- Sozlash biroz vaqt olishi mumkin.
- O'rnatilgan saqlash tizimi sifatida malakaga ega bo'lish uchun u juda yosh va juda uzoq.
Ma'lumotlar ombori va Data Lake va Data Lakehouse
Ma'lumotlar ombori korporativ razvedka, hisobot berish va tahliliy ilovalarda uzoq tarixga ega va birinchi yirik ma'lumotlarni saqlash texnologiyasidir.
Boshqa tomondan, ma'lumotlar omborlari qimmat va turli xil va tuzilmagan ma'lumotlarni, masalan, oqimli ma'lumotlarni qayta ishlashda muammolarga duch keladi. Mashinani o'rganish va ma'lumotlar fanining ish yuklari uchun ma'lumotlar ko'llari xom ma'lumotlarni turli shakllarda arzon saqlashda boshqarish uchun ishlab chiqilgan.
Ma'lumotlar ko'llari tuzilmagan ma'lumotlar bilan samarali bo'lsa-da, ular ma'lumotlar omborlarining ACID tranzaksiya qobiliyatiga ega emas, bu esa ma'lumotlarning mustahkamligi va ishonchliligini kafolatlashni qiyinlashtiradi.
"Ma'lumotlar ko'li" deb nomlanuvchi eng yangi ma'lumotlarni saqlash arxitekturasi ma'lumotlar omborlarining ishonchliligi va izchilligini ma'lumotlar ko'llarining arzonligi va moslashuvchanligi bilan birlashtiradi.
Xulosa
Xulosa qilib aytganda, noldan ma'lumotlar ko'li uyini qurish qiyin bo'lishi mumkin. Bundan tashqari, siz ochiq ma'lumotlar lakehouse arxitekturasini yoqish uchun mo'ljallangan platformadan deyarli foydalanasiz.
Shuning uchun, xarid qilishdan oldin har bir platformaning ko'plab xususiyatlari va ilovalarini o'rganish uchun ehtiyot bo'ling. Biznes razvedkasi va ma'lumotlar tahlilidan foydalanish holatlariga yo'naltirilgan etuk, tuzilgan ma'lumotlar yechimini qidirayotgan kompaniyalar ma'lumotlar omborini ko'rib chiqishlari mumkin.
Biroq, ma'lumotlar fanlari va tizimlashtirilmagan ma'lumotlarda mashinani o'rganish uchun ish yuklarini quvvatlantirish uchun kengaytiriladigan, arzon katta ma'lumotlar echimini qidirayotgan korxonalar ma'lumotlar ko'llarini ko'rib chiqishlari kerak.
Sizning biznesingizga ma'lumotlar ombori va ma'lumotlar ko'li texnologiyalari taqdim eta oladiganidan ko'ra ko'proq ma'lumot kerakligini yoki siz ma'lumotlaringizga murakkab tahlil va mashinani o'rganish operatsiyalarini integratsiya qilish uchun yechim izlayotganingizni o'ylab ko'ring. A Data Lakehouse vaziyatda oqilona variant hisoblanadi.
Leave a Reply