Məlumat platformaları haqqında düşünərkən bütün mövcud xidmətləri və memarlıq variantlarını nəzərdən keçirmək bir az çətin ola bilər.
Müəssisə məlumat platforması tez-tez məlumat anbarlarından, məlumat modellərindən, məlumat göllərindən və hesabatlardan ibarətdir, hər biri xüsusi məqsəd və tələb olunan bacarıqlar dəsti ilə. Bunun əksinə olaraq, son bir neçə il ərzində data lakehouse adlı yeni dizayn ortaya çıxdı.
Məlumat göllərinin və məlumat anbarının məlumatların idarə edilməsinin çox yönlülüyü "məlumat göl evi" adlandırılan inqilabi məlumat saxlama arxitekturasında birləşdirilir.
Biz bu yazıda məlumat gölünü, onun komponentləri, xüsusiyyətləri, memarlığı və digər aspektləri də daxil olmaqla ətraflı araşdıracağıq.
Data Lakehouse nədir?
Adından da göründüyü kimi, data lakehouse, hər birinin çatışmazlıqlarını ayrıca həll etmək üçün məlumat gölünü məlumat anbarı ilə birləşdirən yeni bir məlumat arxitekturası növüdür.
Əslində, göl evi sistemi məlumat gölləri kimi böyük miqdarda məlumatı orijinal formalarında saxlamaq üçün ucuz yaddaşdan istifadə edir. Mağazanın üstünə metadata qatının əlavə edilməsi həm də məlumat strukturu verir və məlumat anbarlarında olanlar kimi məlumat idarəetmə alətlərini gücləndirir.
O, təşkilatları boyu istifadə olunan müxtəlif iş proqramlarından, sistemlərdən və qadcetlərdən əldə etdikləri böyük həcmdə mütəşəkkil, yarı strukturlaşdırılmış və strukturlaşdırılmamış məlumatları saxlayır.
Çox vaxt məlumat gölləri məlumatları açıq, ümumi fayl formatlarında saxlamaq üçün fayl tətbiqi proqramlaşdırma interfeysi (API) ilə aşağı qiymətli saxlama infrastrukturundan istifadə edir.
Bu, bir çox komandaya məlumat elmi kimi müxtəlif təşəbbüslər üçün vahid sistem vasitəsilə bütün şirkət məlumatlarına daxil olmaq imkanı verir. maşın təlim, və biznes kəşfiyyatı.
Xüsusiyyətləri
- Aşağı qiymətli saxlama. Data lakehouse məlumatları ucuz obyekt anbarında saxlaya bilməlidir, məsələn Google Cloud Saxlama, Azure Blob Storage, Amazon Simple Storage Service və ya yerli olaraq ORC və ya Parketdən istifadə etməklə.
- Verilənlərin optimallaşdırılması qabiliyyəti: Məlumat planının optimallaşdırılması, önbelleğe alınması və indeksləşdirilməsi məlumat gölünün verilənlərin orijinal formatını qoruyarkən məlumatları optimallaşdıra bilməsinin bir neçə nümunəsidir.
- Tranzaksiya metadata təbəqəsi: Əsas aşağı qiymətli saxlama ilə yanaşı, bu, məlumat anbarının performansı üçün vacib olan məlumatların idarə edilməsi imkanlarına imkan verir.
- Deklarativ DataFrame API üçün dəstək: Süni intellekt alətlərinin əksəriyyəti xam obyekt anbar məlumatlarını əldə etmək üçün DataFrames-dən istifadə edə bilər. Declarative DataFrame API dəstəyi xüsusi məlumat elminə və ya AI tapşırığına cavab olaraq məlumatların təqdimatını və strukturunu dinamik təkmilləşdirmək qabiliyyətini artırır.
- ACID əməliyyatlarına dəstək: Atomluq, ardıcıllıq, izolyasiya və davamlılıq mənasını verən ACID abbreviaturası əməliyyatın müəyyən edilməsində və məlumatların ardıcıllığı və etibarlılığının təmin edilməsində mühüm komponentdir. Bu cür əməliyyatlar əvvəllər yalnız məlumat anbarlarında mümkün idi, lakin lakehouse onlardan data gölləri ilə istifadə etmək seçimini təklif edir həmçinin. Paralel məlumatların oxunması və yazılması da daxil olmaqla bir neçə məlumat kəməri ilə bu, sonuncunun aşağı məlumat keyfiyyəti problemini həll edir.
Data Lakehouse elementləri
Data lakehouse-un arxitekturası yüksək səviyyədə iki əsas pilləyə bölünür. Saxlama təbəqəsinin məlumat qəbulu Lakehouse platforması (yəni, məlumat gölü) tərəfindən idarə olunur.
Verilənləri məlumat anbarına yükləməyə və ya xüsusi formata çevirməyə ehtiyac olmadan, emal təbəqəsi bir sıra alətlərdən istifadə edərək bilavasitə saxlama qatındakı məlumatları sorğulaya bilir.
Daha sonra BI proqramları, həmçinin AI və ML texnologiyaları məlumatlardan istifadə edə bilər. Məlumat gölünün iqtisadiyyatı bu dizaynla təmin edilir, lakin istənilən emal mühərriki bu məlumatları oxuya bildiyi üçün müəssisələr hazırlanmış məlumatları bir sıra sistemlər tərəfindən təhlil üçün əlçatan etmək azadlığına malikdir. Emal və təhlil üçün bu metoddan istifadə etməklə prosessorun performansını və dəyərini artırmaq olar.
Aşağıdakı ACID (atomluq, ardıcıllıq, izolyasiya və davamlılıq) meyarlarına uyğun gələn verilənlər bazası əməliyyatlarını dəstəklədiyinə görə, arxitektura eyni zamanda bir çox tərəfə sistem daxilində eyni vaxtda məlumat əldə etmək və yazmaq imkanı verir:
- Atomluq əməliyyatı tamamlayarkən ya tam əməliyyatın, ya da heç birinin uğur qazanmaması faktına istinad edir. Prosesin kəsildiyi halda, bu, məlumat itkisi və ya korrupsiyanın qarşısını almağa kömək edir.
- ardıcıllıq əməliyyatların proqnozlaşdırıla bilən, ardıcıl şəkildə baş verməsinə zəmanət verir. O, hər bir məlumatın əvvəlcədən müəyyən edilmiş qaydalara uyğun olaraq qanuni olmasını təmin etməklə məlumatların bütövlüyünü qoruyur.
- Təcrid tamamlanana qədər heç bir əməliyyatın sistem daxilində hər hansı digər əməliyyatın təsirinə məruz qalmamasını təmin edir. Bu, çoxsaylı tərəflərə bir-birinə müdaxilə etmədən eyni vaxtda eyni sistemdən oxumaq və yazmaq imkanı verir.
- Davamlılıq sistemdəki məlumatlara edilən dəyişikliklərin hətta sistem nasazlığı halında belə, əməliyyat başa çatdıqdan sonra mövcud olmağa davam edəcəyinə zəmanət verir. Əməliyyat nəticəsində edilən hər hansı dəyişiklik faylda əbədi olaraq saxlanılır.
Data Lakehouse Arxitektura
Databricks (onların Delta Lake konsepsiyasının novatoru və dizayneri) və AWS data lakehouse konsepsiyasının iki əsas müdafiəçisidir. Beləliklə, göl evlərinin arxitektura planını təsvir etmək üçün onların bilik və idrakına etibar edəcəyik.
Data lakehouse sistemi adətən beş təbəqədən ibarət olacaq:
- Qəbul təbəqəsi
- Saxlama təbəqəsi
- Metadata təbəqəsi
- API qatı
- İstehlak təbəqəsi
Qəbul təbəqəsi
Sistemin birinci təbəqəsi müxtəlif mənbələrdən məlumatların toplanması və saxlama səviyyəsinə göndərilməsinə cavabdehdir. Qat çoxsaylı daxili və xarici mənbələrə qoşulmaq üçün bir neçə protokoldan istifadə edə bilər, o cümlədən toplu və axın məlumat emal imkanlarını birləşdirə bilər.
- NoSQL verilənlər bazası,
- fayl paylaşımları
- CRM proqramları,
- veb saytlar,
- IoT sensorları,
- sosial media,
- Xidmət kimi proqram təminatı (SaaS) tətbiqləri və
- əlaqəli verilənlər bazası idarəetmə sistemləri və s.
Bu nöqtədə, məlumat axını üçün Apache Kafka və RDBMS və NoSQL verilənlər bazalarından məlumatların idxalı üçün Amazon Data Miqrasiya Xidməti (Amazon DMS) kimi komponentlərdən istifadə edilə bilər.
Saxlama təbəqəsi
Göl evi arxitekturası müxtəlif növ məlumatların AWS S3 kimi ucuz obyekt mağazalarında obyekt kimi saxlanmasını təmin etmək üçün nəzərdə tutulub. Açıq fayl formatlarından istifadə edərək, müştəri alətləri bu elementləri birbaşa mağazadan oxuya bilər.
Bu, bir çox API və istehlak təbəqəsi komponentlərinə eyni məlumatlara daxil olmaq və istifadə etmək imkanı verir. Metadata təbəqəsi strukturlaşdırılmış və yarı strukturlaşdırılmış verilənlər dəstləri üçün sxemləri saxlayır ki, komponentlər onları oxuduqca verilənlərə tətbiq edə bilsinlər.
Hadoop Paylanmış Fayl Sistemi (HDFS) platforması, məsələn, yerli hesablama və yaddaşı bölən bulud anbarı xidmətlərinin qurulması üçün istifadə edilə bilər. Lakehouse bu xidmətlər üçün idealdır.
Metadata təbəqəsi
Metadata təbəqəsi bu dizaynı fərqləndirən məlumat gölünün əsas komponentidir. Bu göldə saxlanılan bütün elementlər üçün metadata (digər məlumat parçaları haqqında məlumat) təklif edən və istifadəçilərə aşağıdakı kimi idarəetmə imkanlarından istifadə etməyə imkan verən vahid kataloqdur:
- Verilənlər bazasının ardıcıl versiyası ACID əməliyyatları sayəsində paralel əməliyyatlar tərəfindən görülür;
- bulud obyekt mağaza fayllarını saxlamaq üçün keşləmə;
- sorğuların işlənməsini sürətləndirmək üçün indeksləşdirmədən istifadə edərək məlumat strukturu indekslərinin əlavə edilməsi;
- məlumat obyektlərini təkrarlamaq üçün sıfır nüsxə klonlamadan istifadə; və
- məlumatların müəyyən versiyalarını saxlamaq üçün və s., verilənlərin versiyalaşdırılmasından istifadə edin.
Bundan əlavə, metadata təbəqəsi sxem idarəçiliyinin həyata keçirilməsinə, ulduz/qar dənəciyi sxemləri kimi DW sxem topologiyalarının istifadəsinə və bilavasitə məlumat gölündə məlumatların idarə edilməsi və audit qabiliyyətinin təmin edilməsinə imkan verir və bütün məlumat kəmərinin bütövlüyünü artırır.
Sxemanın təkamülü və tətbiqi xüsusiyyətləri sxem idarəçiliyinə daxildir. Cədvəlin sxeminə uyğun gəlməyən hər hansı yazıları rədd etməklə, sxemin tətbiqi istifadəçilərə məlumatların bütövlüyünü və keyfiyyətini qorumağa imkan verir.
Sxem təkamülü cədvəlin mövcud sxemini dəyişən məlumatları uyğunlaşdırmaq üçün dəyişdirməyə imkan verir. Məlumat gölünün üstündəki vahid idarəetmə interfeysi sayəsində girişə nəzarət və audit imkanları da mövcuddur.
API qatı
Arxitekturanın digər mühüm təbəqəsi artıq mövcuddur və bütün son istifadəçilər işləri daha tez yerinə yetirmək və daha mürəkkəb statistika əldə etmək üçün istifadə edə biləcəkləri bir sıra API-lərə malikdir.
Metadata API-lərinin istifadəsi verilmiş proqram üçün lazım olan məlumat elementlərini müəyyən etməyi və onlara daxil olmağı asanlaşdırır.
Maşın öyrənmə kitabxanaları baxımından, TensorFlow və Spark MLlib kimi bəziləri Parquet kimi açıq fayl formatlarını oxuya və metadata qatına birbaşa daxil ola bilər.
Eyni zamanda, DataFrame API-ləri optimallaşdırma üçün daha böyük şanslar təklif edərək, proqramçılara dağılmış məlumatları təşkil etmək və dəyişmək imkanı verir.
İstehlak təbəqəsi
Power BI, Tableau və digər alətlər və proqramlar istehlak təbəqəsi altında yerləşdirilir. Göl evi dizaynı ilə bütün metadata və göldə saxlanılan bütün məlumatlar müştəri tətbiqləri üçün əlçatandır.
Göl evi bir şirkət daxilində bütün istifadəçilər tərəfindən hər cür işi yerinə yetirmək üçün istifadə edilə bilər analitik əməliyyatlar, o cümlədən biznes kəşfiyyatı panellərinin yaradılması və SQL sorğularının və maşın öyrənmə tapşırıqlarının icrası.
Data Lakehouse-un üstünlükləri
Təşkilatlar cari məlumat platformalarını birləşdirmək və bütün məlumatların idarə edilməsi prosesini optimallaşdırmaq üçün məlumat gölləri yarada bilər. Müxtəlif mənbələri birləşdirən silos maneələrini sökməklə, data lakehouse fərqli həllər ehtiyacını əvəz edə bilər.
Təcrübəli məlumat mənbələri ilə müqayisədə bu inteqrasiya əhəmiyyətli dərəcədə daha effektiv uçdan-uca prosedur yaradır. Bunun bir sıra üstünlükləri var:
- Daha az idarəetmə: Xam məlumatlardan məlumatları çıxarmaq və onu məlumat anbarında istifadəyə hazırlamaq əvəzinə, verilənlər bazası onunla əlaqəli hər hansı mənbələrə məlumatlarını əlçatan və istifadə üçün təşkil etməyə imkan verir.
- Xərc-effektivliyin artması: Data lakehouses hesablama və yaddaşı bölən müasir infrastrukturdan istifadə etməklə tikilir və hesablama gücünü artırmadan yaddaşı genişləndirməyi asanlaşdırır. Sadəcə ucuz məlumat yaddaşının istifadəsi iqtisadi cəhətdən səmərəli olan genişlənmə ilə nəticələnir.
- Daha yaxşı məlumat idarəetməsi: Data lakehouses standartlaşdırılmış açıq arxitektura ilə qurulur və təhlükəsizlik, ölçülər, rol əsaslı giriş və digər mühüm idarəetmə komponentləri üzərində daha çox nəzarət etməyə imkan verir. Resursları və məlumat mənbələrini birləşdirərək, onlar idarəetməni sadələşdirir və təkmilləşdirir.
- Sadələşdirilmiş standartlar: Məlumat anbarları ilk dəfə yaradılan 1980-ci illərdə əlaqə çox məhdud olduğundan, yerli sxem standartları tez-tez müəssisələrdə, hətta şöbələrdə hazırlanırdı. Data lakehouses prosedurları sadələşdirmək üçün bir çox məlumat növlərinin artıq sxem üçün açıq standartlara malik olması faktından istifadə edərək çoxsaylı məlumat mənbələrini üst-üstə düşən vahid sxemlə qəbul edir.
Data Lakehouse-un çatışmazlıqları
Data göl evlərini əhatə edən bütün halqalara baxmayaraq, ideyanın hələ də çox yeni olduğunu nəzərə almaq vacibdir. Bu yeni dizayna tam əməl etməzdən əvvəl çatışmazlıqları ölçməyinizə əmin olun.
- Monolit quruluş: Göl evinin hər şeyi əhatə edən dizaynı bir sıra üstünlüklər təklif edir, lakin bəzi problemlər də yaradır. Monolit arxitektura tez-tez bütün istifadəçilər üçün zəif xidmətə səbəb olur və sərt və saxlanması çətin ola bilər. Tipik olaraq, memarlar və dizaynerlər müxtəlif istifadə halları üçün fərdiləşdirə biləcəkləri daha modul arxitekturanı bəyənirlər.
- Texnologiya hələ tam olaraq orada deyil: son məqsəd əhəmiyyətli miqdarda maşın öyrənməsi və süni intellekt tələb edir. Göl evləri nəzərdə tutulduğu kimi fəaliyyət göstərməmişdən əvvəl bu texnologiyalar daha da inkişaf etməlidir.
- Mövcud strukturlara nisbətən əhəmiyyətli irəliləyiş yoxdur: Göl evlərinin nə qədər daha çox dəyər verəcəyinə dair hələ də kifayət qədər şübhə var. Bəzi pisləyicilər iddia edirlər ki, müvafiq avtomatlaşdırılmış avadanlıqla birləşdirilmiş göl anbarı dizaynı müqayisə olunan səmərəliliyə nail ola bilər.
Data Lakehouse-un Çətinlikləri
Data lakehouse texnikasını mənimsəmək çətin ola bilər. Komponent hissələrinin mürəkkəbliyinə görə, data lakehouse-a hər şeyi əhatə edən ideal struktur və ya biri üçün "hər şey üçün bir platforma" kimi baxmaq düzgün deyil.
Əlavə olaraq, məlumat göllərinin getdikcə daha çox qəbul edilməsinə görə, müəssisələr heç bir nümayiş etdirilə bilən iqtisadi faydası olmayan uğur vədinə arxalanaraq, cari məlumat anbarlarını onlara köçürməli olacaqlar.
Köçürmə prosesi boyunca hər hansı gecikmə problemi və ya kəsilmələr varsa, bu, bahalı, vaxt aparan və bəlkə də təhlükəli ola bilər.
Biznes istifadəçiləri həlləri açıq və ya dolayısı ilə data lakehouse kimi bazara çıxaran müəyyən təchizatçıların fikrincə, yüksək ixtisaslaşdırılmış texnologiyalardan istifadə etməlidirlər. Bunlar həmişə sistemin mərkəzindəki məlumat gölü ilə əlaqəli digər alətlərlə işləməyə bilər və bu, problemlərə əlavə olunur.
Bundan əlavə, biznes üçün kritik iş yükləri işləyərkən 24/7 analitik təmin etmək çətin ola bilər ki, bu da səmərəli miqyaslı infrastruktur tələb edir.
Nəticə
Son illərdə məlumat mərkəzlərinin ən yeni çeşidi data lakehouse-dur. O, informasiya texnologiyaları, açıq mənbəli proqram təminatı kimi müxtəlif sahələri birləşdirir. cloud computing, və paylanmış saxlama protokolları.
O, bizneslərə idarəetməni və təhlili sadələşdirərək istənilən yerdən bütün məlumat növlərini mərkəzləşdirilmiş şəkildə saxlamağa imkan verir. Data Lakehouse olduqca maraqlı bir konsepsiyadır.
İstənilən firma, məlumat anbarı kimi sürətli və səmərəli, eyni zamanda məlumat gölü qədər çevik olan hamısı bir yerdə məlumat platformasına çıxışı olsaydı, əhəmiyyətli rəqabət üstünlüyünə sahib olardı.
İdeya hələ də inkişaf edir və nisbətən yeni olaraq qalır. Nəticədə, bir şeyin geniş yayılıb-yayılmadığını müəyyən etmək üçün müəyyən vaxt lazım ola bilər.
Hamımız Lakehouse memarlığının hansı istiqamətə getdiyi ilə maraqlanmalıyıq.
Cavab yaz