Data lakehouses biznes üçün məlumat anbarı və məlumat gölü konsepsiyalarını birləşdirir.
Bu alətlər məlumat göllərinin idarəetmə imkanlarını məlumat anbarlarında tapılan məlumat arxitekturası ilə birləşdirərək qənaətcil məlumat saxlama həlləri yaratmağa imkan verir.
Bundan əlavə, məlumatların miqrasiyasında və artıqlığında azalma var, idarəetməyə daha az vaxt sərf olunur və daha qısa sxem və məlumatların idarə edilməsi prosedurları əslində reallığa çevrilir.
Bir data lakehouse bir neçə həlli olan bir saxlama sistemi ilə müqayisədə bir çox üstünlüklərə malikdir.
Bu alətlər hələ də məlumat alimləri tərəfindən biznes kəşfiyyatı və maşın öyrənmə prosedurları haqqında anlayışlarını yaxşılaşdırmaq üçün istifadə olunur.
Bu məqalə data lakehouse-a, onun imkanlarına və mövcud alətlərə qısa nəzər salacaq.
Data Lakehouse-a giriş
Məlumat arxitekturasının yeni növü “data Lakehouse” hər birinin zəif tərəflərini müstəqil şəkildə həll etmək üçün məlumat gölünü və məlumat anbarını birləşdirir.
Göl evi sistemi, verilənlər gölləri kimi, böyük həcmdə məlumatı orijinal formada saxlamaq üçün aşağı qiymətli yaddaşdan istifadə edir.
Mağazanın üstünə metadata qatının əlavə edilməsi, həmçinin məlumat strukturunu təmin edir və məlumat anbarlarında olanlara bənzər məlumat idarəetmə alətlərini gücləndirir.
O, müəssisə boyu istifadə olunan müxtəlif biznes proqramlarından, sistemlərdən və cihazlardan əldə edilən çoxlu strukturlaşdırılmış, yarı strukturlaşdırılmış və strukturlaşdırılmamış məlumatlardan ibarətdir.
Nəticədə, məlumat göllərindən fərqli olaraq, göl evi sistemi bu məlumatları SQL performansı üçün idarə edə və optimallaşdıra bilər.
O, həmçinin məlumat anbarlarından daha ucuz qiymətə böyük həcmdə müxtəlif məlumatları saxlamaq və emal etmək qabiliyyətinə malikdir.
Data lakehouse hər hansı bir dataya giriş və ya hər hansı bir məlumatla bağlı analitika yerinə yetirmək lazım olduqda, lakin verilənlərdən və ya tövsiyə olunan analitikadan əmin olmadıqda faydalı olur.
Performans əsas narahatlıq deyilsə, göl evi memarlığı olduqca yaxşı işləyəcək.
Bu o demək deyil ki, bütün quruluşunuzu göl evinə əsaslandırmalısınız.
Hər bir istifadə halı üçün məlumat gölünün, göl anbarının, məlumat anbarının və ya xüsusi analitik verilənlər bazasının necə seçiləcəyi haqqında daha çox məlumat əldə edə bilərsiniz. burada.
Data Lakehouse-un xüsusiyyətləri
- Paralel məlumatların oxunması və yazılması
- Uyğunlaşma və miqyaslılıq
- Məlumat idarəetmə alətləri ilə sxem yardımı
- Paralel məlumatların oxunması və yazılması
- Münasib qiymətə saxlama
- Bütün məlumat növləri və fayl formatları dəstəklənir.
- Optimallaşdırılmış məlumat elminə və maşın öyrənmə vasitələrinə giriş
- Data komandalarınız iş yüklərini daha tez və dəqiq şəkildə ötürmək üçün yalnız bir sistemə daxil olmaqdan faydalanacaqlar.
- Məlumat elmində, maşın öyrənməsində və analitikada təşəbbüslər üçün real vaxt imkanları
Ən yaxşı 5 Data Lakehouse alətləri
Verilənlər bazası
Databricks, Apache Spark-ı ilk inkişaf etdirən və onu hazırlayan şəxs tərəfindən qurulmuşdur açıq mənbə, idarə olunan Apache Spark xidmətini təmin edir və məlumat gölləri üçün platforma kimi yerləşdirilib.
Databricks lakehouse arxitekturasının verilənlər gölü, delta gölü və delta mühərrik komponentləri biznes kəşfiyyatı, məlumat elmi və maşın öyrənməsinin istifadə hallarına imkan verir.
Məlumat gölü ictimai bulud saxlama anbarıdır.
Metaməlumatların idarə edilməsi, çox strukturlu verilənlər dəstləri üçün toplu və axın məlumatların işlənməsi, məlumatların aşkarlanması, təhlükəsiz giriş nəzarəti və SQL analitikası dəstəyi ilə.
Databricks, verilənlər gölü platformasında görməyi gözləyə biləcəyiniz məlumatların saxlanması funksiyalarının əksəriyyətini təklif edir.
Databricks bu yaxınlarda ETL və məlumat daxiletməsini avtomatlaşdıran və məlumat gölünün saxlanması strategiyasının əsas komponentlərini çatdırmaq üçün müxtəlif məlumat növləri üçün sxemi çıxarmaq üçün məlumat seçmə üsullarından istifadə edən Avtomatik Yükləyicisini təqdim etdi.
Alternativ olaraq, istifadəçilər Delta Live Cədvəllərindən istifadə edərək ictimai bulud məlumat gölü ilə Delta Gölü arasında ETL boru kəmərləri qura bilərlər.
Kağız üzərində Databricks-in bütün üstünlükləri olduğu görünür, lakin həllin qurulması və onun məlumat kəmərlərinin yaradılması ixtisaslı tərtibatçılardan çoxlu insan əməyi tələb edir.
Miqyasda cavab da daha mürəkkəb olur. Göründüyündən daha mürəkkəbdir.
Ahana
Məlumat gölü, strukturlaşdırılmamış və strukturlaşdırılmış məlumatlar daxil olmaqla, miqyasda seçdiyiniz istənilən məlumatı saxlaya biləcəyiniz vahid, mərkəzi yerdir. AWS S3, Microsoft Azure və Google Cloud Storage üç ümumi məlumat gölləridir.
Data gölləri inanılmaz dərəcədə bəyənilir, çünki onlar çox sərfəli və istifadəsi sadədir; çox az pulla istədiyiniz qədər istənilən məlumatı saxlaya bilərsiniz.
Lakin məlumat gölü analitika, sorğu və s. kimi daxili alətlər təklif etmir.
Məlumatlarınızı sorğulamaq və ondan istifadə etmək üçün sizə məlumat gölünün üstündə (Ahana Cloud-un daxil olduğu) sorğu mühərriki və məlumat kataloqu lazımdır.
Həm Məlumat Anbarı, həm də Məlumat Gölü ən yaxşıları ilə yeni data lakehouse dizaynı hazırlanmışdır.
Bu onu göstərir ki, şəffaf, uyğunlaşa bilən, yaxşı qiymət/performans, məlumat gölü kimi tərəzi əməliyyatları dəstəkləyir və məlumat anbarı ilə müqayisə edilə bilən yüksək təhlükəsizlik səviyyəsinə malikdir.
Yüksək performanslı SQL sorğu mühərrikiniz Data Lakehouse-un arxasında duran beyindir. Buna görə siz data lake məlumatlarınızda yüksək performanslı analitika həyata keçirə bilərsiniz.
Presto üçün Ahana Cloud AWS-də Presto üçün SaaS-dir və Presto-dan buludda istifadə etməyə başlamağı inanılmaz dərəcədə sadə edir.
S3 əsaslı məlumat gölünüz üçün Ahana artıq daxili məlumat kataloquna və keşləməyə malikdir. Ahana sizə Presto-nun xüsusiyyətlərini sizdən əlavə xərcləri idarə etməyi tələb etmədən verir, çünki o, bunu daxili edir.
AWS Lake Formation, Apache Hudi və Delta Lake, yığının bir hissəsi olan və onunla inteqrasiya edən əməliyyat menecerlərindən yalnız bir neçəsidir.
Dremio
Təşkilatlar sürətlə artan məlumatların böyük həcmlərini tez, sadə və səmərəli şəkildə qiymətləndirməyə çalışırlar.
Dremio hesab edir ki, açıq verilənlər bazası məlumat göllərinin və məlumat anbarlarının faydalarını açıq əsasda birləşdirən, buna nail olmaq üçün ən yaxşı yanaşmadır.
Dremio-nun göl evi platforması istifadəçilərə analizləri vaxtın bir hissəsində tamamlamağa imkan verən asan UI ilə hər kəs üçün işləyən təcrübə təqdim edir.
Dremio Cloud, tam idarə olunan data lakehouse platforması və iki yeni xidmətin işə salınması: göl evi sorğu mühərriki olan Dremio Sonar və göl evi üçün unikal Git kimi təcrübə təqdim edən Apache Iceberg üçün ağıllı meqastore olan Dremio Arctic.
Təşkilatın bütün SQL iş yükləri sürtünməsiz, sonsuz genişlənən Dremio Cloud platformasında işlədilə bilər ki, bu da məlumatların idarə edilməsi tapşırıqlarını avtomatlaşdırır.
O, SQL üçün qurulub, Git kimi təcrübə təklif edir, açıq mənbədir və həmişə pulsuzdur.
Onu məlumat qruplarının pərəstiş etdiyi göl evi platforması kimi yaratdılar.
Apache Iceberg və Apache Parkquet kimi açıq mənbəli cədvəl və fayl formatlarından istifadə edərək, Dremio Cloud-dan istifadə edərkən məlumatlarınız öz məlumat gölü yaddaşınızda qalıcıdır.
Gələcək innovasiyalar asanlıqla qəbul edilə bilər və iş yükünüzə əsasən düzgün mühərrik seçilə bilər.
Snowflake
Snowflake məlumat göllərinin və anbarların ehtiyaclarını ödəyə bilən bulud məlumatları və analitik platformadır.
Bulud infrastrukturu üzərində qurulmuş məlumat anbarı sistemi kimi başladı.
Platforma AWS, Microsoft Azure və ya Google Bulud Platformasından (GCP) ictimai bulud yaddaşının üstündə oturan mərkəzləşdirilmiş saxlama anbarından ibarətdir.
Bunun ardınca istifadəçilər virtual məlumat anbarını işə sala və məlumatların saxlanmasına qarşı SQL sorğuları apara biləcəkləri çoxlu klasterli hesablama təbəqəsidir.
Arxitektura saxlama və hesablama resurslarını ayırmağa imkan verir, təşkilatlara lazım olduqda ikisini müstəqil şəkildə genişləndirməyə imkan verir.
Nəhayət, Snowflake metadata təsnifatı, resursların idarə edilməsi, məlumatların idarə edilməsi, əməliyyatlar və digər xüsusiyyətləri olan bir xidmət təbəqəsi təqdim edir.
BI alət konnektorları, metadata idarəetməsi, giriş nəzarətləri və SQL sorğuları platformanın təklif etməkdə üstün olduğu məlumat anbarı funksionallığından yalnız bir neçəsidir.
Snowflake, lakin SQL-əsaslı tək relational sorğu mühərriki ilə məhdudlaşır.
Nəticədə, idarə etmək asanlaşır, lakin daha az uyğunlaşır və çox modelli məlumat gölünün görmə qabiliyyəti həyata keçirilmir.
Bundan əlavə, bulud yaddaşından verilənlərin axtarılması və ya təhlil edilməsindən əvvəl Snowflake müəssisələrdən onu mərkəzləşdirilmiş saxlama qatına yükləməyi tələb edir.
Məlumatların əl ilə ötürülməsi proseduru tədqiq edilməzdən əvvəl əvvəlcədən ETL, təminat və məlumat formatını tələb edir. Bu əl proseslərini genişləndirmək onları əsəbiləşdirir.
Kağız üzərində yaxşı uyğun görünən, lakin əslində sadə məlumatların daxil edilməsinin verilənlər gölü prinsipindən kənara çıxan başqa bir seçim Snowflake-in məlumat gölü evidir.
Kahin
“Data Lakehouse” kimi tanınan müasir, açıq memarlıq bütün məlumatlarınızı saxlamağa, dərk etməyə və təhlil etməyə imkan verir.
Ən çox bəyənilən açıq mənbə məlumat gölü həllərinin genişliyi və çevikliyi məlumat anbarlarının gücü və dərinliyi ilə birləşdirilir.
Ən yeni AI çərçivələri və əvvəlcədən qurulmuş AI xidmətləri Oracle Bulud İnfrastrukturunda (OCI) verilənlər bazası ilə istifadə edilə bilər.
Açıq mənbəli məlumat gölündən istifadə edərkən əlavə məlumat növləri ilə işləmək mümkündür. Ancaq onu idarə etmək üçün tələb olunan vaxt və səy davamlı çatışmazlıq ola bilər.
OCI daha aşağı qiymətlərlə və daha az idarəetmə ilə tam idarə olunan açıq mənbəli göl evi xidmətləri təklif edir ki, bu da sizə daha az əməliyyat xərclərini, daha yaxşı miqyaslılığı və təhlükəsizliyi və bütün mövcud məlumatlarınızı bir yerdə cəmləşdirmək qabiliyyətini qabaqcadan görməyə imkan verir.
Data lakehouse müvəffəqiyyətli müəssisələr üçün vacib olan məlumat anbarlarının və marketlərin dəyərini artıracaq.
Məlumat yalnız bir SQL sorğusu ilə bir neçə yerdən göl evi istifadə edərək əldə edilə bilər.
Mövcud proqramlar və alətlər düzəliş tələb etmədən və ya yeni bacarıqlar əldə etmədən bütün məlumatlara şəffaf giriş əldə edir.
Nəticə
Data lakehouse həllərin tətbiqi böyük verilənlərdə daha geniş tendensiyanın əksidir, bu da vaxt, xərc və dəyər hasilatı mürəkkəbliyini azaldarkən verilənlərdən biznes dəyərini maksimuma çatdırmaq üçün vahid məlumat platformalarında analitika və məlumatların saxlanmasının inteqrasiyasıdır.
Databricks, Snowflake, Ahana, Dremio və Oracle daxil olmaqla platformalar hamısı “məlumat göl evi” ideyası ilə əlaqələndirilmişdir, lakin onların hər biri özünəməxsus xüsusiyyətlər dəsti və həqiqi məlumat gölündən daha çox məlumat anbarı kimi fəaliyyət göstərməyə meyllidir. bütünlüklə.
Həll “məlumat göl evi” kimi satışa çıxarıldıqda, müəssisələr bunun əslində nə demək olduğuna diqqətli olmalıdırlar.
Müəssisələr “data lakehouse” kimi marketinq jarqonundan kənara çıxmalı və bunun əvəzinə gələcəkdə öz biznesləri ilə genişlənəcək ən yaxşı məlumat platformasını seçmək üçün hər platformanın xüsusiyyətlərinə nəzər salmalıdırlar.
Cavab yaz