Data lakehouse-urile combină conceptele de depozit de date și de lac de date pentru afaceri.
Aceste instrumente vă permit să construiți soluții de stocare a datelor rentabile, combinând capacitățile de gestionare ale lacurilor de date cu arhitectura de date găsită în depozitele de date.
În plus, există o reducere a migrației și redundanței datelor, se petrece mai puțin timp pentru administrare, iar procedurile mai scurte de guvernare a schemelor și a datelor devin de fapt o realitate.
Un data lakehouse are multe avantaje în comparație cu un sistem de stocare cu mai multe soluții.
Aceste instrumente sunt încă folosite de oamenii de știință de date pentru a-și îmbunătăți înțelegerea despre inteligența de afaceri și procedurile de învățare automată.
Acest articol va arunca o privire rapidă asupra data Lakehouse, capacitățile sale și instrumentele disponibile.
Introducere în Data Lakehouse
Un nou tip de arhitectură de date numită „data Lakehouse” combină un lac de date și un depozit de date pentru a aborda punctele slabe ale fiecăruia în mod independent.
Sistemul Lakehouse, ca și lacurile de date, utilizează stocarea la costuri reduse pentru a păstra cantități uriașe de date în forma sa originală.
Adăugarea unui strat de metadate deasupra magazinului oferă, de asemenea, structură de date și împuternicește instrumente de gestionare a datelor similare cu cele găsite în depozitele de date.
Conține cantități masive de date structurate, semi-structurate și nestructurate obținute din diferite aplicații, sisteme și dispozitive de afaceri utilizate în întreaga întreprindere.
Ca rezultat, spre deosebire de lacurile de date, sistemul Lakehouse poate gestiona și optimiza acele date pentru performanța SQL.
De asemenea, are capacitatea de a stoca și procesa cantități mari de date diverse la un cost mai ieftin decât depozitele de date.
Un data lakehouse este util atunci când trebuie să executați orice acces la date sau analize împotriva oricăror date, dar nu sunteți sigur de date sau de analizele recomandate.
O arhitectură lakehouse va funcționa destul de bine dacă performanța nu este o preocupare principală.
Asta nu înseamnă că ar trebui să vă bazați întreaga structură pe o casă de lac.
Mai multe informații despre cum să selectați un lac de date, un lac, un depozit de date sau o bază de date de analiză specializată pentru fiecare caz de utilizare pot fi găsite aici.
Caracteristicile Data Lakehouse
- Citirea și scrierea simultană a datelor
- Adaptabilitate și scalabilitate
- Asistență pentru schemă cu instrumente de guvernare a datelor
- Citirea și scrierea simultană a datelor
- Stocare la preț accesibil
- Toate tipurile de date și formatele de fișiere sunt acceptate.
- Acces la știința datelor și instrumente de învățare automată care este optimizat
- Echipele dvs. de date vor beneficia de acces la un singur sistem pentru a transfera sarcinile de lucru prin acesta mai rapid și mai precis.
- Capabilități în timp real pentru inițiative în știința datelor, învățarea automată și analiză
Top 5 instrumente Data Lakehouse
cărămizi de date
Databricks, care a fost fondată de persoana care a dezvoltat pentru prima dată Apache Spark și l-a realizat open-source, oferă un serviciu gestionat Apache Spark și este poziționat ca o platformă pentru lacurile de date.
Componentele lac de date, lac delta și motor delta ale arhitecturii Databricks lakehouse permit cazuri de utilizare a inteligenței de afaceri, științei datelor și învățării automate.
Lacul de date este un depozit public de stocare în cloud.
Cu suport pentru gestionarea metadatelor, procesarea datelor în loturi și în flux pentru seturi de date multi-structurate, descoperire de date, controale de acces în siguranță și analiză SQL.
Databricks oferă cele mai multe dintre funcțiile de depozitare de date pe care s-ar putea aștepta să le vedeți într-o platformă de data lakehouse.
Databricks și-a dezvăluit recent Auto Loader, care automatizează ETL și introducerea datelor și folosește eșantionarea datelor pentru a deduce schema pentru o varietate de tipuri de date, pentru a îndeplini componentele esențiale ale strategiei de stocare a lacului de date.
Alternativ, utilizatorii pot construi conducte ETL între lacul lor de date în cloud public și Delta Lake folosind Delta Live Tables.
Pe hârtie, Databricks pare să aibă toate avantajele, dar configurarea soluției și crearea conductelor sale de date necesită multă muncă umană din partea dezvoltatorilor calificați.
La scară, răspunsul devine și mai complex. E mai complicat decât pare.
Ahana
Un lac de date este o locație unică, centrală, în care puteți stoca orice tip de date pe care îl alegeți la scară, inclusiv date nestructurate și structurate. AWS S3, Microsoft Azure și Google Cloud Storage sunt trei lacuri de date comune.
Lacurile de date sunt incredibil de apreciate pentru că sunt foarte accesibile și simplu de utilizat; în esență, puteți stoca cât de multe din orice tip de date doriți pentru foarte puțini bani.
Dar lacul de date nu oferă instrumente încorporate precum analiză, interogare etc.
Aveți nevoie de un motor de interogare și un catalog de date deasupra lacului de date (unde intervine Ahana Cloud) pentru a vă interoga datele și a le utiliza.
Cu cele mai bune atât din Data Warehouse, cât și din Data Lake, s-a dezvoltat un nou design pentru data Lakehouse.
Acest lucru indică faptul că este transparent, adaptabil, are un preț/performanță bun, se scalează ca un lac de date suportă tranzacții și are un nivel ridicat de securitate comparabil cu un depozit de date.
Motorul dvs. de interogare SQL de înaltă performanță este creierul din spatele Data Lakehouse. Din acest motiv, puteți executa analize de înaltă performanță asupra datelor lacului de date.
Ahana Cloud pentru Presto este SaaS pentru Presto pe AWS, ceea ce face incredibil de simplu să începeți să utilizați Presto în cloud.
Pentru lacul dvs. de date bazat pe S3, Ahana are deja un catalog de date și stocare în cache încorporate. Ahana vă oferă caracteristicile lui Presto fără a fi necesar să vă ocupați de cheltuielile generale, deoarece o face pe plan intern.
AWS Lake Formation, Apache Hudi și Delta Lake sunt doar câțiva dintre managerii de tranzacții care fac parte din stivă și se integrează cu acesta.
Dremio
Organizațiile caută să evalueze rapid, simplu și eficient cantități masive de date în creștere rapidă.
Dremio consideră că un lac de date deschis combină beneficiile lacurilor de date și ale depozitelor de date pe o bază deschisă este cea mai bună abordare pentru a realiza acest lucru.
Platforma lakehouse a Dremio oferă o experiență care funcționează pentru toată lumea, cu o interfață de utilizare ușoară care permite utilizatorilor să finalizeze analize într-o fracțiune de timp.
Dremio Cloud, o platformă de data lakehouse complet gestionată și lansarea a două noi servicii: Dremio Sonar, un motor de interogări lakehouse, și Dremio Arctic, un megamagazin inteligent pentru Apache Iceberg, care oferă o experiență unică asemănătoare Git pentru lakehouse.
Toate sarcinile de lucru SQL ale unei organizații pot fi rulate pe platforma Dremio Cloud fără fricțiuni, scalabilă la nesfârșit, care automatizează și sarcinile de gestionare a datelor.
Este construit pentru SQL, oferă o experiență asemănătoare Git, este open source și este întotdeauna gratuit.
Ei au creat-o pentru a fi platforma Lakehouse pe care echipele de date o adora.
Folosind tabele open source și formate de fișiere precum Apache Iceberg și Apache Parquet, datele dvs. sunt persistente în propriul dvs. lac de stocare de date atunci când utilizați Dremio Cloud.
Inovațiile viitoare pot fi adoptate cu ușurință, iar motorul potrivit poate fi ales în funcție de volumul de lucru.
Fulg de nea
Snowflake este o platformă de analiză și date în cloud care poate satisface nevoile lacurilor de date și ale depozitelor.
A început ca un sistem de depozit de date construit pe infrastructura cloud.
Platforma constă dintr-un depozit de stocare centralizat care se află deasupra stocării publice în cloud de la AWS, Microsoft Azure sau Google Cloud Platform (GCP).
Urmează un strat de calcul cu mai multe clustere, în care utilizatorii pot lansa un depozit de date virtual și pot efectua interogări SQL împotriva stocării lor de date.
Arhitectura permite decuplarea resurselor de stocare și de calcul, permițând organizațiilor să le scaleze pe cele două în mod independent, după cum este necesar.
În cele din urmă, Snowflake oferă un nivel de servicii cu categorizarea metadatelor, gestionarea resurselor, guvernanța datelor, tranzacții și alte caracteristici.
Conectorii de instrumente BI, gestionarea metadatelor, controalele de acces și interogările SQL sunt doar câteva dintre funcționalitățile de depozit de date pe care platforma excelează la a oferi.
Snowflake, totuși, este limitat la un singur motor de interogare relațional bazat pe SQL.
Ca rezultat, devine mai simplu de administrat, dar mai puțin adaptabil, iar viziunea lacului de date cu mai multe modele nu este realizată.
În plus, înainte ca datele din stocarea în cloud să poată fi căutate sau analizate, Snowflake solicită companiilor să le încarce într-un strat de stocare centralizat.
Procedura manuală de pipeline de date necesită ETL prealabil, furnizarea și formatarea datelor înainte de a putea fi examinată. Extinderea acestor procese manuale le face frustrante.
O altă opțiune care pare să se potrivească bine pe hârtie, dar care, de fapt, se abate de la principiul data lake-ului de introducere simplă a datelor este data lakehouse de la Snowflake.
Oracol
Arhitectura modernă, deschisă, cunoscută sub numele de „data lakehouse” face posibilă stocarea, înțelegerea și analiza tuturor datelor dvs.
Amploarea și flexibilitatea celor mai apreciate soluții open source lac de date sunt combinate cu puterea și profunzimea depozitelor de date.
Cele mai noi cadre de inteligență artificială și servicii de inteligență artificială preconstruite pot fi utilizate cu un data lakehouse pe Oracle Cloud Infrastructure (OCI).
Este fezabil să lucrați cu tipuri suplimentare de date în timp ce utilizați un lac de date open-source. Dar timpul și efortul necesar pentru gestionarea acesteia ar putea fi un dezavantaj persistent.
OCI oferă servicii lakehouse cu sursă deschisă complet gestionate la tarife mai mici și cu un management mai redus, permițându-vă să anticipați cheltuieli operaționale mai mici, o scalabilitate și securitate mai bune și capacitatea de a consolida toate datele existente într-o singură locație.
Un lac de date va crește valoarea depozitelor de date și a magazinelor, care sunt esențiale pentru întreprinderile de succes.
Datele pot fi preluate folosind un lac din mai multe locații cu o singură interogare SQL.
Programele și instrumentele existente primesc acces transparent la toate datele fără a necesita ajustări sau dobândirea de noi abilități.
Concluzie
Introducerea soluțiilor data lakehouse este o reflectare a unei tendințe mai mari în domeniul big data, care este integrarea analizei și a stocării datelor în platforme de date unificate pentru a maximiza valoarea afacerii din date, reducând în același timp timpul, costul și complexitatea extragerii valorii.
Platformele, inclusiv Databricks, Snowflake, Ahana, Dremio și Oracle, au fost toate legate de ideea unui „lac de date”, dar fiecare are un set unic de caracteristici și tendința de a funcționa mai mult ca un depozit de date decât un adevărat lac de date. ca un intreg, per total.
Atunci când o soluție este comercializată ca un „lac de date”, companiile ar trebui să fie atenți la ceea ce înseamnă de fapt.
Întreprinderile trebuie să privească dincolo de jargonul de marketing cum ar fi „data lakehouse” și, în schimb, să analizeze caracteristicile fiecărei platforme pentru a selecta cea mai bună platformă de date care se va extinde cu afacerile lor în viitor.
Lasă un comentariu