Puderia esse un pocu difficiule di cunsiderà tutti i servizii dispunibili è l'opzioni architettoniche quandu pensanu à e plataforme di dati.
Una piattaforma di dati di l'impresa spessu si compone di magazzini di dati, mudelli di dati, laghi di dati è rapporti, ognunu cù un scopu specificu è un set di cumpetenze necessarii. In cuntrastu, un novu disignu chjamatu data lakehouse hè apparsu durante l'ultimi anni.
A versatilità di i laghi di dati è a gestione di dati di u magazzinu di dati sò cumminati in una architettura rivoluzionaria di almacenamiento di dati chjamata "data lakehouse".
Esamineremu a data Lakehouse in profondità in questu post, cumprese i so cumpunenti, caratteristiche, architettura è altri aspetti.
Cosa hè Data Lakehouse?
Cum'è u nome implica, un data lakehouse hè un novu tipu d'architettura di dati chì combina un data lake cù un data warehouse per risolve i difetti di ognunu separatamente.
In essenza, u sistema di lakehouse usa un almacenamentu di prezzu per mantene quantità massive di dati in e so forme originali, cum'è i laghi di dati. Agghiuncennu a strata di metadati in cima di a tenda dà ancu una struttura di dati è abilita strumenti di gestione di dati cum'è quelli chì si trovanu in i magazzini di dati.
Immagazzina l'enormi volumi di dati organizzati, semi-strutturati è micca strutturati chì ricevenu da e diverse applicazioni, sistemi è gadgets di cummerciale utilizati in tutta a so urganizazione.
A maiò parte di u tempu, i laghi di dati utilizanu infrastruttura di almacenamentu à pocu costu cù una interfaccia di prugrammazione di l'applicazione di file (API) per almacenà e dati in formati di file generici aperti.
Questu permette à parechje squadre di accede à tutte e dati di a cumpagnia attraversu un sistema unicu per una varietà di iniziative, cum'è a scienza di dati, machine learning, è l'intelligenza cummerciale.
Features
- Almacenamiento low-cost. A data lakehouse deve esse capace di almacenà e dati in u almacenamentu di l'ughjettu di prezzu, cum'è Google Cloud Storage, Azure Blob Storage, Amazon Simple Storage Service, o nativamente utilizendu ORC o Parquet.
- Capacità per l'ottimisazione di dati: L'ottimisazione di u layout di dati, u caching è l'indexazione sò uni pochi di esempi di cumu una data lakehouse deve esse capace di ottimisà e dati mantenendu u formatu originale di dati.
- Un stratu di metadati transazzione: In più di l'almacenamiento essenziale à pocu costu, questu permette capacità di gestione di dati cruciali per u rendiment di u magazzinu di dati.
- Supportu per l'API Declarative DataFrame: A maiò parte di l'arnesi AI ponu utilizà DataFrames per ricuperà e dati di u magazinu di l'ughjettu crudu. U supportu per l'API Declarative DataFrame aumenta a capacità di migliurà dinamicamente a presentazione è a struttura di e dati in risposta à a scienza di dati particulare o à un compitu AI.
- Supportu per e transazzione ACID: L'acronimu ACID, chì significa l'atomicità, a coerenza, l'isolamentu è a durabilità, hè un cumpunente criticu in a definizione di una transazzione è per assicurà a coherenza è a fiducia di e dati. Tali transazzioni eranu nanzu pussibule solu in i magazzini di dati, ma u Lakehouse offre l'opzione di utilizà cù laghi di dati ancu. Cù parechji pipelines di dati cumpresi i dati cuncurrenti leghje è scrive, questu risolve u prublema di qualità di dati bassu di l'ultimi.
Elementi di Data Lakehouse
L'architettura di a data lakehouse hè divisa in dui livelli principali à un altu livellu. L'ingaghjamentu di dati di a capa di almacenamiento hè cuntrullata da a piattaforma Lakehouse (vale à dì, u lacu di dati).
Senza avè bisognu di carricà e dati in un magazzinu di dati o di cunvertisce in un formatu pruprietariu, a strata di trasfurmazioni hè allora capace di interrogà e dati in a strata di almacenamiento direttamente utilizendu una gamma di strumenti.
Allora, l'applicazioni BI, è e tecnulugia AI è ML, ponu utilizà a dati. L'ecunumia di un lacu di dati hè furnita da stu disignu, ma perchè ogni mutore di trasfurmazioni pò leghje questi dati, l'imprese anu a libertà di rende i dati preparati accessibili per l'analisi da una varietà di sistemi. U rendimentu di u processore è u costu pò esse migliuratu cù stu metudu per u processu è l'analisi.
A causa di u so supportu per e transazzioni di basa di dati chì aderiscenu à i seguenti criteri ACID (atomicità, coerenza, isolamentu è durabilità), l'architettura permette ancu à parechje parti per accede è scrive dati simultaneamente in u sistema:
- Atomicità si riferisce à u fattu chì sia a transazzione sana o nimu di questu, riesce mentre compie una transazzione. In l'eventu chì un prucessu hè interrotta, questu aiuta à evità a perdita di dati o a corruzzione.
- Consistenza guarantisci chì e transacciones si verificanu in una manera prevedibile è coherente. Mantene l'integrità di e dati assicurendu chì ogni dati hè legittimu in cunfurmità cù e regule predeterminate.
- mica assicura chì, finu à ch'ella hè finita, nisuna transazzione pò esse affettata da qualsiasi altra transazzione in u sistema. Questu permette à numerosi partiti di leghje è scrive da u stessu sistema simultaneamente senza interferiscenu cù l'altri.
- mira guarantisci chì i cambiamenti à i dati in un sistema cuntinueghjanu à esiste dopu chì una transazzione hè finita, ancu in casu di fallimentu di u sistema. Ogni alterazione purtata da una transazzione hè tenuta in u schedariu per sempre.
Data Lakehouse Architecture
Databricks (l'innovatore è u designer di u so cuncettu di Delta Lake) è AWS sò i dui principali difensori di u cuncettu di una data lakehouse. Ci cunfiremu cusì nantu à a so cunniscenza è insight per discrìviri u layout architettonicu di e case di laghi.
Un sistema di data lakehouse hà tipicamente cinque strati:
- Stratu di ingestione
- Stratu di almacenamentu
- Layer di metadata
- Layer API
- Stratu di cunsumu
Stratu di ingestione
U primu stratu di u sistema hè incaricatu di cullà e dati da diverse fonti è di mandà à a capa di almacenamiento. U stratu pò utilizà parechji protokolli per cunnette à numerosi fonti interni è esterni, cumpresa cumminendu capacità di processazione di dati in batch è streaming, cum'è
- basa di dati NoSQL,
- sparte di schedari
- applicazioni CRM,
- siti web,
- sensori IoT,
- media suciali,
- Applicazioni Software cum'è Serviziu (SaaS), è
- sistemi di gestione di basa di dati relazionale, etc.
À questu puntu, cumpunenti cum'è Apache Kafka per u streaming di dati è Amazon Data Migration Service (Amazon DMS) per impurtà dati da RDBMS è basa di dati NoSQL ponu esse impiegati.
Stratu di almacenamentu
L'architettura di lakehouse hè destinata à attivà l'almacenamiento di diversi tipi di dati cum'è oggetti in magazzini d'ughjetti di prezzu, cum'è AWS S3. Utilizendu furmati di schedari aperti, i strumenti di u cliente ponu allora leghje questi articuli direttamente da a tenda.
Questu permette à parechje API è cumpunenti di strati di cunsumu per accede è utilizà a stessa dati. A capa di metadata guarda i schemi per i datasets strutturati è semi-strutturati in modu chì i cumpunenti ponu applicà à e dati mentre li leghjenu.
A piattaforma Hadoop Distributed File System (HDFS), per esempiu, pò esse aduprata per custruisce servizii di repository in nuvola chì dividenu l'informatica è l'almacenamiento in situ. Lakehouse hè idealmente adattatu per questi servizii.
Layer di metadata
A capa di metadata hè u cumpunente fundamentale di una data lakehouse chì distingue stu disignu. Hè un catalogu unicu chì offre metadata (infurmazione nantu à altri pezzi di dati) per tutti l'articuli almacenati in u lavu è permette à l'utilizatori di impiegà capacità amministrative cum'è:
- Una versione coherente di a basa di dati hè vistu da transazzione cuncurrenti grazia à transazzione ACID;
- caching per salvà i fugliali di u magazinu di l'ughjetti in nuvola;
- aghjunghje l'indici di struttura di dati cù l'indexazione per accelerà u processu di e dumande;
- utilizendu a clonazione zero-copia per duplicà l'uggetti di dati; è
- per almacenà certe versioni di i dati, etc., aduprà a versione di dati.
Inoltre, a strata di metadati permette l'implementazione di a gestione di schema, l'usu di topologie di schema DW cum'è schemi stella / fiocchi di neve, è a prestazione di guvernanza di dati è capacità di auditing direttamente nantu à u lacu di dati, rinfurzendu l'integrità di tutta a pipeline di dati.
E caratteristiche per l'evoluzione di u schema è l'infurzazioni sò incluse in a gestione di schema. Rifittendu ogni scrittura chì ùn risponde micca à u schema di a tavola, l'applicazione di schema permette à l'utilizatori di mantene l'integrità è a qualità di e dati.
L'evoluzione di u schema permette à u schema attuale di a tavula per esse mudificatu per accoglie dati cambianti. A causa di una sola interfaccia di amministrazione in cima di u lacu di dati, ci sò ancu pussibulità di cuntrollu di accessu è auditing.
Layer API
Un altru stratu cruciale di l'architettura hè avà presente, ospitendu una quantità di API chì tutti l'utilizatori finali ponu aduprà per fà travaglii più rapidamente è uttene statistiche più sofisticate.
L'usu di l'API di metadati facilita l'identificazione è l'accessu à l'articuli di dati necessarii per una determinata applicazione.
In quantu à e librerie di l'apprendimentu di machine, alcuni di elli, cum'è TensorFlow è Spark MLlib, ponu leghje formati di schedari aperti cum'è Parquet è accede direttamente à a capa di metadata.
À u listessu tempu, l'API di DataFrame offrenu più probabilità di ottimisazione, chì permettenu à i programatori di urganizà è cambià dati dispersi.
Stratu di cunsumu
Power BI, Tableau, è altri arnesi è app sò ospitu sottu a strata di cunsumu. Cù u disignu di lakehouse, tutte e metadata è tutte e dati chì sò guardati in un lagu sò accessibili per l'applicazioni di u cliente.
A casa di u lagu pò esse aduprata da tutti l'utilizatori in una cumpagnia per realizà ogni tipu di operazioni analitiche, cumpresa a creazione di dashboards di intelligenza cummerciale è l'esecuzione di dumande SQL è attività di apprendimentu automaticu.
Vantaghji di Data Lakehouse
L'urganisazioni ponu creà una data lakehouse per unificà a so piattaforma di dati attuale è ottimisà tuttu u so prucessu di gestione di dati. Smantellendu e barriere di silo chì cunnettanu diverse fonti, una data lakehouse pò rimpiazzà a necessità di soluzioni distinte.
Comparatu à e fonti di dati curati, sta integrazione produce una prucedura end-to-end significativamente più efficace. Questu hà parechji vantaghji:
- Meno amministrazione: Piuttostu chè d'estrattà e dati da e dati prima è di preparà per l'usu in un magazzinu di dati, un data lakehouse permette à qualsiasi fonti ligati à questu di avè i so dati dispunibuli è urganizati per l'utilizazione.
- Aumentu di u costu-efficacità: I laghi di dati sò custruiti aduprendu l'infrastruttura cuntempuranea chì divide a computazione è l'almacenamiento, facendu simplice per espansione l'almacenamiento senza aumentà a putenza di calculu. Solu l'usu di l'almacenamiento di dati à pocu costu risultati in scalabilità chì hè costu-efficace.
- Una megliu guvernanza di dati: I laghi di dati sò custruiti cù l'architettura aperta standardizata, chì permettenu più cuntrollu di a sicurità, metrica, accessu basatu à u rolu è altri cumpunenti di gestione impurtanti. Unificà e risorse è e fonti di dati, simplificanu è migliurà a governanza.
- Norme simplificate: Siccomu a cunnessione era assai ristretta in l'anni 1980, quandu i magazzini di dati sò stati sviluppati per a prima volta, i standard di schema localizzati sò stati spessu sviluppati in l'imprese, ancu i dipartimenti. Data lakehouses aduprà u fattu chì parechji tippi di dati avà hannu normi aperti per schema da ingesting numerosi fonti di dati cù u schema uniformi sovrapposta à streamline prucedure.
Svantaghji di Data Lakehouse
Malgradu tutti l'ingaghjamentu chì circundanu i data lakehouses, hè impurtante di mantene in mente chì l'idea hè sempre assai nova. Assicuratevi di pisà i svantaghji prima di impegnà cumplettamente à stu novu disignu.
- Struttura monolitica: U disignu all-inclusive di una casa di lago offre parechji vantaghji, ma ancu suscita alcuni prublemi. L'architettura monolitica spessu porta à un serviziu poveru per tutti l'utilizatori è pò esse rigidu è difficiule di mantene. Di genere, l'architetti è i diseggiani piacenu una architettura più modulare chì ponu persunalizà per diversi casi d'usu.
- A tecnulugia ùn hè micca abbastanza: u scopu finale implica una quantità significativa di machine learning è intelligenza artificiale. Prima chì e case di laghi ponu esse realizatu cum'è previstu, queste tecnulugia devenu sviluppà più.
- Ùn hè micca un avanzamentu significativu annantu à e strutture esistenti: Ci hè sempre un scepticismu considerableu annantu à quantu più valore i laghi cuntribuiscenu in realtà. Certi detrattori sustenenu chì un disignu di magazzinu di u lagu assuciatu cù l'equipaggiu automatizatu adattatu pò ottene una efficienza paragunabile.
Sfide di Data Lakehouse
Puderia esse difficiule di aduttà a tecnica di data lakehouse. A causa di l'intricatu di i so pezzi cumpunenti, hè sbagliatu per vede a data lakehouse cum'è una struttura ideale per tutte o "una piattaforma per tuttu", per unu.
Inoltre, per via di l'adopzione crescente di laghi di dati, l'imprese duveranu traslassi i so magazzini di dati attuali in elli, affittendu solu una prumessa di successu senza beneficiu ecunomicu dimustrabile.
Se ci sò prublemi di latenza o interruzioni in tuttu u prucessu di trasferimentu, questu puderia esse caru, tempu, è forse micca sicuru.
L'utilizatori di l'affari devenu abbracciate tecnulugii altamente specializati, secondu certi venditori chì espressamente o implicitamente cummercializanu soluzioni cum'è data lakehouses. Quessi ùn puderanu micca sempre travaglià cù altre arnesi ligati à u lacu di dati in u centru di u sistema, aghjunghjendu i prublemi.
Inoltre, puderia esse difficiule di furnisce analitiche 24/7 mentre eseguite carichi di travagliu critichi per l'affari, chì richiede una infrastruttura cù scalabilità costu-efficace.
cunchiusioni
A più nova varietà di centri di dati in l'ultimi anni hè a data lakehouse. Integra una varietà di campi, cum'è a tecnulugia di l'infurmazione, u software open-source, nuvola informatica, è protokolli di almacenamentu distribuitu.
Permette à l'imprese di almacenà centralmente tutti i tipi di dati da ogni locu, simplificendu a gestione è l'analisi. Data Lakehouse hè un cuncettu abbastanza intrigante.
Qualchese impresa avaristi un vantaghju competitivu significativu s'ellu avia accessu à una piattaforma di dati all-in-one chì era veloce è efficiente cum'è un magazzinu di dati è ancu esse flexible cum'è un lacu di dati.
L'idea hè sempre sviluppata è ferma relativamente nova. In u risultatu, puderia piglià un pocu di tempu per determinà se qualcosa pò esse diffusa o micca.
Tutti duvemu esse curiosi di a direzzione chì l'architettura di Lakehouse si dirige.
Lascia un Audiolibro