Taula de continguts[Amaga][Espectacle]
Els data lakehouses combinen els conceptes de data warehouse i data lake per a empreses.
Aquestes eines us permeten crear solucions d'emmagatzematge de dades rendibles combinant les capacitats de gestió dels llacs de dades amb l'arquitectura de dades que es troba als magatzems de dades.
A més, hi ha una reducció de la migració de dades i la redundància, es dediquen menys temps a l'administració i els procediments de govern de dades i d'esquemes més curts es converteixen en realitat.
Un data lakehouse té molts avantatges en comparació amb un sistema d'emmagatzematge amb diverses solucions.
Els científics de dades encara fan servir aquestes eines per millorar la seva comprensió de la intel·ligència empresarial i els procediments d'aprenentatge automàtic.
Aquest article farà una ullada ràpida a data Lakehouse, les seves capacitats i les eines disponibles.
Introducció a Data Lakehouse
Un nou tipus d'arquitectura de dades anomenada "Data Lakehouse” combina un llac de dades i un magatzem de dades per abordar les debilitats de cadascun de manera independent.
El sistema Lakehouse, com els llacs de dades, utilitza emmagatzematge de baix cost per mantenir grans quantitats de dades en la seva forma original.
L'addició d'una capa de metadades a la part superior de la botiga també proporciona estructura de dades i potencia eines de gestió de dades similars a les que es troben als magatzems de dades.
Conté quantitats massives de dades estructurades, semiestructurades i no estructurades obtingudes de les diferents aplicacions, sistemes i dispositius empresarials utilitzats a tota l'empresa.
Com a resultat, a diferència dels llacs de dades, el sistema Lakehouse pot gestionar i optimitzar aquestes dades per al rendiment SQL.
També té la capacitat d'emmagatzemar i processar grans quantitats de dades diverses a un cost més barat que els magatzems de dades.
Un llac de dades és útil quan necessiteu executar qualsevol anàlisi o accés a dades amb qualsevol dada, però no esteu segur de les dades o de les anàlisis recomanades.
L'arquitectura d'una casa de llac funcionarà força bé si el rendiment no és una preocupació principal.
Això no implica que hàgiu de basar tota la vostra estructura en una casa del llac.
Es pot trobar més informació sobre com seleccionar un llac de dades, una casa de llacs, un magatzem de dades o una base de dades d'anàlisi especialitzada per a cada cas d'ús. aquí.
Característiques de Data Lakehouse
- Lectura i escriptura de dades simultàniament
- Adaptabilitat i escalabilitat
- Assistència d'esquemes amb eines de govern de dades
- Lectura i escriptura de dades simultàniament
- Emmagatzematge assequible
- S'admeten tots els tipus de dades i formats de fitxer.
- Accés a eines de ciència de dades i aprenentatge automàtic optimitzat
- Els vostres equips de dades es beneficiaran de tenir accés a un sol sistema per transferir-hi les càrregues de treball amb més rapidesa i precisió.
- Capacitats en temps real per a iniciatives en ciència de dades, aprenentatge automàtic i anàlisi
Les 5 principals eines de Data Lakehouse
Maquetes de dades
Databricks, que va ser fundada per la persona que primer va desenvolupar Apache Spark i el va fer de codi obert, proporciona un servei d'Apache Spark gestionat i es posiciona com una plataforma per a llacs de dades.
Els components del llac de dades, el llac delta i el motor delta de l'arquitectura Databricks Lakehouse permeten casos d'ús d'intel·ligència empresarial, ciència de dades i aprenentatge automàtic.
El llac de dades és un dipòsit d'emmagatzematge al núvol públic.
Amb suport per a la gestió de metadades, processament de dades per lots i fluxos per a conjunts de dades multiestructurats, descobriment de dades, controls d'accés segur i anàlisi SQL.
Databricks ofereix la majoria de les funcions d'emmagatzematge de dades que es podria esperar veure en una plataforma de data lakehouse.
Databricks va presentar recentment el seu carregador automàtic, que automatitza l'ETL i l'entrada de dades i aprofita el mostreig de dades per inferir l'esquema per a una varietat de tipus de dades, per tal de proporcionar els components essencials de l'estratègia d'emmagatzematge del llac de dades.
Alternativament, els usuaris poden crear canalitzacions ETL entre el seu llac de dades al núvol públic i Delta Lake mitjançant Delta Live Tables.
Sobre el paper, Databricks sembla tenir tots els avantatges, però la creació de la solució i la creació dels seus canalitzacions de dades requereix molta feina humana de desenvolupadors qualificats.
A escala, la resposta també es fa més complexa. És més complicat del que sembla.
Ahana
Un llac de dades és una ubicació central única on podeu emmagatzemar qualsevol tipus de dades que trieu a escala, incloses les dades no estructurades i estructurades. AWS S3, Microsoft Azure i Google Cloud Storage són tres llacs de dades habituals.
Els llacs de dades són increïblement estimats perquè són molt assequibles i senzills d'utilitzar; bàsicament podeu emmagatzemar tantes dades de qualsevol tipus com vulgueu per molt pocs diners.
Però el llac de dades no ofereix eines integrades com ara anàlisis, consultes, etc.
Necessiteu un motor de consultes i un catàleg de dades a la part superior del llac de dades (on entra Ahana Cloud) per consultar les vostres dades i utilitzar-les.
Amb el millor tant del Data Warehouse com del Data Lake, s'ha desenvolupat un nou disseny de data Lakehouse.
Això indica que és transparent, adaptable, té un bon preu/rendiment, s'escala com un llac de dades que admet transaccions i té un alt nivell de seguretat comparable a un magatzem de dades.
El vostre motor de consultes SQL d'alt rendiment és el cervell darrere de Data Lakehouse. Per això, podeu executar anàlisis d'alt rendiment a les dades del vostre llac de dades.
Ahana Cloud per a Presto és SaaS per a Presto a AWS, per la qual cosa és increïblement senzill començar a utilitzar Presto al núvol.
Per al vostre llac de dades basat en S3, Ahana ja té un catàleg de dades i una memòria cau integrats. L'Ahana us ofereix les característiques de Presto sense que us cal que gestioneu les despeses generals perquè ho fa internament.
AWS Lake Formation, Apache Hudi i Delta Lake són només alguns dels gestors de transaccions que formen part de la pila i s'hi integren.
Dremio
Les organitzacions busquen avaluar de manera ràpida, senzilla i eficient quantitats massives de dades que creixen ràpidament.
Dremio creu que un llac de dades obertes combina els avantatges dels llacs de dades i els magatzems de dades de manera oberta és el millor enfocament per aconseguir-ho.
La plataforma Lakehouse de Dremio ofereix una experiència que funciona per a tothom, amb una interfície d'usuari senzilla que permet als usuaris completar anàlisis en una fracció del temps.
Dremio Cloud, una plataforma de data lakehouse totalment gestionada, i el llançament de dos nous serveis: Dremio Sonar, un motor de consultes de lakehouse, i Dremio Arctic, una megabotiga intel·ligent per a Apache Iceberg que ofereix una experiència única com Git per a lakehouse.
Totes les càrregues de treball SQL d'una organització es poden executar a la plataforma Dremio Cloud sense fricció i escalable sense fi, que també automatitza les tasques de gestió de dades.
Està creat per a SQL, ofereix una experiència semblant a Git, és de codi obert i sempre és gratuït.
La van crear per ser la plataforma Lakehouse que els equips de dades adoren.
Utilitzant taules de codi obert i formats de fitxers com Apache Iceberg i Apache Parquet, les vostres dades són persistents al vostre propi emmagatzematge del llac de dades quan feu servir Dremio Cloud.
Les innovacions futures es poden adoptar fàcilment i es pot triar el motor adequat en funció de la vostra càrrega de treball.
Floc de neu
Snowflake és una plataforma d'anàlisi i dades al núvol que pot satisfer les necessitats dels llacs de dades i dels magatzems.
Va començar com un sistema de magatzem de dades basat en una infraestructura de núvol.
La plataforma consta d'un dipòsit d'emmagatzematge centralitzat que es troba a la part superior de l'emmagatzematge al núvol públic d'AWS, Microsoft Azure o Google Cloud Platform (GCP).
A continuació, hi ha una capa de càlcul multiclúster, on els usuaris poden llançar un magatzem de dades virtual i realitzar consultes SQL amb el seu emmagatzematge de dades.
L'arquitectura permet desacoblar els recursos d'emmagatzematge i de càlcul, permetent a les organitzacions escalar els dos de manera independent segons sigui necessari.
Finalment, Snowflake ofereix una capa de servei amb categorització de metadades, gestió de recursos, govern de dades, transaccions i altres funcions.
Els connectors d'eines de BI, la gestió de metadades, els controls d'accés i les consultes SQL són només algunes de les funcionalitats del magatzem de dades que ofereix la plataforma.
Snowflake, però, es limita a un sol motor de consultes relacional basat en SQL.
Com a resultat, es fa més senzill d'administrar però menys adaptable, i la visió del llac de dades multimodel no es realitza.
A més, abans que les dades de l'emmagatzematge al núvol es puguin cercar o analitzar, Snowflake requereix que les empreses les carreguin en una capa d'emmagatzematge centralitzada.
El procediment manual de canalització de dades requereix un ETL previ, un aprovisionament i un format de dades abans de poder examinar-lo. Ampliar aquests processos manuals els fa frustrants.
Una altra opció que sembla que s'adapta bé al paper, però que, de fet, s'aparta del principi del llac de dades d'entrada de dades senzilla és la casa del llac de dades de Snowflake.
Oracle
L'arquitectura moderna i oberta coneguda com a "data lakehouse" fa possible emmagatzemar, comprendre i analitzar totes les vostres dades.
L'amplitud i la flexibilitat de les solucions de data llac de codi obert més populars es combinen amb la força i la profunditat dels magatzems de dades.
Els marcs d'IA més nous i els serveis d'IA preconstruïts es poden utilitzar amb un data lakehouse a Oracle Cloud Infrastructure (OCI).
És factible treballar amb tipus addicionals de dades mentre s'utilitza un llac de dades de codi obert. Però el temps i l'esforç necessaris per gestionar-ho podrien ser un inconvenient persistent.
OCI ofereix serveis de lakehouse de codi obert totalment gestionats a tarifes més baixes i amb menys gestió, cosa que us permet preveure despeses operatives més baixes, una millor escalabilitat i seguretat, i la capacitat de consolidar totes les vostres dades existents en un sol lloc.
Un data lakehouse augmentarà el valor dels magatzems de dades i els mercats, que són essencials per a les empreses d'èxit.
Les dades es poden recuperar mitjançant una casa del llac des de diverses ubicacions amb només una consulta SQL.
Els programes i eines existents reben accés transparent a totes les dades sense necessitat d'ajustaments ni adquirir noves habilitats.
Conclusió
La introducció de solucions de data lakehouse és un reflex d'una tendència més gran en el big data, que és la integració de l'anàlisi i l'emmagatzematge de dades en plataformes de dades unificades per maximitzar el valor empresarial de les dades alhora que es redueix el temps, el cost i la complexitat de l'extracció de valor.
Plataformes com Databricks, Snowflake, Ahana, Dremio i Oracle s'han vinculat a la idea d'un "data lakehouse", però cadascuna té un conjunt únic de funcions i una tendència a funcionar més com un magatzem de dades que no pas un veritable llac de dades. com un tot.
Quan una solució es comercialitza com a "llac de dades", les empreses haurien de desconfiar del que significa realment.
Les empreses han de mirar més enllà de l'argot de màrqueting com "data lakehouse" i, en canvi, mirar les característiques de cada plataforma per seleccionar la millor plataforma de dades que s'ampliarà amb els seus negocis en el futur.
Deixa un comentari