Os data lakehouses combinan os conceptos de data warehouse e data lake para empresas.
Estas ferramentas permítenche crear solucións de almacenamento de datos rendibles combinando as capacidades de xestión dos lagos de datos coa arquitectura de datos que se atopa nos almacéns de datos.
Ademais, hai unha redución na migración de datos e a redundancia, menos tempo se dedica á administración e os procedementos de goberno de datos e esquemas máis curtos fanse realidade.
Un data lakehouse ten moitas vantaxes en comparación cun sistema de almacenamento con varias solucións.
Estas ferramentas aínda son utilizadas polos científicos de datos para mellorar a súa comprensión da intelixencia empresarial e os procedementos de aprendizaxe automática.
Este artigo botará unha ollada rápida á data lakehouse, ás súas capacidades e ás ferramentas dispoñibles.
Introdución a Data Lakehouse
Un novo tipo de arquitectura de datos chamada "Data Lakehouse” combina un data lake e un data warehouse para abordar as debilidades de cada un de forma independente.
O sistema lakehouse, como os lagos de datos, usa almacenamento de baixo custo para manter grandes cantidades de datos na súa forma orixinal.
A adición dunha capa de metadatos na parte superior da tenda tamén proporciona estrutura de datos e potencia ferramentas de xestión de datos similares ás que se atopan nos almacéns de datos.
Contén grandes cantidades de datos estruturados, semiestruturados e non estruturados obtidos das distintas aplicacións, sistemas e dispositivos empresariais utilizados en toda a empresa.
Como resultado, a diferenza dos lagos de datos, o sistema lakehouse pode xestionar e optimizar eses datos para o rendemento de SQL.
Tamén ten a capacidade de almacenar e procesar grandes cantidades de datos diversos a un custo máis barato que os almacéns de datos.
Un data lakehouse é útil cando precisa executar calquera acceso a datos ou análises contra calquera dato, pero non está seguro dos datos ou das analíticas recomendadas.
A arquitectura da casa do lago funcionará bastante ben se o rendemento non é a principal preocupación.
Iso non implica que debas basear toda a túa estrutura nunha casa do lago.
Pódese atopar máis información sobre como seleccionar un lago de datos, un lago, un almacén de datos ou unha base de datos de análise especializada para cada caso de uso. aquí.
Características de Data Lakehouse
- Lectura e escritura simultánea de datos
- Adaptabilidade e escalabilidade
- Asistencia de esquemas con ferramentas de goberno de datos
- Lectura e escritura simultánea de datos
- Almacenamento que é accesible
- Admítense todos os tipos de datos e formatos de ficheiro.
- Acceso optimizado a ferramentas de ciencia de datos e aprendizaxe automática
- Os teus equipos de datos beneficiaranse de ter acceso a un só sistema para transferir cargas de traballo a través del con máis rapidez e precisión.
- Capacidades en tempo real para iniciativas en ciencia de datos, aprendizaxe automática e análise
As 5 principais ferramentas de Data Lakehouse
ladrillos de datos
Databricks, que foi fundada pola persoa que desenvolveu Apache Spark e o fixo de código aberto, ofrece un servizo Apache Spark xestionado e sitúase como unha plataforma para lagos de datos.
Os compoñentes do lago de datos, do lago delta e do motor delta da arquitectura Databricks lakehouse permiten casos de uso de intelixencia empresarial, ciencia de datos e aprendizaxe automática.
O lago de datos é un repositorio de almacenamento na nube pública.
Con soporte para a xestión de metadatos, procesamento de datos por lotes e fluxos para conxuntos de datos multiestructurados, descubrimento de datos, controis de acceso seguro e análise SQL.
Databricks ofrece a maioría das funcións de almacenamento de datos que se pode esperar ver nunha plataforma de data lakehouse.
Databricks presentou recentemente o seu Auto Loader, que automatiza ETL e a entrada de datos e aproveita a mostraxe de datos para inferir o esquema para unha variedade de tipos de datos, co fin de ofrecer os compoñentes esenciais da estratexia de almacenamento do lago de datos.
Alternativamente, os usuarios poden construír canalizacións ETL entre o seu lago de datos na nube pública e Delta Lake usando Delta Live Tables.
No papel, Databricks parece ter todas as vantaxes, pero configurar a solución e crear as súas canalizacións de datos require moito traballo humano de desenvolvedores cualificados.
A escala, a resposta tamén se fai máis complexa. É máis complicado do que parece.
Ahana
Un lago de datos é un lugar único e central onde podes almacenar calquera tipo de datos que elixas a escala, incluídos os datos estruturados e non estruturados. AWS S3, Microsoft Azure e Google Cloud Storage son tres lagos de datos comúns.
Os lagos de datos son moi populares porque son moi accesibles e sinxelos de usar; esencialmente pode almacenar tantos datos de calquera tipo como queira por moi pouco diñeiro.
Pero o lago de datos non ofrece ferramentas integradas como análises, consultas, etc.
Necesitas un motor de consulta e un catálogo de datos encima do lago de datos (onde aparece Ahana Cloud) para consultar os teus datos e utilizalos.
Co mellor tanto do Data Warehouse como do Data Lake, desenvolveuse un novo deseño de data Lakehouse.
Isto indica que é transparente, adaptable, ten un bo prezo/rendemento, escala como un data lake admite transaccións e ten un alto nivel de seguridade comparable a un almacén de datos.
O teu motor de consulta SQL de alto rendemento é o cerebro detrás de Data Lakehouse. Por iso, pode executar análises de alto rendemento nos datos do lago de datos.
Ahana Cloud para Presto é SaaS para Presto en AWS, polo que é incriblemente sinxelo comezar a usar Presto na nube.
Para o teu lago de datos baseado en S3, Ahana xa ten un catálogo de datos e caché integrados. Ahana ofrécelle as funcións de Presto sen que teñas que xestionar os gastos xerais porque o fai internamente.
AWS Lake Formation, Apache Hudi e Delta Lake son só algúns dos xestores de transaccións que forman parte da pila e que se integran con ela.
Dremio
As organizacións buscan avaliar de forma rápida, sinxela e eficiente cantidades masivas de datos en rápido aumento.
Dremio cre que un lago de datos abertos combina os beneficios dos lagos de datos e os almacéns de datos de forma aberta é o mellor enfoque para logralo.
A plataforma Lakehouse de Dremio ofrece unha experiencia que funciona para todos, cunha interface de usuario sinxela que permite aos usuarios completar análises nunha fracción do tempo.
Dremio Cloud, unha plataforma de data lakehouse totalmente xestionada, e o lanzamento de dous novos servizos: Dremio Sonar, un motor de consulta de lakehouse, e Dremio Arctic, unha megatenda intelixente para Apache Iceberg que ofrece unha experiencia única de tipo Git para a lakehouse.
Todas as cargas de traballo de SQL dunha organización pódense executar na plataforma Dremio Cloud sen friccións e infinitamente escalable, que tamén automatiza as tarefas de xestión de datos.
Está construído para SQL, ofrece unha experiencia similar a Git, é de código aberto e sempre é gratuíto.
Creárono para ser a plataforma de lakehouse que adoran os equipos de datos.
Usando táboas de código aberto e formatos de ficheiros como Apache Iceberg e Apache Parquet, os teus datos son persistentes no teu propio almacenamento do lago de datos cando usas Dremio Cloud.
As innovacións futuras pódense adoptar facilmente, e pódese escoller o motor axeitado en función da súa carga de traballo.
Folerpa de neve
Snowflake é unha plataforma de análise e datos na nube que pode satisfacer as necesidades dos lagos de datos e dos almacéns.
Comezou como un sistema de almacén de datos construído sobre unha infraestrutura na nube.
A plataforma consta dun repositorio de almacenamento centralizado que se sitúa encima do almacenamento na nube pública de AWS, Microsoft Azure ou Google Cloud Platform (GCP).
A continuación, hai unha capa de cálculo de varios clústeres, onde os usuarios poden iniciar un almacén de datos virtual e realizar consultas SQL sobre o seu almacenamento de datos.
A arquitectura permite desvincular os recursos de almacenamento e computación, o que permite ás organizacións escalar os dous de forma independente segundo sexa necesario.
Finalmente, Snowflake ofrece unha capa de servizo con categorización de metadatos, xestión de recursos, goberno de datos, transaccións e outras funcións.
Os conectores de ferramentas de BI, a xestión de metadatos, os controis de acceso e as consultas SQL son só algunhas das funcións do almacén de datos que ofrece a plataforma.
Snowflake, con todo, está restrinxido a un único motor de consulta baseado en SQL relacional.
Como resultado, faise máis sinxelo de administrar pero menos adaptable, e a visión do lago de datos multimodelo non se realiza.
Ademais, antes de que se poidan buscar ou analizar os datos do almacenamento na nube, Snowflake require que as empresas os carguen nunha capa de almacenamento centralizada.
O procedemento manual de canalización de datos precisa de ETL, aprovisionamento e formato de datos previos antes de poder examinalos. A ampliación destes procesos manuais fainos frustrantes.
Outra opción que parece encaixar ben no papel pero que, de feito, se desvía do principio do lago de datos de entrada de datos simple é o lago de datos de Snowflake.
oráculo
A arquitectura moderna e aberta coñecida como "data lakehouse" fai posible almacenar, comprender e analizar todos os teus datos.
A amplitude e flexibilidade das solucións de data lake de código aberto máis populares combínanse coa forza e profundidade dos almacéns de datos.
Os marcos de intelixencia artificial máis novos e os servizos de intelixencia artificial preconstruídos pódense usar cun data lakehouse en Oracle Cloud Infrastructure (OCI).
É factible traballar con tipos adicionais de datos mentres se utiliza un data lake de código aberto. Pero o tempo e o esforzo necesarios para xestionalo poderían ser un inconveniente persistente.
OCI ofrece servizos de lakehouse de código aberto totalmente xestionados a prezos máis baixos e con menos xestión, o que lle permite anticipar gastos operativos máis baixos, unha mellor escalabilidade e seguridade, e a capacidade de consolidar todos os seus datos existentes nun só lugar.
Un data lakehouse aumentará o valor dos data warehouses e mercados, que son esenciais para as empresas exitosas.
Os datos pódense recuperar usando unha casa do lago desde varios lugares con só unha consulta SQL.
Os programas e ferramentas existentes reciben acceso transparente a todos os datos sen requirir axustes nin adquirir novas habilidades.
Conclusión
A introdución de solucións de data lakehouse é un reflexo dunha tendencia maior no big data, que é a integración de análises e almacenamento de datos en plataformas de datos unificadas para maximizar o valor empresarial dos datos ao tempo que se reduce o tempo, o custo e a complexidade da extracción de valor.
As plataformas que inclúen Databricks, Snowflake, Ahana, Dremio e Oracle estiveron ligadas á idea dun "data lakehouse", pero cada unha ten un conxunto único de características e a tendencia a funcionar máis como un almacén de datos que como un verdadeiro lago de datos. coma un todo.
Cando unha solución se comercializa como "data lakehouse", as empresas deben desconfiar do que realmente significa.
As empresas deben mirar máis aló da xerga de mercadotecnia como "data lakehouse" e, no seu lugar, mirar as funcións de cada plataforma para seleccionar a mellor plataforma de datos que se expandirá cos seus negocios no futuro.
Deixe unha resposta