Índice del contenido[Esconder][Espectáculo]
Las casas de lago de datos combinan los conceptos de almacén de datos y lago de datos para las empresas.
Estas herramientas le permiten crear soluciones rentables de almacenamiento de datos al combinar las capacidades de administración de los lagos de datos con la arquitectura de datos que se encuentra en los almacenes de datos.
Además, hay una reducción en la migración de datos y la redundancia, se dedica menos tiempo a la administración y los procedimientos de gobierno de datos y esquemas más cortos se vuelven realidad.
Un lago de datos tiene muchas ventajas en comparación con un sistema de almacenamiento con varias soluciones.
Los científicos de datos todavía utilizan estas herramientas para mejorar su comprensión de los procedimientos de inteligencia empresarial y aprendizaje automático.
Este artículo analizará rápidamente Data Lakehouse, sus capacidades y las herramientas disponibles.
Introducción a Data Lakehouse
Un nuevo tipo de arquitectura de datos llamada “casa del lago de datoscombina un lago de datos y un almacén de datos para abordar las debilidades de cada uno de forma independiente.
El sistema Lakehouse, al igual que los lagos de datos, utiliza almacenamiento de bajo costo para mantener grandes cantidades de datos en su forma original.
La adición de una capa de metadatos en la parte superior del almacén también proporciona una estructura de datos y potencia herramientas de gestión de datos similares a las que se encuentran en los almacenes de datos.
Contiene cantidades masivas de datos estructurados, semiestructurados y no estructurados obtenidos de las diversas aplicaciones, sistemas y dispositivos comerciales utilizados en toda la empresa.
Como resultado, a diferencia de los lagos de datos, el sistema Lakehouse puede administrar y optimizar esos datos para el rendimiento de SQL.
También tiene la capacidad de almacenar y procesar grandes cantidades de datos diversos a un costo más económico que los almacenes de datos.
Un lago de datos es útil cuando necesita ejecutar cualquier acceso a datos o análisis contra cualquier dato, pero no está seguro de los datos o el análisis recomendado.
Una arquitectura de lago funcionará bastante bien si el rendimiento no es una preocupación principal.
Eso no implica que deba basar toda su estructura en una casa del lago.
Se puede encontrar más información sobre cómo seleccionar un lago de datos, una casa del lago, un almacén de datos o una base de datos de análisis especializada para cada caso de uso. esta página.
Características de Data Lakehouse
- Lectura y escritura simultánea de datos
- Adaptabilidad y escalabilidad
- Asistencia de esquema con herramientas de gobierno de datos
- Lectura y escritura simultánea de datos
- Almacenamiento asequible
- Se admiten todos los tipos de datos y formatos de archivo.
- Acceso a herramientas de ciencia de datos y aprendizaje automático optimizadas
- Sus equipos de datos se beneficiarán de tener acceso a un solo sistema para transferir cargas de trabajo a través de él de manera más rápida y precisa.
- Capacidades en tiempo real para iniciativas en ciencia de datos, aprendizaje automático y análisis
Las 5 mejores herramientas de Data Lakehouse
Databricks
Databricks, que fue fundado por la persona que primero desarrolló Apache Spark y lo hizo de código abierto, proporciona un servicio Apache Spark administrado y se posiciona como una plataforma para lagos de datos.
Los componentes de lago de datos, lago delta y motor delta de la arquitectura de lago de Databricks permiten casos de uso de inteligencia empresarial, ciencia de datos y aprendizaje automático.
El lago de datos es un repositorio de almacenamiento en la nube pública.
Con soporte para gestión de metadatos, procesamiento de datos por lotes y secuencias para conjuntos de datos multiestructurados, descubrimiento de datos, controles de acceso seguro y análisis de SQL.
Databricks ofrece la mayoría de las funciones de almacenamiento de datos que uno podría esperar ver en una plataforma de lago de datos.
Databricks presentó recientemente su Auto Loader, que automatiza la entrada de datos y ETL y aprovecha el muestreo de datos para inferir el esquema para una variedad de tipos de datos, a fin de cumplir con los componentes esenciales de la estrategia de almacenamiento del lago de datos.
Alternativamente, los usuarios pueden construir canalizaciones ETL entre su lago de datos de nube pública y Delta Lake usando Delta Live Tables.
Sobre el papel, Databricks parece tener todas las ventajas, pero configurar la solución y crear sus canalizaciones de datos requiere mucho trabajo humano por parte de desarrolladores expertos.
A escala, la respuesta también se vuelve más compleja. Es más complicado de lo que parece.
Castigo
Un lago de datos es una ubicación única y central donde puede almacenar cualquier tipo de datos que elija a escala, incluidos datos estructurados y no estructurados. AWS S3, Microsoft Azure y Google Cloud Storage son tres lagos de datos comunes.
Los lagos de datos son increíblemente apreciados porque son muy asequibles y fáciles de usar; Básicamente, puede almacenar tantos tipos de datos como desee por muy poco dinero.
Pero el lago de datos no ofrece herramientas integradas como análisis, consultas, etc.
Necesita un motor de consultas y un catálogo de datos además del lago de datos (donde entra Ahana Cloud) para consultar sus datos y usarlos.
Con lo mejor de Data Warehouse y Data Lake, se ha desarrollado un nuevo diseño de data lakehouse.
Esto indica que es transparente, adaptable, tiene una buena relación precio/rendimiento, se escala como un lago de datos que admite transacciones y tiene un alto nivel de seguridad comparable a un almacén de datos.
Su motor de consulta SQL de alto rendimiento es el cerebro detrás de Data Lakehouse. Debido a esto, puede ejecutar análisis de alto rendimiento en los datos de su lago de datos.
Ahana Cloud for Presto es SaaS para Presto en AWS, lo que hace que sea increíblemente sencillo comenzar a usar Presto en la nube.
Para su lago de datos basado en S3, Ahana ya tiene un catálogo de datos y un almacenamiento en caché integrados. Ahana le brinda las funciones de Presto sin que usted se encargue de los gastos generales porque lo hace internamente.
AWS Lake Formation, Apache Hudi y Delta Lake son solo algunos de los administradores de transacciones que forman parte de la pila y se integran con ella.
Drémio
Las organizaciones buscan evaluar de manera rápida, simple y eficiente cantidades masivas de datos que aumentan rápidamente.
Dremio cree que un lago de datos abierto que combina los beneficios de los lagos de datos y los almacenes de datos de forma abierta es el mejor enfoque para lograrlo.
La plataforma Lakehouse de Dremio brinda una experiencia que funciona para todos, con una interfaz de usuario sencilla que permite a los usuarios completar análisis en una fracción del tiempo.
Dremio Cloud, una plataforma Lakehouse de datos completamente administrada, y el lanzamiento de dos nuevos servicios: Dremio Sonar, un motor de consultas Lakehouse, y Dremio Arctic, una megatienda inteligente para Apache Iceberg que ofrece una experiencia única similar a Git para Lakehouse.
Todas las cargas de trabajo de SQL de una organización se pueden ejecutar en la plataforma Dremio Cloud escalable sin fricciones, que también automatiza las tareas de administración de datos.
Está diseñado para SQL, ofrece una experiencia similar a Git, es de código abierto y siempre es gratuito.
Lo crearon para que fuera la plataforma Lakehouse que adoran los equipos de datos.
Utilizando formatos de archivos y tablas de código abierto como Apache Iceberg y Apache Parquet, sus datos son persistentes en su propio almacenamiento de lago de datos cuando usa Dremio Cloud.
Las innovaciones futuras se pueden adoptar fácilmente y se puede elegir el motor adecuado en función de su carga de trabajo.
Copo de nieve
Snowflake es una plataforma de análisis y datos en la nube que puede satisfacer las necesidades de los lagos de datos y los almacenes.
Comenzó como un sistema de almacenamiento de datos basado en una infraestructura en la nube.
La plataforma se compone de un repositorio de almacenamiento centralizado que se asienta sobre el almacenamiento en la nube pública de AWS, Microsoft Azure o Google Cloud Platform (GCP).
Después de eso, hay una capa de computación de múltiples clústeres, donde los usuarios pueden iniciar un almacén de datos virtual y realizar consultas SQL contra su almacenamiento de datos.
La arquitectura permite desacoplar los recursos de almacenamiento y computación, lo que permite a las organizaciones escalar los dos de forma independiente según sea necesario.
Finalmente, Snowflake proporciona una capa de servicio con categorización de metadatos, administración de recursos, gobierno de datos, transacciones y otras características.
Los conectores de herramientas de BI, la gestión de metadatos, los controles de acceso y las consultas SQL son solo algunas de las funcionalidades de almacenamiento de datos que la plataforma destaca por ofrecer.
Snowflake, sin embargo, está restringido a un único motor de consultas basado en SQL relacional.
Como resultado, se vuelve más simple de administrar pero menos adaptable, y la visión del lago de datos de múltiples modelos no se realiza.
Además, antes de que se puedan buscar o analizar los datos del almacenamiento en la nube, Snowflake requiere que las empresas los carguen en una capa de almacenamiento centralizada.
El procedimiento de canalización de datos manual requiere ETL previo, aprovisionamiento y formateo de datos antes de que pueda examinarse. Ampliar estos procesos manuales los vuelve frustrantes.
Otra opción que parece encajar bien en el papel pero que, de hecho, se desvía del principio del lago de datos de entrada de datos simple es la casa del lago de datos de Snowflake.
Oracle
La arquitectura moderna y abierta conocida como "data lakehouse" hace posible almacenar, comprender y analizar todos sus datos.
La amplitud y la flexibilidad de las soluciones de lago de datos de código abierto más apreciadas se combinan con la solidez y profundidad de los almacenes de datos.
Los marcos de trabajo de IA más nuevos y los servicios de IA preconstruidos se pueden usar con un lago de datos en Oracle Cloud Infrastructure (OCI).
Es factible trabajar con tipos de datos adicionales mientras se utiliza un lago de datos de código abierto. Pero el tiempo y el esfuerzo necesarios para gestionarlo podrían ser un inconveniente persistente.
OCI ofrece servicios Lakehouse de código abierto completamente administrados a tarifas más bajas y con menos administración, lo que le permite anticipar menores gastos operativos, mejor escalabilidad y seguridad, y la capacidad de consolidar todos sus datos existentes en una ubicación.
Un data lakehouse aumentará el valor de los data warehouses y marts, que son esenciales para el éxito de las empresas.
Los datos se pueden recuperar usando una casa del lago desde varias ubicaciones con solo una consulta SQL.
Los programas y herramientas existentes reciben acceso transparente a todos los datos sin necesidad de ajustes ni adquisición de nuevas habilidades.
Conclusión
La introducción de soluciones de data lakehouse es un reflejo de una tendencia más amplia en big data, que es la integración de análisis y almacenamiento de datos en plataformas de datos unificados para maximizar el valor comercial de los datos y reducir el tiempo, el costo y la complejidad de la extracción de valor.
Las plataformas, incluidas Databricks, Snowflake, Ahana, Dremio y Oracle, se han relacionado con la idea de una "casa de lago de datos", pero cada una tiene un conjunto único de características y una tendencia a funcionar más como un almacén de datos que como un verdadero lago de datos. como un todo.
Cuando una solución se comercializa como una "casa de lago de datos", las empresas deben tener cuidado con lo que realmente significa.
Las empresas deben mirar más allá de la jerga de marketing como "data lakehouse" y, en su lugar, analizar las características de cada plataforma para seleccionar la mejor plataforma de datos que se expandirá con sus negocios en el futuro.
Deje un comentario