Índice analítico[Ocultar][Mostrar]
As empresas están a capturar máis datos que nunca, xa que cada vez confían máis neles para informar as decisións comerciais importantes, mellorar as ofertas de produtos e ofrecer un mellor servizo ao cliente.
Coa cantidade de datos que se crea a un ritmo exponencial, a nube ofrece varias vantaxes para o procesamento e análise de datos, incluíndo escalabilidade, fiabilidade e dispoñibilidade.
No ecosistema da nube, tamén hai varias ferramentas e tecnoloxías para o procesamento e análise de datos. Os dous tipos de estruturas de almacenamento de grandes datos que se utilizan con máis frecuencia son os almacéns de datos e os lagos de datos.
Aínda que utilizar un lago de datos é menos atractivo xa que non pode consultar o modelo e os datos mentres aínda son relevantes, empregar un almacén de datos para o almacenamento de datos por streaming é un desperdicio.
Wque tipo de arquitectura de nube eliximos?
Debemos considerar conceptos máis novos para o data lakehouse, ou debemos contentarnos coas limitacións do almacén ou as restricións do lago?
Unha nova arquitectura de almacenamento de datos chamada "data lakehouse" combina a adaptabilidade dos data lakes coa xestión de datos dos data warehouses.
Comprender os diversos métodos de almacenamento de grandes datos é esencial para construír unha canalización de almacenamento de datos fiable para intelixencia empresarial (BI), análise de datos e aprendizaxe de máquina (ML) cargas de traballo, dependendo das demandas da súa empresa.
Nesta publicación, analizaremos de cerca Data Warehouse, Data Lake e Data Lakehouse, con vantaxes, limitacións e pros e contras. Imos comezar.
Que é Data Warehouse?
Un almacén de datos é un repositorio de datos centralizado utilizado por unha organización para almacenar enormes volumes de datos de moitas fontes. Un almacén de datos actúa como a única fonte de "verdade dos datos" dunha organización e é esencial para os informes e as análises comerciais.
Normalmente, os almacéns de datos combinan conxuntos de datos relacionais de varias fontes, como datos de aplicacións, negocios e transaccionais, para almacenar datos históricos. Antes de ser cargados no sistema de almacenamento, os datos transfórmanse e límpanse en almacéns de datos para que poidan ser utilizados como unha única fonte de verdade dos datos.
Debido á súa capacidade para ofrecer con rapidez coñecementos comerciais de todas as áreas da empresa, as empresas invisten en almacéns de datos. Co uso de ferramentas de BI, clientes SQL e outras solucións analíticas menos sofisticadas (é dicir, non relacionadas coa ciencia de datos), analistas de empresas, enxeñeiros de datos e tomadores de decisións poden acceder aos datos dos almacéns de datos.
É caro manter un almacén cun volume de datos cada vez maior, e un almacén de datos non pode xestionar datos brutos ou non estruturados. Ademais, non é a opción ideal para técnicas de análise de datos sofisticadas como a aprendizaxe automática ou o modelado preditivo.
Un almacén de datos, polo tanto, ofrece respostas de consulta máis rápidas e datos de maior calidade. Google Big Query, Amazon Redshift, Azure SQL Data warehouse e Snowflake son servizos na nube que están dispoñibles para os almacéns de datos.
Beneficios de Data Warehouse
- Aumentar a eficiencia e a velocidade das cargas de traballo de intelixencia empresarial e análise de datos: Os almacéns de datos acurtan o tempo necesario para a preparación e análise de datos. Poden vincularse facilmente a ferramentas de análise de datos e intelixencia empresarial xa que os datos do almacén de datos son fiables e consistentes. Ademais, os almacéns de datos aforran o tempo necesario para a recollida de datos e proporcionan aos equipos a capacidade de usar datos para informes, paneis de control e outros requisitos de análise.
- Aumentar a coherencia, calidade e estandarización dos datos: as organizacións recollen datos de diversas fontes, incluíndo datos de usuarios, vendas e transaccións. A empresa pode confiar nos datos para os requisitos comerciais porque o almacenamento de datos compila os datos corporativos nun formato uniforme e estandarizado que pode actuar como unha única fonte de verdade dos datos.
- Potenciar a toma de decisións en xeral: O almacenamento de datos facilita unha mellor toma de decisións ao ofrecer un almacén centralizado tanto de datos recentes como de datos antigos. Ao procesar datos en almacéns de datos para obter información precisa, os que toman decisións poden avaliar os riscos, comprender os desexos dos clientes e mellorar os bens e servizos.
- Proporcionar unha mellor intelixencia empresarial: O almacenamento de datos salva a brecha entre os datos en bruto masivos, que a miúdo se recollen de forma habitual, e os datos seleccionados que proporcionan información. Actúan como a base para o almacenamento de datos dunha organización, o que lle permite responder a preguntas complicadas sobre os seus datos e utilizar as respostas para tomar decisións empresariais defendibles.
Limitacións do Data Warehouse
- Falta de flexibilidade de datos: Aínda que os almacéns de datos destacan no manexo de datos estruturados, os formatos de datos semiestruturados e non estruturados como a análise de rexistros, a transmisión en tempo real e os datos de redes sociais poden ser un reto para eles. Isto fai recomendar almacéns de datos para casos de uso que impliquen aprendizaxe automática e intelixencia artificial difícil.
- Custo de instalar e manter: Os almacéns de datos poden ser caros de instalar e manter. Ademais, o almacén de datos moitas veces non é estático; envellece e necesita un mantemento frecuente, que é caro.
Pros
- Os datos son sinxelos de atopar, recuperar e consultar.
- Mentres os datos xa estean limpos, a preparación de datos SQL é sinxela.
Contra
- Está obrigado a utilizar só un provedor de análises.
- Analizar e almacenar datos non estruturados ou fluídos é bastante custoso.
Que é Data Lake?
Todo tipo de datos é prometido e posible grazas aos lagos de datos. É beneficioso ter datos dun xeito accesible localizados centralmente e dispoñibles para a súa lectura.
Un lago de datos é un espazo de almacenamento centralizado e extremadamente adaptable onde se gardan volumes masivos de datos organizados e non estruturados nas súas formas sen procesar, inalteradas e sen formato.
Un lago de datos emprega unha arquitectura plana e obxectos almacenados no seu estado non procesado para almacenar datos, en oposición aos almacéns de datos, que gardan datos relacionais que previamente foron "limpados".
Os lagos de datos, a diferenza dos almacéns de datos, que teñen dificultades para manexar datos neste formato, son adaptables, fiables e accesibles e permiten ás empresas obter información mellorada a partir de datos non estruturados.
Nos data lakes, os datos extráense, cárganse e transfórmanse (ELT) con fins analíticos en lugar de ter o esquema ou os datos establecidos no momento da recollida de datos.
Utilizando tecnoloxías para moitos tipos de datos de dispositivos IoT, medios sociais, e transmisión de datos, lagos de datos permiten a aprendizaxe automática e a análise preditiva.
Ademais, un científico de datos que poida procesar datos en bruto pode usar o lago de datos. Un almacén de datos, por outra banda, é máis fácil de usar para as empresas. É perfecto para perfilar usuarios, análise preditiva, aprendizaxe automática e outras tarefas.
Aínda que os lagos de datos abordan varios problemas cos almacéns de datos, a súa calidade de datos é deficiente e a súa velocidade de consulta é insuficiente. Ademais, os usuarios empresariais necesitan ferramentas adicionais para realizar consultas SQL. Un lago de datos que está mal estruturado pode experimentar un problema co estancamento dos datos.
Beneficios de Data Lake
- Soporte para unha ampla gama de casos de aplicacións de aprendizaxe automática e ciencia de datos É máis sinxelo usar unha máquina diferente e algoritmos de aprendizaxe profunda para manexar os datos nos lagos de datos xa que os datos se manteñen de forma aberta e en bruto.
- A versatilidade de Data Lakes, que lle permite almacenar datos en calquera formato ou soporte sen necesidade dun esquema predefinido, é unha gran vantaxe. Pódense admitir casos de uso de datos futuros e pódense analizar máis datos se os datos se deixan no seu estado orixinal.
- Para evitar ter que almacenar ambos tipos de datos en varios contextos, os lagos de datos poden conter tanto datos estruturados como non estruturados. Para o almacenamento de varios tipos de datos organizativos, ofrecen unha única localización.
- En comparación cos almacéns de datos tradicionais, os lagos de datos son menos caros porque están construídos para manterse en hardware de mercadoría barato, como o almacenamento de obxectos, que adoita estar orientado a un menor custo por gigabyte almacenado.
Limitacións de Data Lake
- Os casos de uso da análise de datos e da intelixencia empresarial teñen unha puntuación baixa: os lagos de datos poden quedar desorganizados se non se realizan un mantemento adecuado, o que dificulta a súa vinculación con ferramentas de intelixencia empresarial e analítica. Ademais, cando é necesario para informes e casos de uso de análise, falta de coherencia estruturas de datos e o soporte transaccional ACID (atomicidade, consistencia, illamento e durabilidade) pode levar a un rendemento de consulta subóptimo.
- A incoherencia dos lagos de datos fai imposible facer cumprir a fiabilidade e seguridade dos datos, o que resulta na falta de ambas. Pode ser difícil desenvolver estándares de goberno e seguridade de datos axeitados para atender os tipos de datos sensibles, xa que os data lakes poden xestionar calquera formulario de datos.
Pros
- Solucións accesibles para todo tipo de datos.
- Capaz de manexar datos organizados e semiestruturados.
- Ideal para procesamento e transmisión de datos complicados.
Contra
- Necesita unha canalización sofisticada para ser construída.
- Dálle tempo aos datos para que sexan consultables.
- Leva tempo garantir a fiabilidade e a calidade dos datos.
Que é Data Lakehouse?
Unha nova arquitectura de almacenamento de grandes datos chamada "data lakehouse" combina os mellores aspectos dos data lakes e data warehouses. Todos os teus datos, xa sexan estruturados, semiestruturados ou non, pódense almacenar nun só lugar coas mellores capacidades de aprendizaxe automática, intelixencia empresarial e transmisión de datos grazas a un data lakehouse.
Os lagos de datos de todo tipo adoitan ser o punto de partida dos lagos de datos; despois diso, os datos transfórmanse ao formato Delta Lake (unha capa de almacenamento de código aberto que aporta fiabilidade aos lagos de datos).
Os lagos de datos con lagos delta permiten procedementos transaccionais con ACID dos almacéns de datos convencionais. En esencia, o sistema lakehouse usa un almacenamento económico para manter cantidades masivas de datos nas súas formas orixinais, ao igual que os lagos de datos.
Engadir a capa de metadatos na parte superior da tenda tamén dá estrutura de datos e potencia ferramentas de xestión de datos como as que se atopan nos almacéns de datos.
Isto fai posible que moitos equipos accedan a todos os datos da empresa a través dun único sistema para unha variedade de iniciativas, como ciencia de datos, aprendizaxe automática e intelixencia empresarial.
Beneficios de Data Lakehouse
- Soporte para unha gama máis ampla de cargas de traballo: para facilitar análises sofisticadas, os data lakehouses ofrecen aos usuarios acceso directo a algunhas das ferramentas de intelixencia empresarial máis populares (Tableau, PowerBI). Ademais, os científicos de datos e os enxeñeiros de aprendizaxe automática poden usar facilmente os datos xa que as data lakehouses empregan formatos de datos abertos (como Parquet) xunto con API e marcos de aprendizaxe automática, como Python/R.
- Rentabilidade: as data lakehouses empregan solucións de almacenamento de obxectos baratas para implementar as características de almacenamento rendibles dos data lakes. Ao ofrecer unha única solución, as data lakehouses tamén eliminan os gastos e o tempo asociados coa xestión de varios sistemas de almacenamento de datos.
- O deseño da data lakehouse garante a integridade do esquema e dos datos, facilitando a creación de sistemas de goberno e seguridade de datos eficaces. Facilidade de versión de datos, goberno e seguridade.
- Data Lakehouses ofrece unha única plataforma de almacenamento de datos multiusos que pode acomodar todas as demandas de datos da empresa, o que reduce a duplicación de datos. A maioría das empresas elixen unha solución híbrida debido aos beneficios tanto do almacén de datos como do lago de datos. Esta estratexia, mentres tanto, podería producir unha custosa duplicación de datos.
- O soporte de formatos abertos. Os formatos abertos son tipos de ficheiros que poden ser utilizados por moitas aplicacións de software e cuxas especificacións están dispoñibles públicamente. Segundo os informes, Lakehouses son capaces de almacenar datos en formatos de ficheiros comúns como Apache Parquet e ORC (Optimized Row Columnar).
Limitacións de Data Lakehouse
O maior inconveniente dunha data lakehouse é que aínda é unha tecnoloxía nova e en desenvolvemento. Non está seguro se cumprirá os seus compromisos como resultado. Antes de que os data lakehouses poidan competir cos sistemas de almacenamento de grandes datos establecidos, poderían pasar anos.
Non obstante, dada a velocidade á que se produce a innovación moderna, é difícil dicir se un sistema de almacenamento de datos diferente non o substituirá finalmente.
Pros
- Unha plataforma ten todos os datos, o que significa que hai menos nomes de host que manter.
- A atomicidade, a consistencia, o illamento e a dureza non se ven afectados.
- É significativamente máis accesible.
- Unha plataforma ten todos os datos, o que significa que hai menos nomes de host que manter.
- Fácil de xestionar e rápido para solucionar calquera problema
- Facilita a construción dunha canalización
Contra
- A configuración pode levar algún tempo.
- É demasiado novo e moi lonxe para cualificar como un sistema de almacenamento establecido.
Data Warehouse Vs Data Lake Vs Data Lakehouse
O almacén de datos ten unha longa historia en aplicacións de intelixencia corporativa, informes e análises e é a primeira tecnoloxía de almacenamento de grandes datos.
Os almacéns de datos, por outra banda, son caros e teñen problemas para manexar datos diversos e non estruturados, como os datos de transmisión. Para as cargas de traballo de aprendizaxe automática e ciencia de datos, desenvolvéronse data lakes para xestionar datos en bruto en diversas formas nun almacenamento económico.
Aínda que os lagos de datos son efectivos con datos non estruturados, carecen das capacidades transaccionais ACID dos almacéns de datos, polo que é difícil garantir a coherencia e fiabilidade dos datos.
A arquitectura de almacenamento de datos máis recente, coñecida como "data lakehouse", combina a fiabilidade e consistencia dos data warehouses coa accesibilidade e adaptabilidade dos data lakes.
Conclusión
En conclusión, construír un lago de datos desde cero pode ser difícil. Ademais, case seguramente estarás usando unha plataforma deseñada para habilitar a arquitectura de data lakehouse aberta.
Polo tanto, teña coidado de investigar as moitas funcións e implementacións de cada plataforma antes de facer unha compra. As empresas que buscan unha solución de datos madura e estruturada con foco na intelixencia empresarial e os casos de uso de análise de datos poden considerar un almacén de datos.
Non obstante, as empresas que buscan unha solución de big data escalable e asequible para potenciar as cargas de traballo para a ciencia de datos e a aprendizaxe automática en datos non estruturados deberían considerar os lagos de datos.
Considere que a súa empresa necesita máis datos dos que o almacén de datos e as tecnoloxías do lago de datos poden proporcionar, ou que está a buscar unha solución para integrar analíticas sofisticadas e operacións de aprendizaxe automática nos seus datos. A Data Lakehouse é unha opción sensata na situación.
Deixe unha resposta