数据湖房结合了企业的数据仓库和数据湖概念。
这些工具使您可以通过将数据湖的管理功能与数据仓库中的数据架构相结合来构建具有成本效益的数据存储解决方案。
此外,数据迁移和冗余减少,管理时间减少,更短的模式和数据治理程序实际上成为现实。
与具有多种解决方案的存储系统相比,一个数据湖库具有许多优势。
数据科学家仍然使用这些工具来提高他们对商业智能和机器学习程序的理解。
本文将快速了解数据湖库、其功能和可用工具。
数据湖屋简介
一种称为“数据湖边小屋”将数据湖和数据仓库结合起来,分别解决各自的弱点。
湖屋系统和数据湖一样,使用低成本的存储来保持大量数据的原始形式。
在商店顶部添加元数据层还提供了数据结构,并支持类似于数据仓库中的数据管理工具。
它包含从整个企业使用的各种业务应用程序、系统和设备中获取的大量结构化、半结构化和非结构化数据。
因此,与数据湖不同,Lakehouse 系统可以管理和优化该数据以提高 SQL 性能。
它还能够以比数据仓库更便宜的成本存储和处理大量不同的数据。
当您需要对任何数据执行任何数据访问或分析但不确定数据或推荐的分析时,数据湖库会派上用场。
如果性能不是主要关注点,那么湖屋架构将运行良好。
这并不意味着您应该将整个结构建立在湖边小屋上。
可以找到有关如何为每个用例选择数据湖、Lakehouse、数据仓库或专用分析数据库的更多信息 此处.
数据湖屋的特点
- 并发数据读写
- 适应性和可扩展性
- 数据治理工具的模式辅助
- 并发数据读写
- 负担得起的存储
- 支持所有数据类型和文件格式。
- 访问经过优化的数据科学和机器学习工具
- 您的数据团队将受益于只需访问一个系统即可更快、更准确地通过它传输工作负载。
- 数据科学、机器学习和分析计划的实时功能
排名前 5 位的 Data Lakehouse 工具
Databricks
Databricks,由最先开发 Apache Spark 的人创立 开放源码,提供托管的 Apache Spark 服务,定位为数据湖平台。
Databricks Lakehouse 架构的数据湖、delta 湖和 delta 引擎组件支持商业智能、数据科学和机器学习用例。
数据湖是一个公共云存储库。
支持元数据管理、多结构化数据集的批处理和流数据处理、数据发现、安全访问控制和 SQL 分析。
Databricks 提供了人们可能期望在数据湖库平台中看到的大多数数据仓库功能。
Databricks 最近推出了其 Auto Loader,它可以自动执行 ETL 和数据输入,并利用数据采样来推断各种数据类型的架构,以交付数据湖存储策略的基本组件。
或者,用户可以使用 Delta Live Tables 在他们的公共云数据湖和 Delta Lake 之间构建 ETL 管道。
在纸面上,Databricks 似乎具有所有优势,但设置解决方案和创建其数据管道需要熟练开发人员的大量人力。
在规模上,答案也变得更加复杂。 它比看起来更复杂。
Ahana
数据湖是一个单一的中央位置,您可以在其中大规模存储您选择的任何类型的数据,包括非结构化和结构化数据。 AWS S3、Microsoft Azure 和 Google Cloud Storage 是三个常见的数据湖。
数据湖非常受欢迎,因为它们非常实惠且易于使用; 您基本上可以用很少的钱存储任意数量的任何类型的数据。
但数据湖不提供分析、查询等内置工具。
您需要一个位于数据湖(Ahana Cloud 所在)之上的查询引擎和数据目录来查询您的数据并使用它。
结合数据仓库和数据湖的优点,开发了一种新的数据湖库设计。
这表明它是透明的、适应性强的、具有良好的性价比、像数据湖一样的规模支持事务,并且具有可与数据仓库相媲美的高级别的安全性。
您的高性能 SQL 查询引擎是 Data Lakehouse 背后的大脑。 因此,您可以对数据湖数据执行高性能分析。
Ahana Cloud for Presto 是 AWS 上 Presto 的 SaaS,让开始在云中使用 Presto 变得异常简单。
对于基于 S3 的数据湖,Ahana 已经有一个内置的数据目录和缓存。 Ahana 为您提供 Presto 的功能,而无需您处理开销,因为它在内部完成。
AWS Lake Formation、Apache Hudi 和 Delta Lake 只是作为堆栈的一部分并与之集成的少数事务管理器。
德雷米奥
组织寻求快速、简单和有效地评估大量快速增长的数据。
Dremio 认为,开放的数据湖库在开放的基础上结合了数据湖和数据仓库的优势,是实现这一目标的最佳方法。
Dremio 的 Lakehouse 平台提供适合所有人的体验,其简单的 UI 允许用户在很短的时间内完成分析。
Dremio Cloud,一个完全托管的数据 Lakehouse 平台,并推出了两项新服务:Dremio Sonar,一个 Lakehouse 查询引擎,以及 Dremio Arctic,一个用于 Apache Iceberg 的智能大型存储,为 Lakehouse 提供独特的 Git 类体验。
组织的所有 SQL 工作负载都可以在无摩擦、可无限扩展的 Dremio 云平台上运行,该平台还可以自动执行数据管理任务。
它是为 SQL 构建的,提供类似 Git 的体验,是开源的,并且始终免费。
他们将其创建为数据团队喜欢的 Lakehouse 平台。
使用 Apache Iceberg 和 Apache Parquet 等开源表格和文件格式,您的数据在使用 Dremio Cloud 时会持久保存在您自己的数据湖存储中。
未来的创新可以很容易地被采用,并且可以根据您的工作量选择合适的引擎。
雪花
Snowflake 是一个云数据和分析平台,可以满足数据湖和仓库的需求。
它最初是一个建立在云基础设施上的数据仓库系统。
该平台由一个集中存储库组成,该存储库位于 AWS、Microsoft Azure 或 Google Cloud Platform (GCP) 的公共云存储之上。
接下来是多集群计算层,用户可以在其中启动虚拟数据仓库并对他们的数据存储进行 SQL 查询。
该架构允许分离存储和计算资源,允许组织根据需要独立扩展两者。
最后,Snowflake 提供了一个具有元数据分类、资源管理、数据治理、事务和其他功能的服务层。
BI 工具连接器、元数据管理、访问控制和 SQL 查询只是该平台擅长提供的数据仓库功能中的一小部分。
然而,Snowflake 仅限于单个基于 SQL 的关系查询引擎。
结果,它变得更易于管理但适应性较差,并且无法实现多模型数据湖的愿景。
此外,在搜索或分析来自云存储的数据之前,Snowflake 需要企业将其加载到集中存储层中。
手动数据流水线过程需要事先进行 ETL、配置和数据格式化,然后才能对其进行检查。 扩大这些手动流程会让他们感到沮丧。
另一个在纸面上看起来很合适但实际上偏离了简单数据输入的数据湖原则的选择是 Snowflake 的数据湖库。
神谕
被称为“数据湖库”的现代开放式架构使存储、理解和分析所有数据成为可能。
最受欢迎的开源数据湖解决方案的广度和灵活性与数据仓库的强度和深度相结合。
最新的 AI 框架和预构建的 AI 服务可与 Oracle 云基础设施 (OCI) 上的数据湖库一起使用。
在使用开源数据湖的同时处理其他类型的数据是可行的。 但是管理它所需的时间和精力可能是一个持续存在的缺点。
OCI 以更低的费率和更少的管理提供完全托管的开源 Lakehouse 服务,让您可以预期更低的运营费用、更好的可扩展性和安全性,以及将所有现有数据整合到一个位置的能力。
数据湖库将增加数据仓库和市场的价值,这对成功的企业至关重要。
只需一个 SQL 查询,就可以使用 Lakehouse 从多个位置检索数据。
现有程序和工具无需调整或获得新技能即可透明地访问所有数据。
结论
数据湖库解决方案的推出反映了大数据的一个更大趋势,即在统一的数据平台中集成分析和数据存储,以最大限度地提高数据的业务价值,同时降低价值提取的时间、成本和复杂性。
包括 Databricks、Snowflake、Ahana、Dremio 和 Oracle 在内的平台都与“数据湖库”的概念相关联,但它们每个都有一套独特的功能,并且往往更像数据仓库而不是真正的数据湖作为一个整体。
当解决方案被称为“数据湖库”时,企业应该警惕它的实际含义。
企业需要超越“数据湖库”之类的营销术语,而是着眼于每个平台的功能,以选择未来将随着业务扩展的最佳数据平台。
发表评论