數據湖房結合了企業的數據倉庫和數據湖概念。
這些工具使您可以通過將數據湖的管理功能與數據倉庫中的數據架構相結合來構建具有成本效益的數據存儲解決方案。
此外,數據遷移和冗餘減少,管理時間減少,更短的模式和數據治理程序實際上成為現實。
與具有多種解決方案的存儲系統相比,一個數據湖庫具有許多優勢。
數據科學家仍然使用這些工具來提高他們對商業智能和機器學習程序的理解。
本文將快速了解數據湖庫、其功能和可用工具。
數據湖屋簡介
一種稱為“數據湖邊小屋”將數據湖和數據倉庫結合起來,分別解決各自的弱點。
湖屋系統和數據湖一樣,使用低成本的存儲來保持大量數據的原始形式。
在商店頂部添加的元數據層還提供了數據結構,並支持類似於數據倉庫中的數據管理工具。
它包含從整個企業使用的各種業務應用程序、系統和設備中獲取的大量結構化、半結構化和非結構化數據。
因此,與數據湖不同,Lakehouse 系統可以管理和優化該數據以提高 SQL 性能。
它還能夠以比數據倉庫更便宜的成本存儲和處理大量不同的數據。
當您需要對任何數據執行任何數據訪問或分析但不確定數據或推薦的分析時,數據湖庫會派上用場。
如果性能不是主要關注點,那麼湖屋架構將運行良好。
這並不意味著您應該將整個結構建立在湖邊小屋上。
可以找到有關如何為每個用例選擇數據湖、Lakehouse、數據倉庫或專用分析數據庫的更多信息 点击這裡.
數據湖屋的特點
- 並發數據讀寫
- 適應性和可擴展性
- 數據治理工具的模式輔助
- 並發數據讀寫
- 負擔得起的存儲
- 支持所有數據類型和文件格式。
- 訪問經過優化的數據科學和機器學習工具
- 您的數據團隊將受益於只需訪問一個系統即可更快、更準確地通過它傳輸工作負載。
- 數據科學、機器學習和分析計劃的實時功能
排名前 5 位的 Data Lakehouse 工具
數據塊
Databricks,由最先開發 Apache Spark 的人創立 開源,提供託管的 Apache Spark 服務,定位為數據湖平台。
Databricks Lakehouse 架構的數據湖、delta 湖和 delta 引擎組件支持商業智能、數據科學和機器學習用例。
數據湖是一個公共雲存儲庫。
支持元數據管理、多結構化數據集的批處理和流數據處理、數據發現、安全訪問控制和 SQL 分析。
Databricks 提供了人們可能期望在數據湖庫平台中看到的大多數數據倉庫功能。
Databricks 最近推出了其 Auto Loader,它可以自動執行 ETL 和數據輸入,並利用數據採樣來推斷各種數據類型的架構,以交付數據湖存儲策略的基本組件。
或者,用戶可以使用 Delta Live Tables 在他們的公共雲數據湖和 Delta Lake 之間構建 ETL 管道。
在紙面上,Databricks 似乎具有所有優勢,但設置解決方案和創建其數據管道需要熟練開發人員的大量人力。
在規模上,答案也變得更加複雜。 它比看起來更複雜。
Ahana
數據湖是一個單一的中央位置,您可以在其中大規模存儲您選擇的任何類型的數據,包括非結構化和結構化數據。 AWS S3、Microsoft Azure 和 Google Cloud Storage 是三個常見的數據湖。
數據湖非常受歡迎,因為它們非常實惠且易於使用; 您基本上可以用很少的錢存儲任意數量的任何類型的數據。
但數據湖不提供分析、查詢等內置工具。
您需要一個位於數據湖(Ahana Cloud 所在)之上的查詢引擎和數據目錄來查詢您的數據並使用它。
結合數據倉庫和數據湖的優點,開發了一種新的數據湖庫設計。
這表明它是透明的、適應性強的、具有良好的性價比、像數據湖一樣的規模支持事務,並且具有可與數據倉庫相媲美的高級別的安全性。
您的高性能 SQL 查詢引擎是 Data Lakehouse 背後的大腦。 因此,您可以對數據湖數據執行高性能分析。
Ahana Cloud for Presto 是 AWS 上 Presto 的 SaaS,讓開始在雲中使用 Presto 變得異常簡單。
對於基於 S3 的數據湖,Ahana 已經有一個內置的數據目錄和緩存。 Ahana 為您提供 Presto 的功能,而無需您處理開銷,因為它在內部完成。
AWS Lake Formation、Apache Hudi 和 Delta Lake 只是作為堆棧的一部分並與之集成的少數事務管理器。
德雷米奧
組織尋求快速、簡單和有效地評估大量快速增長的數據。
Dremio 認為,開放的數據湖庫在開放的基礎上結合了數據湖和數據倉庫的優勢,是實現這一目標的最佳方法。
Dremio 的 Lakehouse 平台提供適合所有人的體驗,其簡單的 UI 允許用戶在很短的時間內完成分析。
Dremio Cloud,一個完全託管的數據 Lakehouse 平台,並推出了兩項新服務:Dremio Sonar,一個 Lakehouse 查詢引擎,以及 Dremio Arctic,一個用於 Apache Iceberg 的智能大型商店,為 Lakehouse 提供獨特的類似 Git 的體驗。
一個組織的所有 SQL 工作負載都可以在無摩擦、可無限擴展的 Dremio 雲平台上運行,該平台還可以自動執行數據管理任務。
它是為 SQL 構建的,提供類似 Git 的體驗,是開源的,並且始終免費。
他們將其創建為數據團隊喜歡的 Lakehouse 平台。
利用 Apache Iceberg 和 Apache Parquet 等開源表格和文件格式,您的數據在使用 Dremio Cloud 時會持久保存在您自己的數據湖存儲中。
未來的創新可以很容易地被採用,並且可以根據您的工作量選擇合適的引擎。
雪花
Snowflake 是一個雲數據和分析平台,可以滿足數據湖和倉庫的需求。
它最初是一個建立在雲基礎設施上的數據倉庫系統。
該平台由一個集中存儲庫組成,該存儲庫位於 AWS、Microsoft Azure 或谷歌云平台 (GCP) 的公共雲存儲之上。
接下來是多集群計算層,用戶可以在其中啟動虛擬數據倉庫並對他們的數據存儲進行 SQL 查詢。
該架構允許分離存儲和計算資源,允許組織根據需要獨立擴展兩者。
最後,Snowflake 提供了一個具有元數據分類、資源管理、數據治理、事務和其他功能的服務層。
BI 工具連接器、元數據管理、訪問控制和 SQL 查詢只是該平台擅長提供的數據倉庫功能中的一小部分。
然而,Snowflake 僅限於單個基於 SQL 的關係查詢引擎。
因此,它變得更易於管理但適應性較差,並且無法實現多模型數據湖的願景。
此外,在搜索或分析來自云存儲的數據之前,Snowflake 要求企業將其加載到集中存儲層中。
手動數據流水線過程需要事先進行 ETL、配置和數據格式化,然後才能對其進行檢查。 擴大這些手動流程會讓他們感到沮喪。
另一個在紙面上看起來很合適但實際上偏離了簡單數據輸入的數據湖原則的選擇是 Snowflake 的數據湖庫。
神諭
被稱為“數據湖庫”的現代開放式架構使存儲、理解和分析所有數據成為可能。
最受歡迎的開源數據湖解決方案的廣度和靈活性與數據倉庫的強度和深度相結合。
最新的 AI 框架和預構建的 AI 服務可與 Oracle 雲基礎設施 (OCI) 上的數據湖庫一起使用。
在使用開源數據湖的同時處理其他類型的數據是可行的。 但是管理它所需的時間和精力可能是一個持續存在的缺點。
OCI 以較低的費率和較少的管理提供完全託管的開源 Lakehouse 服務,使您能夠預期較低的運營費用、更好的可擴展性和安全性,以及將所有現有數據整合到一個位置的能力。
數據湖庫將增加數據倉庫和市場的價值,這對成功的企業至關重要。
只需一個 SQL 查詢,就可以使用 Lakehouse 從多個位置檢索數據。
現有程序和工具無需調整或獲得新技能即可透明地訪問所有數據。
結論
數據湖庫解決方案的引入反映了大數據的一個更大趨勢,即在統一的數據平台中集成分析和數據存儲,以最大限度地從數據中獲得商業價值,同時降低價值提取的時間、成本和復雜性。
包括 Databricks、Snowflake、Ahana、Dremio 和 Oracle 在內的平台都與“數據湖庫”的概念相關聯,但它們每個都有一套獨特的功能,並且傾向於更像數據倉庫而不是真正的數據湖作為一個整體。
當解決方案被稱為“數據湖庫”時,企業應該警惕它的實際含義。
企業需要超越“數據湖庫”之類的營銷術語,而是著眼於每個平台的功能,以選擇未來將隨著業務擴展的最佳數據平台。
發表評論