データプラットフォームについて考えるとき、利用可能なすべてのサービスとアーキテクチャオプションを検討するのは少し難しいかもしれません。
エンタープライズデータプラットフォームは、多くの場合、データウェアハウス、データモデル、データレイク、およびレポートで構成され、それぞれに特定の目的と必要なスキルのセットがあります。 対照的に、データレイクハウスと呼ばれる新しいデザインがここ数年で登場しました。
データレイクの多様性とデータウェアハウスのデータ管理は、「データレイクハウス」と呼ばれる革新的なデータストレージアーキテクチャに統合されています。
この投稿では、コンポーネント、機能、アーキテクチャ、その他の側面を含め、データレイクハウスについて詳しく調べます。
データレイクハウスとは何ですか?
名前が示すように、データレイクハウスは、データレイクとデータウェアハウスを組み合わせて、それぞれの欠点を個別に解決する新しいタイプのデータアーキテクチャです。
本質的に、レイクハウスシステムは、データレイクのように、安価なストレージを使用して大量のデータを元の形式で維持します。 ストアの上にメタデータレイヤーを追加すると、データ構造が提供され、データウェアハウスにあるようなデータ管理ツールが強化されます。
組織全体で使用されるさまざまなビジネスアプリケーション、システム、およびガジェットから取得する、組織化された、半構造化された、および構造化されていない大量のデータを格納します。
ほとんどの場合、データレイクは、ファイルアプリケーションプログラミングインターフェイス(API)を備えた低コストのストレージインフラストラクチャを使用して、オープンで汎用的なファイル形式でデータを保存します。
これにより、多くのチームが、データサイエンスなどのさまざまなイニシアチブのために、単一のシステムを介してすべての企業データにアクセスできるようになります。 機械学習、およびビジネスインテリジェンス。
特徴
- 低コストのストレージ。 データレイクハウスは、データを次のような安価なオブジェクトストレージに保存できる必要があります。 Googleクラウド ストレージ、Azure Blob Storage、Amazon Simple Storage Service、またはネイティブでORCまたはParquetを使用します。
- データ最適化の機能:データレイアウトの最適化、キャッシング、およびインデックス作成は、データレイクハウスがデータの元の形式を維持しながらデータを最適化できる必要がある方法のいくつかの例です。
- トランザクションメタデータのレイヤー:基本的な低コストのストレージに加えて、これにより、データウェアハウスのパフォーマンスに不可欠なデータ管理機能が可能になります。
- 宣言型DataFrameAPIのサポート:ほとんどのAIツールは、DataFrameを使用して生のオブジェクトストアデータを取得できます。 Declarative DataFrame APIのサポートにより、特定のデータサイエンスまたはAIタスクに応じてデータの表示と構造を動的に改善する機能が向上します。
- ACIDトランザクションのサポート:アトミック性、一貫性、分離、および耐久性を表す頭字語ACIDは、トランザクションを定義し、データの一貫性と信頼性を確保する上で重要なコンポーネントです。 このようなトランザクションは、以前はデータウェアハウスでのみ可能でしたが、 レイクハウスは、データレイクでそれらを利用するオプションを提供します 同じように。 同時データ読み取りと書き込みを含むいくつかのデータパイプラインを使用すると、後者のデータ品質が低いという問題が解決されます。
データレイクハウスの要素
データレイクハウスのアーキテクチャは、高レベルでXNUMXつの主要な層に分割されています。 ストレージレイヤーのデータ取り込みは、Lakehouseプラットフォーム(つまり、データレイク)によって制御されます。
データをデータウェアハウスにロードしたり、独自の形式に変換したりする必要なしに、処理レイヤーはさまざまなツールを使用してストレージレイヤーのデータを直接クエリできます。
次に、BIアプリ、AIおよびMLテクノロジーがデータを使用できます。 データレイクの経済性はこの設計によって提供されますが、どの処理エンジンでもこのデータを読み取ることができるため、企業は準備されたデータをさまざまなシステムで分析できるようにする自由があります。 この方法を処理と分析に使用することで、プロセッサーのパフォーマンスとコストの両方を向上させることができます。
次のACID(アトミック性、一貫性、分離、および耐久性)基準に準拠するデータベーストランザクションをサポートしているため、このアーキテクチャでは、多くの関係者がシステム内で同時にデータにアクセスして書き込むこともできます。
- 原子性 トランザクションの完了中に、トランザクション全体またはそのいずれも成功しないという事実を指します。 プロセスが中断された場合、これはデータの損失や破損を回避するのに役立ちます。
- 一貫性 トランザクションが予測可能で一貫した方法で発生することを保証します。 すべてのデータが所定のルールに従って正当であることを保証することにより、データの整合性を維持します。
- 分離 完了するまで、システム内の他のトランザクションがトランザクションに影響を与えないようにします。 これにより、多数の関係者が互いに干渉することなく、同じシステムから同時に読み取りと書き込みを行うことができます。
- 耐久性 システムに障害が発生した場合でも、トランザクションの終了後もシステム内のデータへの変更が引き続き存在することを保証します。 トランザクションによってもたらされた変更は、永久にファイルに保存されます。
データレイクハウスアーキテクチャ
Databricks(Delta Lakeコンセプトのイノベーターおよびデザイナー)とAWSは、データレイクハウスのコンセプトのXNUMXつの主要な支持者です。 したがって、私たちは彼らの知識と洞察に基づいて、レイクハウスの建築レイアウトを説明します。
データレイクハウスシステムには通常、次のXNUMXつのレイヤーがあります。
- 摂取層
- ストレージレイヤー
- メタデータレイヤー
- APIレイヤー
- 消費層
摂取層
システムの第XNUMX層は、さまざまなソースからデータを収集し、それをストレージ層に送信する役割を果たします。 レイヤーは、いくつかのプロトコルを利用して、バッチおよびストリーミングデータ処理機能の組み合わせなど、多数の内部および外部ソースに接続できます。
- NoSQLデータベース、
- ファイル共有
- CRMアプリケーション、
- ウェブサイト、
- IoTセンサー、
- ソーシャルメディア、
- Software as a Service(SaaS)アプリケーション、および
- リレーショナルデータベース管理システムなど。
この時点で、データストリーミング用のApache Kafkaや、RDBMSおよびNoSQLデータベースからデータをインポートするためのAmazon Data Migration Service(Amazon DMS)などのコンポーネントを使用できます。
ストレージレイヤー
レイクハウスアーキテクチャは、AWSS3などの安価なオブジェクトストアにオブジェクトとしてさまざまなタイプのデータを保存できるようにすることを目的としています。 クライアントツールは、オープンファイル形式を使用して、これらのアイテムをストアから直接読み取ることができます。
これにより、多くのAPIとコンシューマーレイヤーコンポーネントが同じデータにアクセスして利用できるようになります。 メタデータレイヤーには、構造化データセットと半構造化データセットのスキーマが格納されているため、コンポーネントはデータを読み取るときにそれらをデータに適用できます。
たとえば、Hadoop分散ファイルシステム(HDFS)プラットフォームを使用して、オンプレミスでコンピューティングとストレージを分割するクラウドリポジトリサービスを構築できます。 Lakehouseはこれらのサービスに最適です。
メタデータレイヤー
メタデータレイヤーは、この設計を区別するデータレイクハウスの基本的なコンポーネントです。 これは、湖に保管されているすべてのアイテムのメタデータ(他のデータピースに関する情報)を提供し、ユーザーが次のような管理機能を使用できるようにする単一のカタログです。
- データベースの一貫したバージョンは、ACIDトランザクションのおかげで同時トランザクションによって見られます。
- クラウドオブジェクトストアファイルを保存するためのキャッシュ。
- インデックスを使用してデータ構造インデックスを追加し、クエリ処理を高速化します。
- ゼロコピークローンを使用してデータオブジェクトを複製する。 と
- データの特定のバージョンなどを保存するには、データのバージョン管理を使用します。
さらに、メタデータレイヤーにより、スキーマ管理の実装、スター/スノーフレークスキーマなどのDWスキーマトポロジの使用、データレイクでのデータガバナンスと監査機能の直接提供が可能になり、データパイプライン全体の整合性が向上します。
スキーマの進化と実施のための機能は、スキーマ管理に含まれています。 テーブルのスキーマに適合しない書き込みを拒否することにより、スキーマの適用により、ユーザーはデータの整合性と品質を維持できます。
スキーマの進化により、テーブルの現在のスキーマを変更して、データの変更に対応できます。 データレイクの上にある単一の管理インターフェイスにより、アクセス制御と監査の可能性もあります。
APIレイヤー
アーキテクチャのもうXNUMXつの重要なレイヤーが存在し、すべてのエンドユーザーがジョブをより迅速に実行してより高度な統計を取得するために使用できる多数のAPIをホストしています。
メタデータAPIを使用すると、特定のアプリケーションに必要なデータ項目を簡単に識別してアクセスできます。
機械学習ライブラリに関しては、TensorFlowやSpark MLlibなどの一部は、Parquetなどのオープンファイル形式を読み取り、メタデータレイヤーに直接アクセスできます。
同時に、DataFrame APIは最適化の可能性を高め、プログラマーが分散データを整理および変更できるようにします。
消費層
Power BI、Tableau、およびその他のツールとアプリは、消費レイヤーの下でホストされます。 レイクハウスの設計により、湖に保持されているすべてのメタデータとすべてのデータにクライアントアプリからアクセスできます。
レイクハウスは、企業内のすべてのユーザーがあらゆる種類のパフォーマンスを実行するために使用できます 分析オペレーション、ビジネスインテリジェンスダッシュボードの作成、SQLクエリと機械学習タスクの実行を含みます。
データレイクハウスの利点
組織は、データレイクハウスを作成して、現在のデータプラットフォームを統合し、データ管理プロセス全体を最適化できます。 さまざまなソースを接続しているサイロバリアを解体することで、データレイクハウスは個別のソリューションの必要性を置き換えることができます。
厳選されたデータソースと比較して、この統合により、大幅に効果的なエンドツーエンドの手順が実現します。 これにはいくつかの利点があります。
- 少ない管理:生データからデータを抽出してデータウェアハウス内で使用できるように準備するのではなく、データレイクハウスを使用すると、それにリンクされているすべてのソースでデータを利用可能にし、利用できるように整理できます。
- 費用対効果の向上:データレイクハウスは、計算とストレージを分割する最新のインフラストラクチャを使用して構築されているため、計算能力を上げることなくストレージを簡単に拡張できます。 安価なデータストレージを使用するだけで、費用効果の高いスケーラビリティが得られます。
- より良いデータガバナンス:データレイクハウスは、標準化されたオープンアーキテクチャで構築されており、セキュリティ、メトリック、ロールベースのアクセス、およびその他の重要な管理コンポーネントをより詳細に制御できます。 リソースとデータソースを統合することで、ガバナンスを簡素化および強化します。
- 簡略化された標準:データウェアハウスが最初に開発された1980年代には接続が厳しく制限されていたため、ローカライズされたスキーマ標準が企業内、さらには部門内で頻繁に開発されました。 データレイクハウスは、手順を合理化するために重複する統一スキーマを持つ多数のデータソースを取り込むことにより、多くのタイプのデータがスキーマのオープンスタンダードを持っているという事実を利用しています。
データレイクハウスのデメリット
データレイクハウスを取り巻くすべてのフープラにもかかわらず、アイデアはまだ非常に新しいことを覚えておくことが重要です。 この新しい設計に完全に取り組む前に、必ず欠点を比較検討してください。
- モノリシック構造:レイクハウスの包括的な設計にはいくつかの利点がありますが、いくつかの問題も発生します。 モノリシックアーキテクチャは、多くの場合、すべてのユーザーのサービスを低下させ、堅固で保守が困難になる可能性があります。 通常、アーキテクトと設計者は、さまざまなユースケースに合わせてカスタマイズできる、よりモジュール化されたアーキテクチャを好みます。
- テクノロジーはまだ完全にはありません:最終的な目標には、かなりの量の機械学習と人工知能が必要です。 レイクハウスが想定どおりに機能する前に、これらのテクノロジーはさらに発展する必要があります。
- 既存の構造に比べて大きな進歩ではありません:レイクハウスが実際にどれだけ多くの価値をもたらすかについては、まだかなりの懐疑論があります。 一部の批判者は、適切な自動化された機器と組み合わせた湖の倉庫の設計が同等の効率を達成できると主張しています。
データレイクハウスの課題
データレイクハウス手法を採用するのは難しいかもしれません。 その構成要素の複雑さのために、データレイクハウスをすべてを網羅する理想的な構造または「すべてのためのXNUMXつのプラットフォーム」と見なすことは正しくありません。
さらに、データレイクの採用が増えるため、企業は現在のデータウェアハウスをデータレイクに移動する必要があり、実証可能な経済的利益はなく、成功の約束のみに依存します。
転送プロセス全体で遅延の問題や停止が発生した場合、これは費用と時間がかかり、おそらく安全ではなくなる可能性があります。
ソリューションをデータレイクハウスとして明示的または暗黙的に販売している特定のベンダーによると、ビジネスユーザーは高度に専門化されたテクノロジーを採用する必要があります。 これらは、システムの中心にあるデータレイクにリンクされている他のツールと常に連携するとは限らず、問題が増える可能性があります。
さらに、費用対効果の高いスケーラビリティを備えたインフラストラクチャを必要とするビジネスクリティカルなワークロードを実行している間は、24時間年中無休の分析を提供することが難しい場合があります。
まとめ
近年のデータセンターの最新の種類はデータレイクハウスです. 情報技術、オープンソース ソフトウェア、 クラウドコンピューティング、および分散ストレージ プロトコル。
これにより、企業はあらゆる場所からすべての種類のデータを一元的に保存できるため、管理と分析が簡素化されます。 DataLakehouseは非常に興味深い概念です。
データウェアハウスと同じくらい迅速かつ効率的でありながら、データレイクと同じくらい柔軟なオールインワンのデータプラットフォームにアクセスできれば、どの企業も大きな競争力を持つことになります。
アイデアはまだ発展途上であり、比較的新しいままです。 その結果、何かが広まる可能性があるかどうかを判断するのに時間がかかる可能性があります。
私たちは皆、レイクハウスの建築が向かっている方向について興味を持っているはずです。
コメントを残す