データは身の回りにあふれています。 本当の意味で、それはあなたのビジネスのあらゆる面に影響を与えます。 データをどのように処理するかについての決定に夢中になっていると、それがビジネスにどの程度役立っているかを詳しく調べる時間がないように感じるかもしれません。
これを観察してください。 あなたの組織は 24 日 XNUMX 時間データを使用しています。 そのため、その価値を理解するには、それがどこから来て、どのようにしてそこに到達し、会社内をどのように移動しているかを理解することが重要です。
この状況では、データ系統が重要になります。 データの起源、移行、変更を追跡できると、データがどのように形成され、どこから来て、どこへ行くのかを簡単に理解できます。
この投稿では、Data Lineage、その仕組み、ユースケース、テクニックなどを詳しく見ていきます。
データ系統とは?
データ系統は、一種のデジタル パスポートとして機能します。 これは、データ旅行の最も包括的な説明であり、出発地から最終的な目的地までのすべての停車地、迂回路、および変更を詳述しています。
I本質的に、データリネージは、多くのシステムとプラットフォームにわたるデータの起源、変更、および使用を表します。 これは、データがどのように生成され、どこから発生し、どのように利用されたかについての情報をユーザーに提供することで、探偵のツールとして機能します。 この情報により、ユーザーは潜在的な問題を認識して解決できます。
データリネージは、データに依存して業務を遂行している企業にとって貴重なリソースです。これにより、ユーザーは誰が、何を、いつ、どこで、などの重要な質問に答えることができるからです。
データ リネージとは、簡単に言えば、データの正確性、完全性、一貫性を保証すると同時に、データのフル パスを明確かつ簡潔に示す究極のデータ トレイルです。
データリネージはどのように機能しますか?
データ系統とは、データの一部を開始点から終了点までたどることを可能にするロード マップです。 データ ポイントを旅行者と見なし、そのパスポートをその機能をよりよく理解するためのデータ リネージュと見なします。
データ ソース、データ変換、データ ストレージ、およびデータ出力が、パスポートの XNUMX つの主要コンポーネントを構成します。
データの発生元である多くのシステム、アプリケーション、およびプラットフォームは、データの旅の開始点として機能するデータ ソースによって表されます。 データ変換はその後の段階であり、データ リネージはこれらのソースからソースへのデータの進行を表します。
データ変換とは、ユーザーのニーズを満たすためにデータを整形、変更、および操作することを指します。 データの移動中に休憩所として機能し、次の行程に備えます。
その後、データは最終的な場所に移動する前に保存されます。 クラウド サーバー、データベース、またはその他の種類のストレージ デバイスに保存できます。 データ系統は、データが保存されている場所と、データがどのように保護、バックアップ、および回復されたかを追跡します。
最後のステップはデータ出力です。これは、データが送信されて使用される場所です。 レポート、インフォグラフィック、またはその他の種類のデータ製品を使用して提示することができます。 データ系列は出力を追跡し、データの一貫性、正確性、および完全性を保証します。
データリネージは基本的に、データの旅の各段階 (開始から出力まで) を記録し、最後まで信頼性、一貫性、および正確性を維持することによって機能します。 データ リネージは、データの存在を完全に把握することで、組織が知識に基づいた決定を下し、問題を修正し、法的義務を順守するのに役立ちます。
データ資産と、それらがデータ パイプラインをどのように移動するかを理解するために、メタデータはデータ系列プロセスの重要な部分です。
メタデータを利用してデータ フローを視覚的に表現するデータ系統ツールを使用して、組織内でデータがどのように変換され、利用されているかを確認できます。 これにより、ユーザーはデータの可能性を評価して、より適切な情報に基づいた意思決定を行うことができます。
データ系列の種類
データ系統には、順方向データ系統、逆方向データ系統、および双方向データ系統の XNUMX つの基本形式があります。
転送データ系統
一方通行と同様に、順方向データ リネージでは、データの一部を開始点から終了点まで追跡します。 データソースから始まり、データがいくつかの変換とストレージシステムを通過して出力に到達するまでデータをたどります。
この種のデータ系統を持つことで、データの処理と変換、および途中で発生した可能性のある問題を理解することが容易になります。 すべてのステップは次のステップにつながります。 パンくずリストをたどるようなものです。
後方データ系統
逆方向のデータ系統は、データの出力をそのソースまでさかのぼって追跡する逆の航海に似ています。 このプロセスは、データの最終的な場所から始まり、データ ソースに到達するまで、さまざまなストレージおよび変換手法を逆方向に移動します。
データの元のソースの識別、その変換の理解、およびその正確性と完全性の検証はすべて、この種のデータ系列の助けを借りて可能です。 これは探偵のツールのように機能し、データのパスを逆方向にたどることができます。
双方向のデータ系統
双方向ストリート、双方向データ リネージは、順方向および逆方向のデータ リネージの利点を組み合わせたものです。 ソースから宛先まで、およびその場所から開始点までを追跡することにより、データのルートの包括的なビューを提供します。
データの元のソースを特定し、それがどのように変更されたかを理解し、途中でその品質、一貫性、および完全性を保証するには、データの系列を追跡することが役立ちます。 その位置とステータスに関するリアルタイムの情報により、データ用の GPS トラッカーを持っているようなものです。
データ系統の実装
組織にデータ系統を実装するには、多くの場合、次のフェーズが含まれます。
データ ソースを定義する
追跡したいデータを保持するシステムとデータベースをすべて特定する必要があります。 これを行うには、まず、ファイル、API、クラウド サービスなど、さまざまなデータ ソースを特定する必要があります。
メタデータを収集する
次の段階は、データの場所、形式、構成などの詳細を取得することです。 このメタデータによって、データの特徴や活用方法を理解することが可能になります。
データの欠陥を特定する
ルートに沿って行われる変換や処理を含め、ソースから宛先へのデータの流れがマッピングされている場合、組織内でデータがどのように更新され、使用されるかを理解しやすくなります。
データアクセスの追跡
データのセキュリティとコンプライアンスを維持するために、誰がデータにアクセスしたかを追跡および記録します。
リネージュの保存と視覚化
視覚化ツールを利用して系統を提示し、簡単に理解して分析できるようにします。 収集したメタデータとデータ フロー情報を XNUMX つのリポジトリに格納します。
自動化されたソリューションを実装する
自動化によってデータ系統が収集および監視されていることを確認できます。これは、間違いを減らし、生産性を高めるのにも役立ちます。
レビューと更新
血統の記録が正しく最新であることを定期的に確認し、必要に応じて更新します。
実装プロセスは、各組織の固有の要件と制限に応じて、フェーズに変更または追加する必要がある場合があります。
データリネージのテクニック
パターンベースの系統
この方法では、データを生成または変換したプログラミングとやり取りする必要なく、リネージが実行されます。 テーブル、列、およびビジネス レポートのメタデータ評価はすべてその一部です。 このメタデータを使用して傾向を探すことで系統を探索します。
たとえば、同じ名前で同じデータ値を持つ XNUMX つのデータセット内の列は、その存在の異なる段階で同じデータを表す可能性が非常に高くなります。 次に、データ系統図を使用して、これら XNUMX つの列を接続します。
パターンベースの系統には、データ処理方法ではなくデータをチェックするだけなので、テクノロジーに依存しないという大きな利点があります。 Oracle、MySQL、Spark など、どのデータベース テクノロジでも同じ方法で実装できます。 欠点は、このアプローチが常に正確であるとは限らないことです。
データ処理ロジックがコンピューター コードに隠され、人間が読み取れるメタデータですぐに明らかにならない場合、データセット間の関係を見落とすことがあります。
データのタグ付けによる系統
この方法は、変換エンジンがデータにタグ付けまたはその他の方法でマーカーを付けるという概念に基づいています。 系統を見つけるために、タグを最初から最後までトレースします。 このアプローチは、すべてのデータ転送を管理する信頼できる変換ツールがあり、ツールが採用するタグ付け構造に精通している場合にのみ成功します。
そのようなツールが存在したとしても、それなしで作成または変更されたデータは、データのタグ付けによって系統化されることはありません。 これは、クローズド データ システムでのデータ リネージの実行に限定されます。
自己完結型の系統
一部の企業には、メタデータ ストレージ、処理ロジック、およびマスター データ管理 (MDM) を含むデータ環境があります。 これらの設定には、多くの場合、 データレイク すべてのデータは、その寿命全体にわたって保持されます。
リネージは、追加のリソースを必要とせずに、この種の自己完結型システムによって自然に提供されます。 ただし、データのタグ付け方法と同様に、リネージはこの規制された環境の外で発生したことを認識しません。
解析によるデータ系統
最も洗練された系統は、データ処理ロジックを自動的に読み取る系統です。 徹底したエンド ツー エンドのトレースのために、このメソッドはデータ変換ロジックをリバース エンジニアリングします。
このソリューションは、 プログラミング言語 およびデータの変換と転送に使用されるツールは、展開が複雑です。 これには、抽出-変換-ロード (ETL) ロジック、SQL ベースおよび Java ベースのソリューション、古いデータ形式、XML ベースのソリューション、およびその他の手法が使用される場合があります。
データリネージのユースケース
データモデリング
企業は、企業内の多くのデータ項目とそれらの間の接続を視覚化するために、それらをサポートする基礎となるデータ構造を確立する必要があります。 これらの接続はデータ系統を使用してモデル化されており、データ エコシステムに存在する多くの依存関係も示しています。
データは時間とともに変化するため、新しいデータ ソースが絶えず出現し、新しいデータ統合などが必要になります。このため、企業のデータを管理するための一般的なデータ モデルも同様に、環境を反映するように変更する必要があります。
コンプライアンス
データ リネージュは、監査、リスク管理の強化、およびデータ ガバナンスのポリシーと法律に従ってデータが確実に保持および処理されるようにするためのコンプライアンス方法を提供します。
影響分析
ダウンストリーム レポートなど、特定のビジネス変更の影響は、データ系統ツールを使用して確認できます。 たとえば、データ系統は、名前の変更が影響を与えるダッシュボードの数と、その結果、そのレポートにアクセスする人の数を決定する際に幹部を支援する可能性があります.
データ移行
組織は、新しいストレージ システムに移行したり、新しいソフトウェアを実装したりする前に、データがどこにあり、どのくらいの期間そこにあったかを把握するためにデータ移行を採用しています。
データリネージは、データが組織全体でどのように移動したかの概要をチームに提供することで、チームがシステムのアップグレードや移行に備えるのに役立ちます。 これにより、新しいストレージ環境への転送が全体的に高速化されます。
さらに、古いデータや不要なデータをアーカイブまたは削除することで、チームはデータ システムを整理することができます。 そうすることで、データ システムの全体的なパフォーマンスが向上し、データの管理が少なくて済みます。
データ系統の実装の課題
- データ セキュリティ: データ リネージを構築する際の主要な懸念事項は、データ セキュリティです。 出発点から最終目的地までのデータ ジャーニーをたどるには、機密データへのアクセスを許可し、このデータを不正アクセスや侵害から保護する必要があります。
- 標準化の欠如: データ リネージの採用に対する主な障壁の XNUMX つは、標準の欠如です。 多くのプラットフォーム、アプリ、およびシステムは、データの来歴を追跡および記録するために独自の方法を採用しているため、データ ジャーニーの全体像をまとめるのが難しい場合があります。
- データ サイロ: データ サイロは、データ系列の実装中に発生するもう XNUMX つの問題です。 データが複数のアプリケーションやシステムに分散している場合、あるデータから別のデータへの移動を追跡するのは困難な場合があります。 これにより、データ系列が不正確または不完全になる可能性があります。
まとめ
結論として、データリネージは、すべてのデータ駆動型企業にとって不可欠な要素です。 開始点から終了点までのデータ パスの包括的な視点を提供し、データの正確性、完全性、および一貫性を保証します。
将来のデータリネージの自動化と標準化は増加し、組織の実装と保守が容易になると予想されます。 最後に、データ系統の重要性を強調することはできません。
企業が賢明な選択を行い、より効率的に業務を遂行し、成功を収めるために必要なツールを提供します。
コメントを残す