數據無處不在。 實際上,它會影響您業務的方方面面。 當您全神貫注於決定如何處理您的數據時,您可能會覺得沒有足夠的時間來檢查它為您的業務服務的具體情況。
觀察這一點。 您的組織每天 24 小時都在使用數據。 因此,了解它從何而來、如何到達那里以及它如何在公司中流動對於理解它的價值至關重要。
在這種情況下,數據沿襲變得很重要。 當我們可以跟踪數據的起源、遷移和變化時,就更容易理解數據是如何形成的、數據從哪裡來以及去向哪裡。
在這篇文章中,我們將仔細研究數據沿襲、它的工作原理、它的用例、技術等等。
什麼是數據沿襲?
數據沿襲是一種數字護照。 它是對數據旅行最全面的描述,詳細說明了從起點到最終目的地的所有停靠點、繞行和修改。
I從本質上講,數據沿襲描述了一條數據在許多系統和平台上的起源、修改和使用。 它通過向用戶提供有關數據是如何產生的、數據來自何處以及如何使用的信息,充當偵探的工具。 此信息使用戶能夠識別並解決任何潛在問題。
對於依賴數據運行業務的公司而言,數據沿襲是一種無價的資源,因為它允許用戶回答關鍵問題,例如誰、什麼、何時和何地。
簡而言之,數據沿襲是保證數據準確性、完整性和一致性同時提供數據完整路徑的清晰簡潔視角的最終數據路徑。
數據沿襲如何工作?
數據沿襲是使我們能夠跟踪一段數據從起點到終點的路線圖。 將數據點視為旅行者,將其護照視為其數據沿襲,以更好地了解其功能。
數據來源、數據轉換、數據存儲和數據輸出構成護照的四個主要組成部分。
數據來源的許多系統、應用程序和平台都由數據源表示,它們充當數據旅程的起點。 數據轉換是後續階段,數據沿襲繪製數據從這些來源到它的進展圖。
數據轉換是指塑造、修改和操縱數據以滿足用戶需求。 它在數據傳輸過程中起到休息站的作用,為下一站做好準備。
然後在到達其最終位置之前存儲數據。 它可以保存在雲服務器、數據庫或其他某種存儲設備上。 數據沿襲跟踪數據的存儲位置,以及數據的保護、備份和恢復方式。
最後一步是數據輸出,這是數據發送到使用的地方。 可以使用報告、信息圖表或任何其他類型的數據產品來呈現它。 數據沿襲跟踪輸出並保證數據的一致性、準確性和完整性。
數據沿襲的工作原理基本上是記錄數據旅程的每個階段,從開始到輸出,並確保它始終保持可靠、一致和正確。 數據沿襲通過全面了解數據的存在情況,幫助組織做出明智的決策、解決問題並遵守法律義務。
為了了解數據資產以及它們如何在數據管道中移動,元數據是數據沿襲過程的關鍵部分。
您可以使用數據沿襲工具查看數據如何在組織內轉換和利用,這些工具利用元數據提供數據流的可視化描述。 這使用戶能夠評估數據的潛力,幫助他們做出更明智的決策。
數據沿襲的類型
數據沿襲有三種基本形式:正向數據沿襲、反向數據沿襲和雙向數據沿襲。
轉發數據沿襲
與單行道一樣,前向數據沿襲涉及從起點到終點跟踪一段數據。 從數據源開始,它跟隨數據通過多個轉換和存儲系統以達到其輸出。
擁有此類數據沿襲有助於理解數據的處理和轉換以及在此過程中可能出現的任何問題。 每一步都通向下一步; 這就像跟隨麵包屑的踪跡。
反向數據沿襲
反向數據沿襲類似於逆向航行,我們將數據的輸出追溯到其來源。 該過程從數據的最終位置開始,通過各種存儲和轉換技術向後移動,直到到達數據源。
借助這種數據血緣,可以識別數據的原始來源、理解數據的轉換、驗證數據的正確性和完整性。 它就像偵探的工具一樣工作,讓我們能夠追溯數據的路徑。
雙向數據沿襲
雙向街道、雙向數據沿襲結合了前向和反向數據沿襲的優點。 它通過從源到目的地以及從該位置到起點跟踪數據,提供數據路徑的全面視圖。
為了確定數據的原始來源,理解數據是如何被改變的,並保證其質量、一致性和完整性,跟踪數據的沿襲是很有幫助的。 有了關於其位置和狀態的實時信息,就好像擁有一個用於數據的 GPS 跟踪器。
數據沿襲的實施
在組織中實施數據沿襲通常涉及以下階段。
定義數據源
保存您希望跟踪的數據的系統和數據庫都應該被識別。 為此,您必須首先確定各種數據源,包括文件、API 和雲服務。
收集元數據
下一階段是獲取有關數據的詳細信息,包括其位置、格式和組織。 此元數據使了解數據的特徵及其使用方式成為可能。
識別數據缺陷
如果將數據流從源映射到目的地,包括沿途發生的任何轉換或處理,則更容易理解數據如何在組織內更新和使用。
跟踪數據訪問
為了維護數據安全性和合規性,跟踪和記錄誰訪問了數據。
存儲和可視化譜系
利用可視化工具呈現譜系,以便於簡單理解和分析。 將收集的元數據和數據流信息存儲在單個存儲庫中。
實施自動化解決方案
您可以驗證正在通過自動化收集和監控數據沿襲,這也將有助於減少錯誤並提高生產力。
審查和更新
確保譜系記錄正確且定期更新,並根據需要進行更新。
根據每個組織的獨特要求和限制,實施過程可能需要修改或添加到各個階段。
數據沿襲技術
基於模式的譜系
使用此方法,無需與生成或轉換數據的程序進行交互即可執行沿襲。 表格、列和業務報告的元數據評估都是其中的一部分。 它通過使用此元數據尋找趨勢來探索血統。
例如,兩個數據集中具有相同名稱和相同數據值的列很可能代表處於不同存在階段的相同數據。 然後使用數據沿襲圖表連接這兩列。
基於模式的譜系具有獨立於技術的顯著優勢,因為它只檢查數據,而不是數據處理方法。 任何數據庫技術,包括Oracle、MySQL、Spark,都可以用同樣的方式實現。 缺點是這種方法並不總是精確的。
當數據處理邏輯隱藏在計算機代碼中並且在人類可讀的元數據中不那麼明顯時,它有時會忽略數據集之間的關係。
數據標記的沿襲
此方法基於轉換引擎標記或以其他方式標記數據的概念。 它從頭到尾跟踪標籤以找到譜系。 只有當您擁有管理所有數據傳輸的可靠轉換工具並且您熟悉該工具使用的標記結構時,這種方法才能成功。
即使存在這樣的工具,沒有它創建或更改的任何數據都不能通過數據標記進行沿襲。 它在這方面僅限於在封閉的數據系統上執行數據沿襲。
獨立的血統
一些企業擁有包含元數據存儲、處理邏輯和主數據管理 (MDM) 的數據環境。 這些設置通常包括 數據湖 所有數據都保存在其整個生命週期中。
這種自包含的系統可以自然地提供血統,而不需要額外的資源。 然而,就像數據標記方法一樣,譜係不會知道在這個受監管的環境之外發生的任何事情。
通過解析的數據沿襲
最複雜的沿襲類型是自動讀取數據處理邏輯的沿襲。 為了進行徹底的端到端跟踪,此方法對數據轉換邏輯進行逆向工程。
因為這個解決方案必須包含所有的 編程語言 和用於轉換和傳輸數據的工具,其部署是複雜的。 這可能會使用提取-轉換-加載 (ETL) 邏輯、基於 SQL 和 Java 的解決方案、舊數據格式、基於 XML 的解決方案和其他技術。
數據沿襲用例
數據建模
公司必須建立支持它們的底層數據結構,以便可視化公司內部的許多數據項以及它們之間的聯繫。 這些連接是使用數據沿襲建模的,這也顯示了數據生態系統中存在的許多依賴關係。
由於數據隨時間變化,新的數據源不斷出現,需要新的數據集成等。因此,公司用於管理其數據的通用數據模型必須同樣改變以反映環境。
相容性測試
數據沿襲提供了一種合規性方法,用於審計、加強風險管理,並確保根據數據治理政策和法律保存和處理數據。
影響分析
可以使用數據沿襲工具查看某些業務更改(例如任何下游報告)的影響。 例如,數據沿襲可能有助於高管確定名稱更改會影響多少儀表板,從而確定有多少人訪問該報告。
數據遷移
組織採用數據遷移來了解數據所在的位置以及在將數據轉移到新存儲系統或實施新軟件之前數據已經存在了多長時間。
數據沿襲讓團隊了解數據在整個組織中的移動方式,從而幫助團隊為系統升級或遷移做好準備。 這加快了向新存儲環境的整體傳輸速度。
此外,它還讓團隊有機會通過歸檔或消除過時或無用的數據來整理數據系統。 通過這樣做,數據系統將整體表現更好,並且需要更少的數據管理。
實施數據沿襲的挑戰
- 數據安全:數據安全是構建數據沿襲時的主要關注點。 要遵循從起點到最終目的地的數據旅程,必須授予對敏感數據的訪問權限,並且必須保護這些數據免遭未經授權的訪問和破壞。
- 缺乏標準化:採用數據沿襲的主要障礙之一是缺乏標準。 由於許多平台、應用程序和系統都採用獨特的方法來跟踪和記錄數據來源,因此很難拼湊出一幅完整的數據旅程圖。
- 數據孤島:數據孤島是實施數據沿襲時出現的另一個問題。 當數據分佈在多個應用程序和系統中時,跟踪其從一個應用程序和系統到另一個應用程序和系統的旅程可能具有挑戰性。 這可能會導致不准確或不完整的數據沿襲。
結論
總之,數據沿襲是每個數據驅動型企業的重要組成部分。 它提供了數據從起點到終點的路徑的全面視角,保證了數據的準確性、完整性和一致性。
未來的數據沿襲自動化和標準化預計會增加,從而使組織的實施和維護更加容易。 最後,數據沿襲的重要性怎麼強調都不過分。
它為公司提供了做出明智選擇、更高效地運營並取得成功所需的工具。
發表評論