데이터는 어디에나 있습니다. 실제로 비즈니스의 모든 측면에 영향을 미칩니다. 데이터를 처리하는 방법에 대한 결정에 몰두할 때 비즈니스에 얼마나 잘 기여하고 있는지에 대한 세부 사항을 검토할 시간이 충분하지 않다고 느낄 수 있습니다.
이것을 관찰하십시오. 귀하의 조직은 하루 24시간 데이터를 사용하고 있습니다. 따라서 그것이 어디에서 왔는지, 어떻게 거기에 도달했는지, 회사를 통해 어떻게 이동하는지 이해하는 것이 그 가치를 이해하는 데 중요합니다.
이 상황에서는 데이터 계보가 중요해집니다. 데이터의 출처, 이동 및 변경 사항을 추적할 수 있으면 데이터가 어떻게 형성되고 어디에서 왔으며 어디로 가는지 이해하기가 더 쉽습니다.
이 게시물에서는 Data Lineage, 작동 방식, 사용 사례, 기술 등에 대해 자세히 살펴보겠습니다.
데이터 계보란 무엇입니까?
데이터 계보는 일종의 디지털 여권 역할을 합니다. 출발지에서 최종 목적지까지의 정류장, 우회 및 수정을 모두 자세히 설명하는 데이터 여행에 대한 가장 포괄적인 설명입니다.
I본질적으로 데이터 계보는 많은 시스템과 플랫폼에서 데이터의 출처, 수정 및 사용을 설명합니다. 데이터가 생성된 방법, 데이터가 생성된 위치 및 활용 방법에 대한 정보를 사용자에게 제공하여 탐정 도구 역할을 합니다. 이 정보를 통해 사용자는 잠재적인 문제를 인식하고 해결할 수 있습니다.
데이터 계보는 사용자가 누가, 무엇을, 언제, 어디서와 같은 중요한 질문에 응답할 수 있기 때문에 운영을 실행하기 위해 데이터에 의존하는 기업에게 귀중한 리소스입니다.
데이터 계보는 간단히 말해서 데이터의 전체 경로에 대한 명확하고 간결한 관점을 제공하면서 데이터 정확성, 완전성 및 일관성을 보장하는 궁극적인 데이터 추적입니다.
데이터 계보는 어떻게 작동합니까?
데이터 계보는 시작점에서 끝점까지 데이터 조각을 따라갈 수 있게 해주는 로드맵입니다. 여행자로서 데이터 포인트를 고려하고 그것이 어떻게 작동하는지 더 잘 이해할 수 있도록 여권을 데이터 계보로 간주하십시오.
데이터 소스, 데이터 변환, 데이터 저장 및 데이터 출력은 여권의 네 가지 주요 구성 요소를 구성합니다.
데이터가 생성되는 많은 시스템, 애플리케이션 및 플랫폼은 데이터 여정의 시작점 역할을 하는 데이터 소스로 표시됩니다. 데이터 변환은 후속 단계이며 데이터 계보 차트는 이러한 소스에서 해당 소스로의 데이터 진행을 차트로 표시합니다.
데이터 변환은 사용자 요구를 충족시키기 위해 데이터를 형성, 수정 및 조작하는 것을 말합니다. 데이터 이동 중 휴게소 역할을 하여 다음 구간을 준비합니다.
그런 다음 데이터는 최종 위치로 이동하기 전에 저장됩니다. 클라우드 서버, 데이터베이스 또는 다른 종류의 저장 장치에 보관할 수 있습니다. 데이터 계보는 데이터가 저장되는 위치와 데이터가 보호, 백업 및 복구되는 방법을 추적합니다.
마지막 단계는 데이터를 사용하기 위해 보내는 데이터 출력입니다. 보고서, 인포그래픽 또는 기타 유형의 데이터 제품을 사용하여 표시할 수 있습니다. 데이터 계보는 출력을 추적하고 데이터의 일관성, 정확성 및 완전성을 보장합니다.
데이터 계보는 기본적으로 시작부터 출력까지 데이터 여정의 각 단계를 기록하고 데이터가 끝까지 안정적이고 일관되며 올바른지 확인하는 방식으로 작동합니다. 데이터 계보는 조직이 정보에 입각한 결정을 내리고 문제를 해결하며 데이터 존재에 대한 전체 보기를 제공하여 법적 의무를 준수하도록 도와줍니다.
데이터 자산과 데이터 파이프라인을 통해 이동하는 방식을 이해하기 위해 메타데이터는 데이터 계보 프로세스의 중요한 부분입니다.
메타데이터를 활용하여 데이터 흐름을 시각적으로 설명하는 데이터 계보 도구를 사용하여 조직 내에서 데이터가 어떻게 변환되고 활용되는지 확인할 수 있습니다. 이를 통해 사용자는 더 나은 정보에 입각한 결정을 내리는 데 도움이 되는 데이터의 잠재력을 평가할 수 있습니다.
데이터 계보 유형
데이터 계보에는 정방향 데이터 계보, 역방향 데이터 계보 및 양방향 데이터 계보의 세 가지 기본 형식이 있습니다.
전방 데이터 계보
일방통행과 마찬가지로 순방향 데이터 계보에는 시작점에서 끝점까지 데이터 조각을 추적하는 것이 포함됩니다. 데이터 소스에서 시작하여 출력에 도달하기 위해 여러 변환 및 스토리지 시스템을 통과할 때 데이터를 따릅니다.
이러한 종류의 데이터 계보를 통해 데이터의 처리 및 변환뿐만 아니라 그 과정에서 발생할 수 있는 모든 문제를 이해하는 것이 용이해집니다. 모든 단계는 다음 단계로 이어집니다. 빵 부스러기의 흔적을 따라가는 것과 같습니다.
역방향 데이터 계보
역방향 데이터 계보는 데이터의 출력을 소스로 역추적하는 역방향 항해와 유사합니다. 프로세스는 데이터의 최종 위치에서 시작하여 데이터 원본에 도달할 때까지 다양한 저장 및 변환 기술을 통해 뒤로 이동합니다.
이러한 종류의 데이터 계보 덕분에 데이터의 원본 소스 식별, 변환 이해, 정확성 및 완전성 검증이 모두 가능합니다. 탐정의 도구처럼 작동하여 데이터의 역방향 경로를 따라갈 수 있습니다.
양방향 데이터 계보
양방향 거리, 양방향 데이터 계보는 정방향 및 역방향 데이터 계보의 장점을 결합합니다. 소스에서 목적지까지, 그리고 해당 위치에서 시작점까지 데이터를 추적하여 데이터 경로에 대한 포괄적인 보기를 제공합니다.
데이터의 원래 소스를 확인하고 데이터가 어떻게 변경되었는지 이해하고 품질, 일관성 및 완전성을 보장하기 위해 데이터의 계보를 추적하는 것이 도움이 됩니다. 위치 및 상태에 대한 실시간 정보를 통해 데이터용 GPS 추적기를 갖는 것과 같습니다.
데이터 계보 구현
조직에서 데이터 계보를 구현하는 데는 다음 단계가 포함되는 경우가 많습니다.
데이터 소스 정의
추적하려는 데이터를 보유하고 있는 시스템과 데이터베이스를 모두 식별해야 합니다. 이렇게 하려면 먼저 파일, API 및 클라우드 서비스를 비롯한 다양한 데이터 소스를 식별해야 합니다.
메타데이터 수집
다음 단계는 위치, 형식 및 조직을 포함하여 데이터에 대한 세부 정보를 얻는 것입니다. 이 메타데이터를 통해 데이터의 특징과 활용 방법을 이해할 수 있습니다.
데이터 결함 식별
경로를 따라 발생하는 변환 또는 처리를 포함하여 데이터 흐름이 소스에서 대상으로 매핑되는 경우 조직 내에서 데이터가 업데이트되고 사용되는 방식을 이해하는 것이 더 간단합니다.
데이터 액세스 추적
데이터 보안 및 규정 준수를 유지하려면 데이터에 액세스하는 사람을 추적하고 기록합니다.
계보 저장 및 시각화
시각화 도구를 활용하여 간단한 이해와 분석을 위한 계보를 제시합니다. 수집된 메타데이터 및 데이터 흐름 정보를 단일 리포지토리에 저장합니다.
자동화 솔루션 구현
자동화를 통해 데이터 계보가 수집되고 모니터링되고 있는지 확인할 수 있으며 이는 실수를 줄이고 생산성을 높이는 데에도 도움이 됩니다.
검토 및 업데이트
혈통 기록이 정확하고 최신인지 정기적으로 확인하고 적절하게 업데이트합니다.
각 조직의 고유한 요구 사항 및 제한 사항에 따라 구현 프로세스를 단계에 수정하거나 추가해야 할 수 있습니다.
데이터 계보 기술
패턴 기반 계보
이 방법을 사용하면 데이터를 생성하거나 변환한 프로그래밍과 상호 작용할 필요 없이 계보가 수행됩니다. 테이블, 열 및 비즈니스 보고서에 대한 메타데이터 평가는 모두 그 일부입니다. 이 메타데이터를 사용하여 추세를 찾아 계보를 탐색합니다.
예를 들어, 동일한 이름과 동일한 데이터 값을 가진 두 데이터 세트의 열이 서로 다른 존재 단계에서 동일한 데이터를 나타낼 가능성이 높습니다. 그런 다음 데이터 계보 차트를 사용하여 이 두 열을 연결합니다.
패턴 기반 계보는 데이터 처리 방법이 아닌 데이터만 확인하기 때문에 기술 독립이라는 상당한 이점이 있습니다. Oracle, MySQL, Spark를 포함한 모든 데이터베이스 기술은 동일한 방식으로 구현할 수 있습니다. 단점은 이 접근 방식이 항상 정확하지 않다는 것입니다.
데이터 처리 논리가 컴퓨터 코드에 숨겨져 있고 사람이 읽을 수 있는 메타데이터에서 쉽게 명확하지 않은 경우 때때로 데이터 집합 간의 관계를 간과할 수 있습니다.
데이터 태깅에 의한 계보
이 방법은 변환 엔진이 데이터에 태그를 지정하거나 다른 방법으로 표시한다는 개념을 기반으로 합니다. 계보를 찾기 위해 태그를 처음부터 끝까지 추적합니다. 이 접근 방식은 모든 데이터 전송을 관리하는 신뢰할 수 있는 변환 도구가 있고 도구가 사용하는 태깅 구조에 익숙한 경우에만 성공할 수 있습니다.
그러한 도구가 존재하더라도 도구 없이 생성되거나 변경된 데이터는 데이터 태깅을 통해 계보될 수 없습니다. 이와 관련하여 폐쇄형 데이터 시스템에서 데이터 계보를 수행하는 것으로 제한됩니다.
독립된 혈통
일부 비즈니스에는 메타데이터 저장소, 처리 논리 및 마스터 데이터 관리(MDM)가 포함된 데이터 환경이 있습니다. 이러한 설정에는 다음이 포함되는 경우가 많습니다. 데이터 레이크 모든 데이터는 전체 수명 동안 유지됩니다.
이러한 자급자족적인 시스템을 통해 별도의 리소스 없이도 자연스럽게 리니지가 제공될 수 있습니다. 그러나 데이터 태깅 방법과 마찬가지로 계보는 이 규제된 환경 외부에서 발생하는 어떤 것도 인식하지 못합니다.
구문 분석을 통한 데이터 계보
가장 정교한 계보 유형은 데이터 처리 논리를 자동으로 읽는 계보입니다. 철저한 종단 간 추적을 위해 이 방법은 데이터 변환 논리를 리버스 엔지니어링합니다.
이 솔루션은 모든 프로그래밍 언어 데이터를 변환하고 전송하는 데 사용되는 도구로 인해 배포가 복잡합니다. 여기에는 ETL(추출-변환-로드) 논리, SQL 및 Java 기반 솔루션, 이전 데이터 형식, XML 기반 솔루션 및 기타 기술이 사용될 수 있습니다.
데이터 연계 사용 사례
데이터 모델링
회사는 회사 내에서 많은 데이터 항목과 이들 사이의 연결을 시각화하기 위해 이를 지원하는 기본 데이터 구조를 설정해야 합니다. 이러한 연결은 데이터 계보를 사용하여 모델링되며 데이터 생태계에 존재하는 많은 종속성을 보여줍니다.
데이터는 시간이 지남에 따라 변화하기 때문에 새로운 데이터 소스가 지속적으로 나타나며 새로운 데이터 통합 등이 필요합니다. 이 때문에 기업의 데이터 관리를 위한 일반 데이터 모델도 환경을 반영하여 변경되어야 합니다.
컴플라이언스
데이터 계보는 감사를 위한 규정 준수 방법을 제공하고 위험 관리를 강화하며 데이터 거버넌스 정책 및 법률에 따라 데이터를 유지 및 처리합니다.
영향 분석
다운스트림 보고와 같은 특정 비즈니스 변경의 영향은 데이터 계보 도구를 사용하여 볼 수 있습니다. 예를 들어, 데이터 계보는 경영진이 이름 변경이 영향을 미칠 대시보드 수와 결과적으로 해당 보고서에 액세스하는 사람 수를 결정하는 데 도움이 될 수 있습니다.
데이터 마이그레이션
조직에서는 데이터 마이그레이션을 사용하여 데이터가 있는 위치와 새 스토리지 시스템으로 이동하거나 새 소프트웨어를 구현하기 전에 데이터가 있었던 기간을 파악합니다.
데이터 계보는 조직 전체에서 데이터가 어떻게 이동했는지에 대한 개요를 제공하여 팀이 시스템 업그레이드 또는 마이그레이션을 준비하는 데 도움이 됩니다. 이렇게 하면 전반적으로 새 스토리지 환경으로의 전송 속도가 빨라집니다.
또한 오래되었거나 쓸모 없는 데이터를 보관하거나 제거하여 데이터 시스템을 정리할 수 있는 기회를 팀에 제공합니다. 이렇게 하면 데이터 시스템이 전반적으로 더 나은 성능을 발휘하고 데이터 관리가 덜 필요합니다.
데이터 계보 구현의 과제
- 데이터 보안: 데이터 보안은 데이터 계보를 구축하는 동안 주요 관심사입니다. 시작 지점에서 최종 목적지까지 데이터 여정을 따르려면 민감한 데이터에 대한 액세스 권한이 부여되어야 하며 이 데이터는 무단 액세스 및 위반으로부터 보호되어야 합니다.
- 표준화 부족: 데이터 계보를 수용하는 데 있어 주요 장벽 중 하나는 표준의 부족입니다. 많은 플랫폼, 앱 및 시스템이 데이터 출처를 추적하고 기록하기 위해 고유한 방법을 사용하기 때문에 데이터 여정의 일관된 그림을 함께 모으는 것이 어려울 수 있습니다.
- 데이터 사일로: 데이터 사일로는 데이터 계보를 구현하는 동안 발생하는 또 다른 문제입니다. 데이터가 여러 응용 프로그램과 시스템에 분산되어 있는 경우 서로의 이동 경로를 추적하기 어려울 수 있습니다. 이로 인해 부정확하거나 불완전한 데이터 연계가 발생할 수 있습니다.
결론
결론적으로 데이터 계보는 모든 데이터 중심 기업의 필수 부분입니다. 시작점에서 끝점까지의 데이터 경로에 대한 포괄적인 관점을 제공하여 정확성, 완전성 및 일관성을 보장합니다.
향후 데이터 계보 자동화 및 표준화가 증가하여 조직의 구현 및 유지 관리가 더 쉬워질 것으로 예상됩니다. 결국 데이터 계보의 중요성은 아무리 강조해도 지나치지 않습니다.
이는 기업이 현명한 선택을 하고 운영을 보다 효율적으로 운영하며 성공을 달성하는 데 필요한 도구를 제공합니다.
댓글을 남겨주세요.