Conteúdo[Esconder][Mostrar]
Os dados estão em toda parte ao seu redor. Em um sentido real, influencia todos os aspectos do seu negócio. Pode parecer que não há tempo suficiente para examinar os detalhes de como isso está atendendo a sua empresa quando você está preocupado com decisões sobre como lidar com seus dados.
Observe isso. Sua organização está usando dados 24 horas por dia. Portanto, entender de onde veio, como chegou lá e como está se movendo na empresa é crucial para entender seu valor.
A linhagem de dados se torna importante nessa situação. É mais simples compreender como os dados foram formados, de onde vieram e para onde vão quando podemos rastrear as origens, migrações e alterações dos dados.
Neste post, veremos de perto o Data Lineage, como ele funciona, seus casos de uso, técnicas e muito mais.
O que é Linhagem de Dados?
A linhagem de dados funciona como uma espécie de passaporte digital. É o relato mais abrangente de uma viagem de dados, detalhando todas as suas paradas, desvios e modificações desde sua origem até seu destino final.
IEm essência, a linhagem de dados descreve a origem, modificação e uso de uma parte dos dados em muitos sistemas e plataformas. Ele funciona como uma ferramenta de detetive, fornecendo aos usuários informações sobre como os dados foram produzidos, de onde se originaram e como foram utilizados. Essas informações permitem que os usuários reconheçam e resolvam quaisquer problemas potenciais.
A linhagem de dados é um recurso inestimável para empresas que dependem de dados para executar suas operações porque permite que os usuários respondam a perguntas cruciais como quem, o quê, quando e onde.
A linhagem de dados é, para simplificar, a trilha de dados definitiva que garante a precisão, a integridade e a consistência dos dados, ao mesmo tempo em que oferece uma perspectiva clara e sucinta do caminho completo dos dados.
Como funciona a linhagem de dados?
A linhagem de dados é o roteiro que nos permite seguir uma parte dos dados desde seu ponto inicial até seu ponto final. Considere um ponto de dados como um viajante e seu passaporte como sua linhagem de dados para entender melhor como ele funciona.
Fontes de dados, transformação de dados, armazenamento de dados e saída de dados compõem os quatro componentes principais do passaporte.
Os muitos sistemas, aplicativos e plataformas de origem dos dados são representados por fontes de dados, que servem como pontos iniciais para a jornada dos dados. A transformação de dados é o estágio subsequente e a linhagem de dados mapeia a progressão dos dados dessas fontes até ela.
A transformação de dados refere-se à modelagem, modificação e manipulação de dados para atender às necessidades do usuário. Funciona como uma parada de descanso durante a viagem dos dados, preparando-os para a próxima etapa.
Os dados são então armazenados antes de ir para sua localização final. Ele pode ser mantido em servidores em nuvem, bancos de dados ou algum outro tipo de dispositivo de armazenamento. A linhagem de dados controla onde os dados são armazenados, bem como como eles são protegidos, copiados e recuperados.
A etapa final é a saída de dados, que é para onde os dados são enviados para serem usados. Relatórios, infográficos ou qualquer outro tipo de produto de dados podem ser usados para apresentá-lo. A linhagem de dados acompanha a saída e garante a consistência, precisão e integridade dos dados.
A linhagem de dados funciona basicamente registrando cada estágio da jornada dos dados, desde o início até a saída, e garantindo que eles permaneçam confiáveis, consistentes e corretos durante todo o processo. A linhagem de dados ajuda as organizações a tomar decisões fundamentadas, corrigir problemas e cumprir obrigações legais, fornecendo uma visão completa da existência de dados.
Para entender os ativos de dados e como eles se movem pelo pipeline de dados, os metadados são uma parte crucial do processo de linhagem de dados.
Você pode ver como os dados são convertidos e utilizados dentro da organização usando ferramentas de linhagem de dados, que aproveitam os metadados para fornecer uma representação visual do fluxo de dados. Isso permite que os usuários avaliem o potencial dos dados, ajudando-os a tomar decisões mais bem informadas.
Tipos de linhagem de dados
Existem três formas básicas de linhagem de dados: linhagem de dados direta, linhagem de dados regressiva e linhagem de dados bidirecional.
Linhagem de dados de encaminhamento
Assim como em uma via de mão única, a linhagem de dados de encaminhamento envolve o rastreamento de um dado desde seu ponto inicial até seu ponto final. A partir da fonte de dados, ele segue os dados à medida que passam por várias transformações e sistemas de armazenamento para alcançar sua saída.
Compreender o processamento e a transformação de dados, bem como quaisquer problemas que possam surgir ao longo do caminho, são facilitados por ter uma linhagem de dados desse tipo. Cada passo leva ao próximo; é como seguir uma trilha de migalhas de pão.
Linhagem de Dados Reversa
A linhagem de dados regressiva é semelhante a uma viagem reversa em que rastreamos a saída dos dados de volta à sua origem. O processo começa no local final dos dados e retrocede através de uma variedade de técnicas de armazenamento e transformação até chegar à fonte de dados.
A identificação da fonte original dos dados, a compreensão de sua transformação e a verificação de sua correção e integridade são possíveis com a ajuda desse tipo de linhagem de dados. Funciona como uma ferramenta de detetive, permitindo seguir o caminho dos dados para trás.
Linhagem de dados bidirecional
Uma via de mão dupla, linhagem de dados bidirecional combina as vantagens da linhagem de dados para frente e para trás. Ele fornece uma visão abrangente da rota dos dados, rastreando-os desde a origem até o destino, bem como desse local até o ponto de partida.
Para determinar a fonte original dos dados, compreender como eles foram alterados e garantir sua qualidade, consistência e integridade ao longo do caminho, é útil rastrear a linhagem dos dados. Com informações em tempo real sobre sua localização e status, é como ter um rastreador GPS para dados.
Implementação da Linhagem de Dados
A implementação da linhagem de dados em uma organização geralmente envolve as seguintes fases.
Defina as fontes de dados
Os sistemas e bancos de dados que contêm os dados que você deseja rastrear devem ser todos identificados. Para fazer isso, você deve primeiro identificar as várias fontes de dados, incluindo arquivos, APIs e serviços em nuvem.
Colete os metadados
A próxima etapa é adquirir detalhes sobre os dados, incluindo sua localização, formato e organização. Compreender as características dos dados e como eles são utilizados é possibilitado por esses metadados.
Identificar falhas de dados
É mais simples entender como os dados são atualizados e usados dentro da organização se o fluxo de dados for mapeado desde sua origem até seu destino, incluindo quaisquer transformações ou processamentos que ocorram ao longo da rota.
Rastreie o acesso aos dados
Para manter a segurança e a conformidade dos dados, rastreie e registre quem acessa os dados.
Armazene e visualize a linhagem
Utilize ferramentas de visualização para apresentar a linhagem para compreensão e análise simples. Armazene os metadados coletados e as informações de fluxo de dados em um único repositório.
Implemente uma solução automatizada
Você pode verificar se a linhagem de dados está sendo coletada e monitorada por meio da automação, o que também ajudará a reduzir erros e aumentar a produtividade.
Rever e atualizar
Certifique-se de que os registros de linhagem estejam corretos e atualizados regularmente e atualize-os conforme apropriado.
O processo de implementação pode precisar ser modificado ou adicionado em fases, dependendo dos requisitos e limites exclusivos de cada organização.
Técnicas de Linhagem de Dados
Linhagem baseada em padrão
Com esse método, a linhagem é realizada sem a necessidade de interação com a programação que gerou ou transformou os dados. A avaliação de metadados para tabelas, colunas e relatórios de negócios faz parte dele. Ele explora a linhagem procurando tendências usando esses metadados.
Por exemplo, é bastante provável que uma coluna em dois conjuntos de dados com o mesmo nome e valores de dados idênticos represente os mesmos dados em diferentes fases de sua existência. Um gráfico de linhagem de dados é usado para conectar essas duas colunas.
A linhagem baseada em padrão tem o benefício significativo de ser independente de tecnologia porque apenas verifica os dados, não os métodos de processamento de dados. Qualquer tecnologia de banco de dados, incluindo Oracle, MySQL e Spark, pode implementá-la da mesma maneira. A desvantagem é que essa abordagem nem sempre é precisa.
Quando a lógica de processamento de dados está oculta no código do computador e não é facilmente óbvia em metadados legíveis por humanos, ela pode ocasionalmente ignorar as relações entre os conjuntos de dados.
Linhagem por Marcação de Dados
Esse método é baseado na noção de que um mecanismo de transformação marca ou marca dados. Ele rastreia a marca do começo ao fim para encontrar a linhagem. Essa abordagem só pode ser bem-sucedida se você tiver uma ferramenta de transformação confiável que gerencie toda a transferência de dados e estiver familiarizado com a estrutura de marcação que a ferramenta emprega.
Mesmo que tal ferramenta existisse, nenhum dado criado ou alterado sem ela poderia ser submetido à linhagem por meio de marcação de dados. Limita-se, a esse respeito, a realizar a linhagem de dados em sistemas de dados fechados.
Linhagem independente
Algumas empresas têm um ambiente de dados que inclui armazenamento de metadados, lógica de processamento e gerenciamento de dados mestre (MDM). Essas configurações geralmente incluem um lago de dados onde todos os dados são mantidos durante toda a sua vida útil.
A linhagem pode ser fornecida naturalmente por esse tipo de sistema independente sem a necessidade de recursos adicionais. No entanto, assim como no método de marcação de dados, a linhagem não estará ciente de nada que ocorra fora desse ambiente regulado.
Linhagem de dados por análise
O tipo mais sofisticado de linhagem é aquele que lê a lógica de processamento de dados automaticamente. Para rastreamento completo de ponta a ponta, esse método faz engenharia reversa da lógica de transformação de dados.
Como esta solução deve abranger todos os linguagens de programação e ferramentas usadas para converter e transportar os dados, sua implantação é complicada. Isso pode usar a lógica extrair-transformar-carregar (ETL), soluções baseadas em SQL e Java, formatos de dados antigos, soluções baseadas em XML e outras técnicas.
Casos de uso de linhagem de dados
Modelagem de dados
As empresas devem estabelecer as estruturas de dados subjacentes que as suportam para visualizar os muitos itens de dados e as conexões entre eles dentro de uma empresa. Essas conexões são modeladas usando linhagem de dados, que também mostra as muitas dependências presentes no ecossistema de dados.
Como os dados mudam com o tempo, novas fontes de dados aparecem constantemente, exigindo novas integrações de dados etc. Por causa disso, os modelos gerais de dados das empresas para gerenciar seus dados também devem mudar para refletir o ambiente.
Compliance
A linhagem de dados oferece um método de conformidade para auditoria, aprimorando o gerenciamento de riscos e garantindo que os dados sejam mantidos e tratados de acordo com as políticas e leis de governança de dados.
Análise de impacto
Os efeitos de certas mudanças nos negócios, como qualquer relatório downstream, podem ser vistos usando ferramentas de linhagem de dados. A linhagem de dados, por exemplo, pode ajudar os executivos a determinar quantos painéis uma mudança de nome afetaria e, conseqüentemente, quantas pessoas acessariam esses relatórios.
Migração de dados
As organizações empregam a migração de dados para compreender onde os dados estão localizados e há quanto tempo eles estão lá antes de transferi-los para um novo sistema de armazenamento ou implementar um novo software.
A linhagem de dados ajuda as equipes a se prepararem para atualizações ou migrações do sistema, fornecendo uma visão geral de como os dados se moveram em toda a organização. Isso acelera a transferência para o novo ambiente de armazenamento em geral.
Além disso, dá às equipes a chance de organizar o sistema de dados arquivando ou eliminando dados desatualizados ou inúteis. Ao fazer isso, o sistema de dados terá um desempenho geral melhor e precisará de menos gerenciamento de dados.
Desafios da Implementação da Linhagem de Dados
- Segurança de dados: a segurança de dados é uma preocupação primordial ao construir a linhagem de dados. Para acompanhar uma jornada de dados desde o ponto de partida até o destino final, o acesso a dados confidenciais deve ser concedido e esses dados devem ser protegidos contra acesso não autorizado e violações.
- Falta de padronização: uma das principais barreiras para adotar a linhagem de dados é a falta de padrões. Como muitas plataformas, aplicativos e sistemas empregam métodos exclusivos para rastrear e registrar a proveniência dos dados, pode ser difícil reunir uma imagem coesa de uma jornada de dados.
- Silos de dados: os silos de dados são outro problema que surge durante a implementação da linhagem de dados. Quando os dados estão espalhados por vários aplicativos e sistemas, pode ser um desafio acompanhar sua jornada de um para outro. Isso pode levar a uma linhagem de dados imprecisa ou incompleta.
Conclusão
Concluindo, a linhagem de dados é uma parte essencial de toda empresa orientada por dados. Ele oferece uma perspectiva abrangente do caminho de um dado desde seu ponto inicial até seu ponto final, garantindo sua precisão, integridade e consistência.
Espera-se que a futura automação e padronização da linhagem de dados aumente, facilitando a implementação e a manutenção para as organizações. No final, a importância da linhagem de dados não pode ser enfatizada.
Ele fornece às empresas as ferramentas necessárias para fazer escolhas sábias, executar suas operações com mais eficiência e alcançar o sucesso.
Deixe um comentário