Índice analítico[Ocultar][Mostrar]
Os datos están en todas partes ao teu redor. Nun sentido real, inflúe en todos os aspectos da túa empresa. Podería parecer que non hai tempo suficiente para examinar os detalles do ben que está a servir á túa empresa cando estás preocupado por tomar decisións sobre como manexar os teus datos.
Observa isto. A túa organización está a usar datos as 24 horas do día. Polo tanto, comprender de onde veu, como chegou alí e como se está movendo pola empresa é fundamental para comprender o seu valor.
A liñaxe de datos faise importante nesta situación. É máis sinxelo comprender como se formaron os datos, de onde veñen e cara a onde van cando podemos rastrexar as orixes, as migracións e os cambios dos datos.
Nesta publicación, observaremos de preto o Data Lineage, como funciona, os seus casos de uso, técnicas e moito máis.
Que é a liñaxe de datos?
A liñaxe de datos serve como unha especie de pasaporte dixital. É o relato máis completo dunha viaxe de datos, que detalla todas as súas paradas, desvíos e modificacións desde a súa orixe ata o seu destino final.
IEn esencia, a liñaxe de datos describe a orixe, modificación e uso dun dato en moitos sistemas e plataformas. Funciona como unha ferramenta de detective ao proporcionar aos usuarios información sobre como se produciron os datos, de onde se orixinaron e como se utilizaron. Esta información permite aos usuarios recoñecer e resolver calquera posible problema.
A liñaxe de datos é un recurso inestimable para as empresas que dependen dos datos para executar as súas operacións porque permite aos usuarios responder a preguntas cruciais como quen, que, cando e onde.
A liñaxe de datos é, para dicir con facilidade, a pista de datos definitiva que garante a precisión, a integridade e a coherencia dos datos ao tempo que ofrece unha perspectiva clara e sucinta do camiño completo dos datos.
Como funciona Data Lineage?
A liñaxe de datos é a folla de ruta que nos permite seguir un dato desde o seu punto de partida ata o seu punto final. Considere un punto de datos como un viaxeiro e o seu pasaporte como a súa liñaxe de datos para comprender mellor como funciona.
As fontes de datos, a transformación de datos, o almacenamento de datos e a saída de datos constitúen os catro compoñentes principais do pasaporte.
Os moitos sistemas, aplicacións e plataformas dos que se orixinan os datos están representados por fontes de datos, que serven como puntos de inicio para a viaxe dos datos. A transformación de datos é a etapa posterior e a liñaxe de datos representa a progresión dos datos desde estas fontes ata el.
A transformación de datos refírese á configuración, modificación e manipulación de datos para satisfacer as necesidades dos usuarios. Funciona como parada de descanso durante a viaxe dos datos, preparándoo para a seguinte etapa.
A continuación, os datos almacénanse antes de ir á súa localización final. Pódese gardar en servidores na nube, bases de datos ou algún outro tipo de dispositivo de almacenamento. A liñaxe de datos fai un seguimento de onde se almacenan os datos, así como de como se protexen, fai unha copia de seguranza e se recuperan.
O paso final é a saída de datos, que é onde se envían os datos para ser utilizados. Para presentalo pódense utilizar informes, infografías ou calquera outro tipo de produto de datos. A liñaxe de datos fai un seguimento da saída e garante a coherencia, precisión e integridade dos datos.
A liñaxe de datos funciona basicamente rexistrando cada etapa da viaxe dos datos, desde o seu inicio ata a súa saída, e asegurándose de que se manteña fiable, consistente e correcta durante todo o proceso. A liñaxe de datos axuda ás organizacións a tomar decisións informadas, solucionar problemas e cumprir coas obrigas legais dándolle unha visión completa da existencia dos datos.
Para comprender os activos de datos e como se moven pola canalización de datos, os metadatos son unha parte crucial do proceso de liñaxe de datos.
Podes ver como se converten e utilizan os datos na organización mediante ferramentas de liñaxe de datos, que aproveitan os metadatos para ofrecer unha representación visual do fluxo de datos. Isto permite aos usuarios avaliar o potencial dos datos axudándolles a tomar decisións mellor informadas.
Tipos de liñaxe de datos
Hai tres formas básicas de liñaxe de datos: liñaxe de datos avanzada, liñaxe de datos cara atrás e liñaxe de datos bidireccional.
Linaxe de datos adiante
Do mesmo xeito que ocorre cunha rúa de sentido único, a liñaxe de datos adiante implica o seguimento dun dato desde o seu punto de partida ata o seu punto final. Comezando pola fonte de datos, segue os datos mentres pasan por varias transformacións e sistemas de almacenamento para chegar á súa saída.
A comprensión do procesamento e transformación dos datos, así como os problemas que puideran xurdir no camiño, son facilitados por contar cunha liñaxe de datos deste tipo. Cada paso leva ao seguinte; é como seguir un rastro de pan relado.
Linaxe de datos atrás
A liñaxe de datos cara atrás é semellante a unha viaxe ao revés onde rastrexamos a saída dos datos ata a súa orixe. O proceso comeza na localización final dos datos e retrocede a través dunha variedade de técnicas de almacenamento e transformación ata chegar á fonte de datos.
A identificación da fonte orixinal dos datos, a comprensión da súa transformación e a verificación da súa corrección e integridade son posibles coa axuda deste tipo de liñaxe de datos. Funciona como unha ferramenta de detective, que nos permite seguir o camiño dos datos cara atrás.
Linaxe de datos bidireccional
Unha liña de datos bidireccional e bidireccional combina as vantaxes da liña de datos cara a adiante e cara atrás. Ofrece unha visión completa da ruta dos datos seguindo os mesmos desde a súa orixe ata o seu destino, así como desde esa localización ata o seu punto de partida.
Para determinar a fonte orixinal dos datos, comprender como se alteraron e garantir a súa calidade, coherencia e integridade ao longo do camiño, é útil rastrexar a liñaxe dos datos. Con información en tempo real sobre a súa localización e estado, é como ter un rastreador GPS de datos.
Implantación de Data Lineage
A implementación da liñaxe de datos nunha organización implica frecuentemente as seguintes fases.
Definir as fontes de datos
Deben identificarse os sistemas e bases de datos que conteñen os datos que desexa rastrexar. Para facelo, primeiro debes identificar as distintas fontes de datos, incluíndo ficheiros, API e servizos na nube.
Recoller os metadatos
A seguinte etapa é adquirir detalles sobre os datos, incluíndo a súa localización, formato e organización. Estes metadatos fan posible comprender as características dos datos e como se usan.
Identificar fallos de datos
É máis sinxelo entender como se actualizan e usan os datos dentro da organización se o fluxo de datos se mapea desde a súa orixe ata o seu destino, incluídas as transformacións ou procesamentos que teñan lugar ao longo da ruta.
Rastrexar o acceso aos datos
Para manter a seguridade e o cumprimento dos datos, rastrexa e rexistra quen accede aos datos.
Almacena e visualiza a liñaxe
Utiliza ferramentas de visualización para presentar a liñaxe para unha comprensión e análise sinxelas. Almacena os metadatos reunidos e a información do fluxo de datos nun único repositorio.
Implementar unha solución automatizada
Podes verificar que a liñaxe de datos se está a recoller e supervisar mediante a automatización, o que tamén axudará a reducir os erros e a aumentar a produtividade.
Revisión e actualización
Comproba que os rexistros da liñaxe son correctos e actualizados de forma regular e actualízao segundo corresponda.
O proceso de implementación pode ter que modificarse ou engadirse a fases dependendo dos requisitos e límites únicos de cada organización.
Técnicas de liñaxe de datos
Linaxe baseada en patróns
Con este método, a liñaxe realízase sen ter que interactuar coa programación que xerou ou transformou os datos. A avaliación de metadatos para táboas, columnas e informes comerciais forman parte dela. Explora a liñaxe buscando tendencias usando estes metadatos.
Por exemplo, é moi probable que unha columna de dous conxuntos de datos co mesmo nome e valores de datos idénticos represente os mesmos datos en diferentes fases da súa existencia. Despois utilízase un gráfico de liñaxe de datos para conectar esas dúas columnas.
A liñaxe baseada en patróns ten a importante vantaxe de ser independente da tecnoloxía porque só verifica os datos, non os métodos de procesamento de datos. Calquera tecnoloxía de base de datos, incluíndo Oracle, MySQL e Spark, pode implementala do mesmo xeito. O inconveniente é que este enfoque non sempre é preciso.
Cando a lóxica de procesamento de datos está oculta no código do ordenador e non é obvia nos metadatos lexibles por humanos, ás veces pode pasar por alto as relacións entre conxuntos de datos.
Linaxe por etiquetado de datos
Este método baséase na noción de que un motor de transformación etiqueta ou marca os datos. Rastrexa a etiqueta de principio a fin para atopar a liñaxe. Este enfoque só pode ter éxito se tes unha ferramenta de transformación fiable que xestiona toda a transferencia de datos e estás familiarizado coa estrutura de etiquetado que emprega a ferramenta.
Aínda que existise tal ferramenta, ningún dato que fose creado ou alterado sen ela podería ser sometido a liñaxe mediante o etiquetado de datos. Limítase a este respecto a realizar a liñaxe de datos en sistemas de datos pechados.
Linaxe autónomo
Algunhas empresas teñen un ambiente de datos que inclúe almacenamento de metadatos, lóxica de procesamento e xestión de datos mestres (MDM). Estas configuracións inclúen frecuentemente a lago de datos onde se gardan todos os datos durante toda a súa vida útil.
Este tipo de sistema autónomo pode proporcionar de forma natural a liñaxe sen necesidade de recursos adicionais. Non obstante, do mesmo xeito que co método de etiquetado de datos, a liñaxe non terá coñecemento de nada que ocorre fóra deste entorno regulado.
Linaxe de datos por análise
O tipo de liñaxe máis sofisticado é aquel que le automaticamente a lóxica de procesamento de datos. Para un seguimento completo e de extremo a extremo, este método fai enxeñaría inversa da lóxica de transformación de datos.
Xa que esta solución debe comprender todos os linguaxes de programación e ferramentas utilizadas para converter e transportar os datos, o seu despregamento é complicado. Isto pode usar a lóxica de extracción-transformación-carga (ETL), solucións baseadas en SQL e Java, formatos de datos antigos, solucións baseadas en XML e outras técnicas.
Casos de uso da liñaxe de datos
Modelado de datos
As empresas deben establecer as estruturas de datos subxacentes que os apoian para visualizar os moitos elementos de datos e as conexións entre eles dentro dunha empresa. Estas conexións son modeladas mediante a liñaxe de datos, que tamén mostra as moitas dependencias presentes no ecosistema de datos.
Dado que os datos cambian co paso do tempo, constantemente aparecen novas fontes de datos, que requiren novas integracións de datos, etc. Por iso, os modelos xerais de datos das empresas para xestionar os seus datos tamén deben cambiar para reflectir o entorno.
observancia
A liñaxe de datos ofrece un método de cumprimento para auditar, mellorar a xestión de riscos e asegurarse de que os datos se manteñan e se manexan de acordo coas políticas e leis de goberno de datos.
Análise de impacto
Os efectos de certos cambios empresariais, como calquera informe posterior, pódense ver mediante ferramentas de liñaxe de datos. A liñaxe de datos, por exemplo, pode axudar aos executivos a determinar cantos paneis afectaría un cambio de nome e, en consecuencia, cantas persoas acceden a ese informe.
Migración de datos
As organizacións empregan a migración de datos para comprender onde se atopan os datos e canto tempo estiveron alí antes de cambialos a un novo sistema de almacenamento ou de implementar un novo software.
A liñaxe de datos axuda aos equipos a prepararse para as actualizacións ou migracións do sistema dándolles unha visión xeral de como se moveron os datos por toda a organización. Isto acelera a transferencia ao novo ambiente de almacenamento en xeral.
Ademais, dá aos equipos a oportunidade de ordenar o sistema de datos arquivando ou eliminando datos obsoletos ou inútiles. Ao facelo, o sistema de datos funcionará mellor en xeral e necesitará menos xestión de datos.
Retos da implementación da liñaxe de datos
- Seguridade dos datos: a seguridade dos datos é unha preocupación principal ao crear unha liñaxe de datos. Para seguir unha viaxe de datos desde o seu punto de partida ata o seu destino final, débese conceder o acceso a datos sensibles, e estes datos deben estar protexidos contra accesos non autorizados e violacións.
- Falta de estandarización: unha das principais barreiras para adoptar a liñaxe de datos é a falta de estándares. Dado que moitas plataformas, aplicacións e sistemas empregan métodos únicos para rastrexar e rexistrar a procedencia dos datos, pode ser difícil elaborar unha imaxe cohesionada dunha viaxe de datos.
- Silos de datos: os silos de datos son outro problema que xorde ao implementar a liñaxe de datos. Cando os datos se espallan en varias aplicacións e sistemas, pode ser un reto rastrexar a súa viaxe dunha a outra. Isto pode levar a unha liñaxe de datos inexacta ou incompleta.
Conclusión
En conclusión, a liñaxe de datos é unha parte esencial de toda empresa baseada en datos. Ofrece unha perspectiva completa do camiño dos datos desde o seu punto de partida ata o seu punto final, garantindo a súa precisión, integridade e coherencia.
Espérase que a automatización e estandarización da liñaxe de datos futuras aumenten, facilitando a implementación e o mantemento das organizacións. Ao final, non se pode enfatizar a importancia da liñaxe de datos.
Ofrece ás empresas as ferramentas que necesitan para tomar decisións acertadas, executar as súas operacións de forma máis eficiente e acadar o éxito.
Deixe unha resposta