Índice del contenido[Esconder][Espectáculo]
Los datos están en todas partes a tu alrededor. En un sentido real, influye en todos los aspectos de su negocio. Puede parecer que no hay suficiente tiempo para examinar los detalles de qué tan bien está sirviendo a su negocio cuando está preocupado por las decisiones sobre cómo manejar sus datos.
Observa esto. Su organización utiliza datos las 24 horas del día. Entonces, comprender de dónde vino, cómo llegó allí y cómo se está moviendo a través de la empresa es crucial para comprender su valor.
El linaje de datos se vuelve importante en esta situación. Es más sencillo comprender cómo se formaron los datos, de dónde provienen y hacia dónde se dirigen cuando podemos rastrear los orígenes, las migraciones y los cambios de los datos.
En esta publicación, veremos de cerca Data Lineage, cómo funciona, sus casos de uso, técnicas y mucho más.
¿Qué es el linaje de datos?
El linaje de datos sirve como una especie de pasaporte digital. Es el relato más completo de un viaje de datos, detallando todas sus paradas, desvíos y modificaciones desde su origen hasta su destino final.
IEn esencia, el linaje de datos describe el origen, la modificación y el uso de un dato en muchos sistemas y plataformas. Funciona como una herramienta de detective al brindar a los usuarios información sobre cómo se produjeron los datos, de dónde se originaron y cómo se utilizaron. Esta información permite a los usuarios reconocer y resolver cualquier problema potencial.
El linaje de datos es un recurso invaluable para las empresas que dependen de los datos para ejecutar sus operaciones porque les permite a los usuarios responder preguntas cruciales como quién, qué, cuándo y dónde.
El linaje de datos es, en pocas palabras, el último rastro de datos que garantiza la precisión, integridad y consistencia de los datos al tiempo que ofrece una perspectiva clara y sucinta de la ruta completa de los datos.
¿Cómo funciona el linaje de datos?
El linaje de datos es la hoja de ruta que nos permite seguir un dato desde su punto de partida hasta su punto final. Considere un punto de datos como un viajero y su pasaporte como su linaje de datos para comprender mejor cómo funciona.
Las fuentes de datos, la transformación de datos, el almacenamiento de datos y la salida de datos constituyen los cuatro componentes principales del pasaporte.
Los numerosos sistemas, aplicaciones y plataformas desde los que se originan los datos están representados por fuentes de datos, que sirven como puntos de partida para el viaje de los datos. La transformación de datos es la etapa siguiente, y el linaje de datos traza la progresión de los datos desde estas fuentes hasta allí.
La transformación de datos se refiere a dar forma, modificar y manipular datos para satisfacer las necesidades del usuario. Funciona como una parada de descanso durante el viaje de los datos, preparándolos para el siguiente tramo.
Luego, los datos se almacenan antes de ir a su ubicación final. Podría guardarse en servidores en la nube, bases de datos o algún otro tipo de dispositivo de almacenamiento. El linaje de datos realiza un seguimiento de dónde se almacenan los datos, así como también cómo se protegen, respaldan y recuperan.
El paso final es la salida de datos, que es donde se envían los datos para su uso. Se pueden utilizar informes, infografías o cualquier otro tipo de producto de datos para presentarlo. El linaje de datos realiza un seguimiento de la salida y garantiza la coherencia, la precisión y la integridad de los datos.
El linaje de datos básicamente funciona registrando cada etapa del viaje de los datos, desde su inicio hasta su salida, y asegurándose de que se mantenga confiable, consistente y correcto en todo momento. El linaje de datos ayuda a las organizaciones a tomar decisiones informadas, solucionar problemas y cumplir con las obligaciones legales al brindar una visión completa de la existencia de los datos.
Para comprender los activos de datos y cómo se mueven a través de la canalización de datos, los metadatos son una parte crucial del proceso de linaje de datos.
Puede ver cómo se convierten y utilizan los datos dentro de la organización utilizando herramientas de linaje de datos, que aprovechan los metadatos para proporcionar una descripción visual del flujo de datos. Esto permite a los usuarios evaluar el potencial de los datos ayudándolos a tomar decisiones mejor informadas.
Tipos de linaje de datos
Hay tres formas básicas de linaje de datos: linaje de datos hacia adelante, linaje de datos hacia atrás y linaje de datos bidireccional.
Reenviar linaje de datos
Al igual que con una calle de sentido único, el linaje de datos directos implica el seguimiento de una parte de los datos desde su punto de partida hasta su punto final. A partir de la fuente de datos, sigue los datos a medida que pasan por varias transformaciones y sistemas de almacenamiento para llegar a su salida.
La comprensión del procesamiento y transformación de datos, así como cualquier problema que haya podido surgir en el camino, se facilita al contar con un linaje de datos de este tipo. Cada paso lleva al siguiente; es como seguir un rastro de migas de pan.
Linaje de datos hacia atrás
El linaje de datos hacia atrás es similar a un viaje en reversa donde rastreamos la salida de los datos hasta su origen. El proceso comienza en la ubicación final de los datos y retrocede a través de una variedad de técnicas de almacenamiento y transformación hasta que llega a la fuente de datos.
La identificación de la fuente original de los datos, la comprensión de su transformación y la verificación de su corrección e integridad son posibles con la ayuda de este tipo de linaje de datos. Funciona como una herramienta de detective, permitiéndonos seguir el camino de los datos hacia atrás.
Linaje de datos bidireccional
Un linaje de datos bidireccional y de calle de dos sentidos combina las ventajas del linaje de datos hacia adelante y hacia atrás. Proporciona una vista integral de la ruta de los datos al rastrearlos desde su origen hasta su destino, así como desde esa ubicación hasta su punto de partida.
Para determinar la fuente original de los datos, comprender cómo se modificaron y garantizar su calidad, consistencia e integridad a lo largo del camino, es útil rastrear el linaje de los datos. Con información en tiempo real sobre su ubicación y estado, es como tener un rastreador GPS para datos.
Implementación del linaje de datos
La implementación del linaje de datos en una organización implica con frecuencia las siguientes fases.
Definir las fuentes de datos
Deben identificarse todos los sistemas y bases de datos que contienen los datos que desea rastrear. Para hacer esto, primero debe identificar las diversas fuentes de datos, incluidos los archivos, las API y los servicios en la nube.
Recopilar los metadatos
La siguiente etapa es adquirir detalles sobre los datos, incluida su ubicación, formato y organización. Estos metadatos hacen posible comprender las características de los datos y cómo se utilizan.
Identifica fallas en los datos
Es más sencillo comprender cómo se actualizan y utilizan los datos dentro de la organización si el flujo de datos se traza desde su origen hasta su destino, incluidas las transformaciones o el procesamiento que se produzcan a lo largo de la ruta.
Seguimiento del acceso a datos
Para mantener la seguridad y el cumplimiento de los datos, rastrear y registrar quién accede a los datos.
Almacenar y visualizar el linaje
Utilice herramientas de visualización para presentar el linaje para una comprensión y un análisis sencillos. Almacene los metadatos recopilados y la información del flujo de datos en un solo repositorio.
Implementar una solución automatizada
Puede verificar que el linaje de datos se esté recopilando y monitoreando a través de la automatización, lo que también ayudará a reducir los errores y aumentar la productividad.
Revisar y actualizar
Asegúrese de que los registros de linaje sean correctos y estén actualizados periódicamente, y actualícelos según corresponda.
Es posible que el proceso de implementación deba modificarse o agregarse a fases según los requisitos y límites únicos de cada organización.
Técnicas de linaje de datos
Linaje basado en patrones
Con este método, el linaje se realiza sin tener que interactuar con la programación que generó o transformó los datos. La evaluación de metadatos para tablas, columnas e informes comerciales es parte de ella. Explora el linaje buscando tendencias utilizando estos metadatos.
Por ejemplo, es bastante probable que una columna en dos conjuntos de datos con el mismo nombre y valores de datos idénticos represente los mismos datos en diferentes fases de su existencia. Luego se utiliza un cuadro de linaje de datos para conectar esas dos columnas.
El linaje basado en patrones tiene el beneficio significativo de ser independiente de la tecnología porque solo verifica los datos, no los métodos de procesamiento de datos. Cualquier tecnología de base de datos, incluidas Oracle, MySQL y Spark, puede implementarla de la misma manera. El inconveniente es que este enfoque no siempre es preciso.
Cuando la lógica de procesamiento de datos está oculta en el código de la computadora y no es evidente en los metadatos legibles por humanos, ocasionalmente puede pasar por alto las relaciones entre los conjuntos de datos.
Linaje por etiquetado de datos
Este método se basa en la noción de que un motor de transformación etiqueta o marca los datos. Rastrea la etiqueta de principio a fin para encontrar el linaje. Este enfoque solo puede tener éxito si tiene una herramienta de transformación fiable que gestiona toda la transferencia de datos y está familiarizado con la estructura de etiquetado que emplea la herramienta.
Incluso si existiera tal herramienta, ningún dato que se haya creado o modificado sin ella podría estar sujeto al linaje a través del etiquetado de datos. En este sentido, se limita a realizar el linaje de datos en sistemas de datos cerrados.
Linaje autónomo
Algunas empresas tienen un entorno de datos que incluye almacenamiento de metadatos, lógica de procesamiento y gestión de datos maestros (MDM). Estos ajustes suelen incluir una datos donde se conservan todos los datos durante toda su vida útil.
El linaje puede ser proporcionado naturalmente por este tipo de sistema autónomo sin necesidad de recursos adicionales. Sin embargo, al igual que con el método de etiquetado de datos, el linaje no estará al tanto de nada que ocurra fuera de este entorno regulado.
Linaje de datos por análisis
El tipo de linaje más sofisticado es el que lee automáticamente la lógica de procesamiento de datos. Para un seguimiento exhaustivo de extremo a extremo, este método aplica ingeniería inversa a la lógica de transformación de datos.
Dado que esta solución debe comprender todos los lenguajes de programación y herramientas utilizadas para convertir y transportar los datos, su despliegue es complicado. Esto podría usar lógica de extracción, transformación y carga (ETL), soluciones basadas en SQL y Java, formatos de datos antiguos, soluciones basadas en XML y otras técnicas.
Casos de uso de linaje de datos
Modelado de datos
Las empresas deben establecer las estructuras de datos subyacentes que las respaldan para visualizar los muchos elementos de datos y las conexiones entre ellos dentro de una empresa. Estas conexiones se modelan utilizando el linaje de datos, que también muestra las muchas dependencias presentes en el ecosistema de datos.
Dado que los datos cambian con el tiempo, aparecen constantemente nuevas fuentes de datos, lo que requiere nuevas integraciones de datos, etc. Debido a esto, los modelos de datos generales de las empresas para administrar sus datos también deben cambiar para reflejar el entorno.
Cumplimiento
El linaje de datos ofrece un método de cumplimiento para auditar, mejorar la gestión de riesgos y asegurarse de que los datos se mantengan y manejen de acuerdo con las políticas y leyes de gobierno de datos.
Análisis de impacto
Los efectos de ciertos cambios comerciales, como cualquier informe posterior, se pueden ver utilizando herramientas de linaje de datos. El linaje de datos, por ejemplo, podría ayudar a los ejecutivos a determinar cuántos tableros afectaría un cambio de nombre y, en consecuencia, cuántas personas acceden a esos informes.
Migración de datos
Las organizaciones emplean la migración de datos para comprender dónde se encuentran los datos y cuánto tiempo han estado allí antes de cambiarlos a un nuevo sistema de almacenamiento o implementar un nuevo software.
El linaje de datos ayuda a los equipos a prepararse para las actualizaciones o migraciones del sistema al brindarles una descripción general de cómo se han movido los datos en toda la organización. Esto acelera la transferencia al nuevo entorno de almacenamiento en general.
Además, brinda a los equipos la oportunidad de ordenar el sistema de datos archivando o eliminando datos obsoletos o inútiles. Al hacerlo, el sistema de datos funcionará mejor en general y necesitará menos gestión de datos.
Desafíos de implementar el linaje de datos
- Seguridad de los datos: la seguridad de los datos es una preocupación principal al crear un linaje de datos. Para seguir un viaje de datos desde su punto de partida hasta su destino final, se debe otorgar acceso a datos confidenciales, y estos datos deben protegerse contra accesos no autorizados e infracciones.
- Falta de estandarización: una de las principales barreras para adoptar el linaje de datos es la falta de estándares. Dado que muchas plataformas, aplicaciones y sistemas emplean métodos únicos para rastrear y registrar la procedencia de los datos, puede ser difícil armar una imagen cohesiva de un viaje de datos.
- Silos de datos: los silos de datos son otro problema que surge al implementar el linaje de datos. Cuando los datos se distribuyen entre varias aplicaciones y sistemas, podría ser un desafío seguir su viaje de uno a otro. Esto podría conducir a un linaje de datos inexacto o incompleto.
Conclusión
En conclusión, el linaje de datos es una parte esencial de toda empresa basada en datos. Ofrece una perspectiva integral de la ruta de los datos desde su punto de inicio hasta su punto final, lo que garantiza su precisión, integridad y consistencia.
Se espera que aumente la automatización y la estandarización del linaje de datos en el futuro, lo que facilitará la implementación y el mantenimiento para las organizaciones. Al final, no se puede enfatizar la importancia del linaje de datos.
Brinda a las empresas las herramientas que necesitan para tomar decisiones acertadas, ejecutar sus operaciones de manera más eficiente y lograr el éxito.
Deje un comentario