Table des matières[Cacher][Montrer]
Les données sont partout autour de vous. Dans un sens réel, cela influence tous les aspects de votre entreprise. Il peut sembler qu'il n'y a pas assez de temps pour examiner les détails de la façon dont il sert votre entreprise lorsque vous êtes préoccupé par des décisions sur la façon de gérer vos données.
Observez ceci. Votre organisation utilise des données 24 heures sur XNUMX. Il est donc essentiel de comprendre d'où il vient, comment il est arrivé là et comment il se déplace dans l'entreprise pour comprendre sa valeur.
La lignée des données devient importante dans cette situation. Il est plus simple de comprendre comment les données ont été formées, d'où elles viennent et où elles vont lorsque nous pouvons suivre les origines, les migrations et les changements des données.
Dans cet article, nous examinerons de près Data Lineage, son fonctionnement, ses cas d'utilisation, ses techniques et bien plus encore.
Qu'est-ce que la lignée de données ?
La lignée des données sert en quelque sorte de passeport numérique. Il s'agit du récit le plus complet d'un voyage de données, détaillant tous ses arrêts, détours et modifications depuis son origine jusqu'à sa destination finale.
IEssentiellement, le lignage des données décrit l'origine, la modification et l'utilisation d'un élément de données sur de nombreux systèmes et plates-formes. Il fonctionne comme un outil de détective en donnant aux utilisateurs des informations sur la façon dont les données ont été produites, d'où elles proviennent et comment elles ont été utilisées. Ces informations permettent aux utilisateurs de reconnaître et de résoudre tout problème potentiel.
La lignée des données est une ressource inestimable pour les entreprises qui dépendent des données pour exécuter leurs opérations, car elle permet aux utilisateurs de répondre à des questions cruciales telles que qui, quoi, quand et où.
Le lignage des données est, pour le dire simplement, la piste de données ultime qui garantit l'exactitude, l'exhaustivité et la cohérence des données tout en offrant une perspective claire et succincte du chemin complet d'une donnée.
Comment fonctionne le lignage de données ?
Le lignage des données est la feuille de route qui nous permet de suivre une donnée de son point de départ à son point final. Considérez un point de données comme un voyageur et son passeport comme sa lignée de données pour mieux comprendre son fonctionnement.
Les sources de données, la transformation des données, le stockage des données et la sortie des données constituent les quatre principaux composants du passeport.
Les nombreux systèmes, applications et plates-formes d'où proviennent les données sont représentés par des sources de données, qui servent de points de départ pour le parcours des données. La transformation des données est l'étape suivante, et la lignée des données trace la progression des données depuis ces sources jusqu'à celle-ci.
La transformation des données fait référence à la mise en forme, à la modification et à la manipulation des données pour répondre aux besoins des utilisateurs. Il fonctionne comme un arrêt de repos pendant le voyage des données, le préparant pour la prochaine étape.
Les données sont ensuite stockées avant d'aller à leur emplacement final. Il peut être conservé sur des serveurs cloud, des bases de données ou tout autre type de périphérique de stockage. Le lignage des données garde une trace de l'endroit où les données sont stockées, ainsi que de la manière dont elles sont protégées, sauvegardées et récupérées.
La dernière étape est la sortie des données, où les données sont envoyées pour être utilisées. Des rapports, des infographies ou tout autre type de produit de données peuvent être utilisés pour le présenter. Le lignage des données assure le suivi de la sortie et garantit la cohérence, l'exactitude et l'exhaustivité des données.
Le lignage des données fonctionne essentiellement en enregistrant chaque étape du parcours des données, de leur création à leur sortie, et en s'assurant qu'elles restent fiables, cohérentes et correctes tout au long du processus. Le lignage des données aide les organisations à prendre des décisions éclairées, à résoudre les problèmes et à respecter les obligations légales en donnant une vue complète de l'existence des données.
Afin de comprendre les actifs de données et comment ils se déplacent dans le pipeline de données, les métadonnées sont une partie cruciale du processus de lignage des données.
Vous pouvez voir comment les données sont converties et utilisées au sein de l'organisation à l'aide d'outils de lignage des données, qui exploitent les métadonnées pour fournir une représentation visuelle du flux de données. Cela permet aux utilisateurs d'évaluer le potentiel des données en les aidant à prendre des décisions plus éclairées.
Types de lignage des données
Il existe trois formes de base de lignage des données : le lignage des données vers l'avant, le lignage des données vers l'arrière et le lignage des données bidirectionnel.
Transférer la lignée des données
Comme pour une rue à sens unique, le lignage des données en aval implique le suivi d'un élément de données de son point de départ à son point d'arrivée. À partir de la source de données, il suit les données lorsqu'elles passent par plusieurs transformations et systèmes de stockage pour atteindre leur sortie.
La compréhension du traitement et de la transformation des données ainsi que des problèmes qui ont pu survenir en cours de route est facilitée par la présence d'une telle lignée de données. Chaque pas mène au suivant ; c'est comme suivre une piste de chapelure.
Lignage des données en amont
Le lignage des données en arrière est similaire à un voyage en sens inverse où nous retraçons la sortie des données jusqu'à sa source. Le processus commence à l'emplacement final des données et remonte à travers une variété de techniques de stockage et de transformation jusqu'à ce qu'il atteigne la source de données.
L'identification de la source d'origine des données, la compréhension de sa transformation et la vérification de son exactitude et de son exhaustivité sont toutes possibles à l'aide de ce type de lignage des données. Cela fonctionne comme un outil de détective, nous permettant de suivre le chemin des données en arrière.
Lignage de données bidirectionnel
Un lignage de données bidirectionnel et bidirectionnel combine les avantages d'un lignage de données en amont et en aval. Il fournit une vue complète de l'itinéraire des données en les suivant de sa source à sa destination ainsi que de cet emplacement à son point de départ.
Afin de déterminer la source d'origine des données, de comprendre comment elles ont été modifiées et de garantir leur qualité, leur cohérence et leur exhaustivité tout au long du processus, il est utile de suivre la lignée des données. Avec des informations en temps réel sur son emplacement et son état, c'est comme avoir un traceur GPS pour les données.
Mise en œuvre du lignage des données
La mise en œuvre du lignage des données dans une organisation implique souvent les phases suivantes.
Définir les sources de données
Les systèmes et les bases de données qui contiennent les données que vous souhaitez suivre doivent tous être identifiés. Pour ce faire, vous devez d'abord identifier les différentes sources de données, y compris les fichiers, les API et les services cloud.
Collecter les métadonnées
L'étape suivante consiste à acquérir des détails sur les données, y compris leur emplacement, leur format et leur organisation. La compréhension des caractéristiques des données et de leur utilisation est rendue possible par ces métadonnées.
Identifier les failles des données
Il est plus simple de comprendre comment les données sont mises à jour et utilisées au sein de l'organisation si le flux de données est cartographié de sa source à sa destination, y compris les transformations ou les traitements qui ont lieu le long du parcours.
Suivre l'accès aux données
Pour maintenir la sécurité et la conformité des données, suivez et enregistrez qui accède aux données.
Stocker et visualiser la lignée
Utilisez des outils de visualisation pour présenter la lignée pour une compréhension et une analyse simples. Stockez les métadonnées et les informations de flux de données collectées dans un référentiel unique.
Mettre en place une solution automatisée
Vous pouvez vérifier que la lignée des données est collectée et surveillée grâce à l'automatisation, ce qui contribuera également à réduire les erreurs et à augmenter la productivité.
Réviser et mettre à jour
Assurez-vous que les enregistrements de lignée sont corrects et à jour régulièrement, et mettez-les à jour le cas échéant.
Le processus de mise en œuvre peut devoir être modifié ou ajouté à des phases en fonction des exigences et des limites uniques de chaque organisation.
Techniques de lignage des données
Lignage basé sur des modèles
Avec cette méthode, le lignage est effectué sans avoir à interagir avec la programmation qui a généré ou transformé les données. L'évaluation des métadonnées pour les tableaux, les colonnes et les rapports commerciaux en fait partie. Il explore la lignée en recherchant des tendances à l'aide de ces métadonnées.
Par exemple, il est fort probable qu'une colonne dans deux ensembles de données avec le même nom et des valeurs de données identiques représente les mêmes données à différentes phases de son existence. Un tableau de lignage des données est ensuite utilisé pour connecter ces deux colonnes.
Le lignage basé sur des modèles a l'avantage significatif d'être indépendant de la technologie car il vérifie simplement les données, pas les méthodes de traitement des données. Toute technologie de base de données, y compris Oracle, MySQL et Spark, peut l'implémenter de la même manière. L'inconvénient est que cette approche n'est pas toujours précise.
Lorsque la logique de traitement des données est dissimulée dans le code informatique et pas facilement évidente dans les métadonnées lisibles par l'homme, elle peut parfois négliger les relations entre les ensembles de données.
Lignage par marquage des données
Cette méthode est fondée sur la notion qu'un moteur de transformation balise ou autrement marque les données. Il trace l'étiquette du début à la fin afin de trouver la lignée. Cette approche ne peut réussir que si vous disposez d'un outil de transformation fiable qui gère tous les transferts de données et que vous connaissez la structure de balisage utilisée par l'outil.
Même si un tel outil devait exister, aucune donnée créée ou modifiée sans lui ne pourrait faire l'objet d'un lignage via le marquage des données. Elle se limite à cet égard à effectuer un lignage de données sur des systèmes de données fermés.
Lignée autonome
Certaines entreprises disposent d'un environnement de données qui comprend le stockage des métadonnées, la logique de traitement et la gestion des données de référence (MDM). Ces paramètres comprennent souvent un lac de données où toutes les données sont conservées pendant toute leur durée de vie.
La lignée peut être naturellement fournie par ce type de système autonome sans nécessiter de ressources supplémentaires. Cependant, tout comme avec la méthode de marquage des données, la lignée ne sera pas au courant de tout ce qui se passe en dehors de cet environnement réglementé.
Lignage des données par analyse
Le type de lignage le plus sophistiqué est celui qui lit automatiquement la logique de traitement des données. Pour un traçage complet de bout en bout, cette méthode procède à l'ingénierie inverse de la logique de transformation des données.
Étant donné que cette solution doit comprendre tous les langages de programmation et des outils utilisés pour convertir et transporter les données, son déploiement est compliqué. Cela peut utiliser une logique d'extraction-transformation-chargement (ETL), des solutions basées sur SQL et Java, d'anciens formats de données, des solutions basées sur XML et d'autres techniques.
Cas d'utilisation du lignage des données
La modélisation des données
Les entreprises doivent établir les structures de données sous-jacentes qui les prennent en charge afin de visualiser les nombreux éléments de données et les liens entre eux au sein d'une entreprise. Ces connexions sont modélisées à l'aide de la lignée de données, qui montre également les nombreuses dépendances présentes dans l'écosystème de données.
Les données évoluant dans le temps, de nouvelles sources de données apparaissent constamment, nécessitant de nouvelles intégrations de données, etc. De ce fait, les modèles de données généraux des entreprises pour gérer leurs données doivent également évoluer pour refléter l'environnement.
Conformité
Le lignage des données offre une méthode de conformité pour l'audit, l'amélioration de la gestion des risques et la garantie que les données sont conservées et traitées conformément aux politiques et aux lois sur la gouvernance des données.
Analyse d'impact
Les effets de certains changements commerciaux, tels que tout rapport en aval, peuvent être observés à l'aide d'outils de lignage des données. Le lignage des données, par exemple, peut aider les dirigeants à déterminer le nombre de tableaux de bord qu'un changement de nom affecterait et, par conséquent, le nombre de personnes qui accèdent à ces rapports.
Migration de données
Les organisations utilisent la migration des données pour comprendre où se trouvent les données et depuis combien de temps elles s'y trouvent avant de les transférer vers un nouveau système de stockage ou de mettre en œuvre un nouveau logiciel.
Le lignage des données aide les équipes à se préparer aux mises à niveau ou aux migrations du système en leur donnant un aperçu de la façon dont les données se sont déplacées dans l'organisation. Cela accélère globalement le transfert vers le nouvel environnement de stockage.
De plus, cela donne aux équipes la possibilité de désencombrer le système de données en archivant ou en éliminant les données obsolètes ou inutiles. Ce faisant, le système de données fonctionnera mieux dans l'ensemble et nécessitera moins de gestion des données.
Défis de la mise en œuvre du lignage des données
- Sécurité des données : la sécurité des données est une préoccupation majeure lors de la création de la lignée des données. Pour suivre un parcours de données depuis son point de départ jusqu'à sa destination finale, l'accès aux données sensibles doit être accordé et ces données doivent être protégées contre les accès non autorisés et les violations.
- Manque de standardisation : L'un des principaux obstacles à l'adoption de la lignée des données est le manque de normes. Étant donné que de nombreuses plates-formes, applications et systèmes utilisent des méthodes uniques pour suivre et enregistrer la provenance des données, il peut être difficile de reconstituer une image cohérente d'un parcours de données.
- Silos de données : les silos de données sont un autre problème qui se pose lors de la mise en œuvre du lignage des données. Lorsque les données sont réparties sur plusieurs applications et systèmes, il peut être difficile de suivre leur parcours de l'un à l'autre. Cela peut entraîner un lignage des données inexact ou incomplet.
Conclusion
En conclusion, la lignée des données est un élément essentiel de toute entreprise axée sur les données. Il offre une vision globale du parcours d'une donnée depuis son point de départ jusqu'à son point d'arrivée, garantissant son exactitude, son exhaustivité et sa cohérence.
L'automatisation et la normalisation futures de la lignée des données devraient augmenter, ce qui facilitera la mise en œuvre et la maintenance pour les organisations. En fin de compte, l'importance de la lignée des données ne peut être soulignée.
Il donne aux entreprises les outils dont elles ont besoin pour faire des choix judicieux, gérer leurs opérations plus efficacement et réussir.
Soyez sympa! Laissez un commentaire