Taula de continguts[Amaga][Espectacle]
Les dades estan a tot arreu al teu voltant. En un sentit real, influeix en tots els aspectes del vostre negoci. Podria tenir la sensació que no hi ha prou temps per examinar els detalls de com de bé està donant servei a la vostra empresa quan us preocupa prendre decisions sobre com gestionar les vostres dades.
Observeu això. La vostra organització utilitza dades les 24 hores del dia. Per tant, entendre d'on prové, com va arribar-hi i com s'està movent per l'empresa és crucial per entendre el seu valor.
El llinatge de dades esdevé important en aquesta situació. És més senzill comprendre com es van formar les dades, d'on provenen i cap a on van quan podem fer un seguiment dels orígens, les migracions i els canvis de les dades.
En aquesta publicació, veurem de prop el Data Lineage, com funciona, els seus casos d'ús, tècniques i molt més.
Què és el llinatge de dades?
El llinatge de dades serveix com una mena de passaport digital. És el relat més complet d'un viatge de dades, que detalla totes les seves parades, desviaments i modificacions des del seu origen fins al seu destí final.
IEn essència, el llinatge de dades descriu l'origen, la modificació i l'ús d'una dada en molts sistemes i plataformes. Funciona com una eina de detectius que ofereix als usuaris informació sobre com es van produir les dades, d'on es van originar i com es van utilitzar. Aquesta informació permet als usuaris reconèixer i resoldre qualsevol problema potencial.
El llinatge de dades és un recurs inestimable per a les empreses que depenen de les dades per executar les seves operacions perquè permet als usuaris respondre a preguntes crucials com qui, què, quan i on.
El llinatge de dades és, per dir-ho simplement, la pista de dades definitiva que garanteix la precisió, la integritat i la coherència de les dades alhora que ofereix una perspectiva clara i concisa del camí complet de les dades.
Com funciona Data Lineage?
El llinatge de dades és el full de ruta que ens permet seguir una peça de dades des del seu punt de partida fins al seu punt final. Considereu un punt de dades com a viatger i el seu passaport com el seu llinatge de dades per entendre millor com funciona.
Les fonts de dades, la transformació de dades, l'emmagatzematge de dades i la sortida de dades constitueixen els quatre components principals del passaport.
Els nombrosos sistemes, aplicacions i plataformes dels quals s'originen les dades estan representats per fonts de dades, que serveixen com a punts d'inici per al viatge de les dades. La transformació de dades és l'etapa posterior i el llinatge de dades mostra la progressió de les dades des d'aquestes fonts fins a aquesta.
La transformació de dades fa referència a la configuració, modificació i manipulació de dades per satisfer les necessitats dels usuaris. Funciona com a parada de descans durant el viatge de les dades, preparant-les per a la següent etapa.
Aleshores, les dades s'emmagatzemen abans d'anar a la seva ubicació final. Es podria mantenir en servidors en núvol, bases de dades o algun altre tipus de dispositiu d'emmagatzematge. El llinatge de dades fa un seguiment d'on s'emmagatzemen les dades, així com de com es protegeixen, es fan còpies de seguretat i es recuperen.
El pas final és la sortida de dades, que és on s'envien les dades per utilitzar-les. Es poden utilitzar informes, infografies o qualsevol altre tipus de producte de dades per presentar-lo. El llinatge de dades fa un seguiment de la sortida i garanteix la coherència, la precisió i la integritat de les dades.
El llinatge de dades funciona bàsicament registrant cada etapa del viatge de les dades, des del seu inici fins a la seva sortida, i assegurant-se que es mantingui fiable, coherent i correcte durant tot el procés. El llinatge de dades ajuda les organitzacions a prendre decisions educades, solucionar problemes i complir les obligacions legals donant una visió completa de l'existència de les dades.
Per entendre els actius de dades i com es mouen pel canal de dades, les metadades són una part crucial del procés de llinatge de dades.
Podeu veure com les dades es converteixen i s'utilitzen dins de l'organització mitjançant eines de llinatge de dades, que aprofiten les metadades per proporcionar una representació visual del flux de dades. Això permet als usuaris avaluar el potencial de les dades ajudant-los a prendre decisions millor informades.
Tipus de llinatge de dades
Hi ha tres formes bàsiques de llinatge de dades: llinatge de dades cap endavant, llinatge de dades cap enrere i llinatge de dades bidireccional.
Llinatge de dades endavant
Igual que amb un carrer de sentit únic, el llinatge de dades avançades implica el seguiment d'una dada des del punt inicial fins al punt final. A partir de la font de dades, segueix les dades mentre passen per diverses transformacions i sistemes d'emmagatzematge per arribar a la seva sortida.
La comprensió del processament i la transformació de les dades, així com els problemes que s'hagin pogut sorgir al llarg del camí, es facilita disposar d'un llinatge de dades d'aquest tipus. Cada pas porta al següent; és com seguir un rastre de pa ratllat.
Llinatge de dades enrere
El llinatge de dades enrere és similar a un viatge al revés on tracem la sortida de les dades fins a la seva font. El procés comença a la ubicació final de les dades i es mou cap enrere a través d'una varietat de tècniques d'emmagatzematge i transformació fins que arriba a la font de dades.
La identificació de la font original de les dades, la comprensió de la seva transformació i la verificació de la seva correcció i exhaustivitat són possibles amb l'ajuda d'aquest tipus de llinatge de dades. Funciona com l'eina d'un detectiu, que ens permet seguir el camí de les dades cap enrere.
Llinatge de dades bidireccional
Un llinatge de dades bidireccional i bidireccional combina els avantatges del llinatge de dades cap endavant i cap enrere. Proporciona una visió completa de la ruta de les dades fent-ne un seguiment des de la seva font fins a la seva destinació, així com des d'aquesta ubicació fins al seu punt de partida.
Per tal de determinar la font original de les dades, comprendre com s'han alterat i garantir-ne la qualitat, la coherència i la integritat al llarg del camí, és útil fer un seguiment del llinatge de les dades. Amb informació en temps real sobre la seva ubicació i estat, és com tenir un rastrejador GPS de dades.
Implementació de Data Lineage
La implementació del llinatge de dades en una organització sovint implica les fases següents.
Definir les fonts de dades
S'han d'identificar tots els sistemes i bases de dades que contenen les dades que voleu fer el seguiment. Per fer-ho, primer heu d'identificar les diferents fonts de dades, inclosos els fitxers, les API i els serveis al núvol.
Recolliu les metadades
La següent etapa és adquirir detalls sobre les dades, inclosa la seva ubicació, format i organització. Entendre les característiques de les dades i com s'utilitzen és possible gràcies a aquestes metadades.
Identificar errors de dades
És més senzill entendre com s'actualitzen i s'utilitzen les dades dins de l'organització si el flux de dades es traça des de la seva font fins a la seva destinació, incloses les transformacions o processaments que es produeixin al llarg de la ruta.
Seguiment de l'accés a les dades
Per mantenir la seguretat i el compliment de les dades, feu un seguiment i registreu qui accedeix a les dades.
Emmagatzema i visualitza el llinatge
Utilitzeu eines de visualització per presentar el llinatge per a una comprensió i anàlisi senzilles. Emmagatzemeu les metadades reunides i la informació del flux de dades en un únic dipòsit.
Implementar una solució automatitzada
Podeu verificar que el llinatge de dades s'està recopilant i supervisant mitjançant l'automatització, que també us ajudarà a reduir els errors i augmentar la productivitat.
Revisió i actualització
Assegureu-vos que els registres de llinatge siguin correctes i actualitzats de manera regular i actualitzeu-los segons correspongui.
El procés d'implementació pot ser necessari modificar o afegir fases en funció dels requisits i límits únics de cada organització.
Tècniques de llinatge de dades
Llinatge basat en patrons
Amb aquest mètode, el llinatge es realitza sense haver d'interaccionar amb la programació que va generar o transformar les dades. L'avaluació de metadades per a taules, columnes i informes empresarials en formen part. Explora el llinatge buscant tendències mitjançant aquestes metadades.
Per exemple, és molt probable que una columna de dos conjunts de dades amb el mateix nom i valors de dades idèntics representi les mateixes dades en diferents fases de la seva existència. A continuació, s'utilitza un gràfic de llinatge de dades per connectar aquestes dues columnes.
El llinatge basat en patrons té l'avantatge significatiu de ser independent de la tecnologia perquè només verifica les dades, no els mètodes de processament de dades. Qualsevol tecnologia de base de dades, inclosos Oracle, MySQL i Spark, la pot implementar de la mateixa manera. L'inconvenient és que aquest enfocament no sempre és precís.
Quan la lògica de processament de dades s'amaga al codi de l'ordinador i no és fàcilment òbvia a les metadades llegibles per l'home, de vegades pot passar per alt les relacions entre conjunts de dades.
Llinatge per etiquetatge de dades
Aquest mètode es basa en la idea que un motor de transformació etiqueta o marca dades d'una altra manera. Traça l'etiqueta des del principi fins al final per trobar el llinatge. Aquest enfocament només pot tenir èxit si teniu una eina de transformació fiable que gestioni tota la transferència de dades i esteu familiaritzat amb l'estructura d'etiquetatge que utilitza l'eina.
Fins i tot si existís aquesta eina, cap dada creada o alterada sense ella podria ser sotmesa a llinatge mitjançant l'etiquetatge de dades. En aquest sentit, es limita a realitzar el llinatge de dades en sistemes de dades tancats.
Llinatge autònom
Algunes empreses tenen un entorn de dades que inclou emmagatzematge de metadades, lògica de processament i gestió de dades mestres (MDM). Aquests paràmetres solen incloure a llac de dades on totes les dades es conserven durant tota la seva vida útil.
Aquest tipus de sistema autònom pot proporcionar el llinatge de manera natural sense necessitat de recursos addicionals. Tanmateix, igual que amb el mètode d'etiquetatge de dades, el llinatge no serà conscient de res que passi fora d'aquest entorn regulat.
Llinatge de dades per anàlisi
El tipus de llinatge més sofisticat és aquell que llegeix automàticament la lògica de processament de dades. Per a un seguiment exhaustiu d'extrem a extrem, aquest mètode realitza enginyeria inversa de la lògica de transformació de dades.
Atès que aquesta solució ha de comprendre tots els llenguatges de programació i les eines utilitzades per convertir i transportar les dades, el seu desplegament és complicat. Això pot utilitzar la lògica d'extracció-transformació-càrrega (ETL), solucions basades en SQL i Java, formats de dades antics, solucions basades en XML i altres tècniques.
Casos d'ús del llinatge de dades
Modelització de dades
Les empreses han d'establir les estructures de dades subjacents que les donen suport per tal de visualitzar els nombrosos elements de dades i les connexions entre ells dins d'una empresa. Aquestes connexions es modelen mitjançant el llinatge de dades, que també mostra les moltes dependències presents a l'ecosistema de dades.
Atès que les dades canvien amb el temps, constantment apareixen noves fonts de dades, que requereixen noves integracions de dades, etc. Per això, els models de dades generals de les empreses per gestionar les seves dades també han de canviar per reflectir l'entorn.
Conformitat
El llinatge de dades ofereix un mètode de compliment per auditar, millorar la gestió del risc i assegurar-se que les dades es mantenen i es gestionen d'acord amb les polítiques i les lleis de govern de dades.
Anàlisi d’impacte
Els efectes de determinats canvis empresarials, com ara qualsevol informe posterior, es poden veure mitjançant eines de llinatge de dades. El llinatge de dades, per exemple, pot ajudar els executius a determinar quants taulers afectaria un canvi de nom i, en conseqüència, quantes persones accedeixen a aquests informes.
Migració de dades
Les organitzacions utilitzen la migració de dades per comprendre on es troben les dades i quant de temps hi han estat abans de canviar-les a un nou sistema d'emmagatzematge o implementar programari nou.
El llinatge de dades ajuda els equips a preparar-se per a les actualitzacions o migracions del sistema donant-los una visió general de com s'han mogut les dades per tota l'organització. Això accelera la transferència al nou entorn d'emmagatzematge en general.
A més, ofereix als equips l'oportunitat de netejar el sistema de dades arxivant o eliminant dades obsoletes o inútils. En fer-ho, el sistema de dades funcionarà millor en general i necessitarà menys gestió de les dades.
Reptes de la implementació del llinatge de dades
- Seguretat de dades: la seguretat de les dades és una preocupació principal mentre es construeix un llinatge de dades. Per seguir un viatge de dades des del seu punt de partida fins a la seva destinació final, s'ha de concedir l'accés a dades sensibles, i aquestes dades s'han de protegir contra l'accés no autoritzat i les infraccions.
- Manca d'estandardització: una de les principals barreres per adoptar el llinatge de dades és la manca d'estàndards. Com que moltes plataformes, aplicacions i sistemes utilitzen mètodes únics per rastrejar i registrar la procedència de les dades, pot ser difícil reunir una imatge cohesionada d'un viatge de dades.
- Sitges de dades: les sitges de dades són un altre problema que sorgeix durant la implementació del llinatge de dades. Quan les dades es distribueixen entre diverses aplicacions i sistemes, pot ser difícil fer un seguiment del seu viatge d'una a una altra. Això pot provocar un llinatge de dades inexacte o incomplet.
Conclusió
En conclusió, el llinatge de dades és una part essencial de tota empresa basada en dades. Ofereix una perspectiva integral del camí de les dades des del seu punt de partida fins al seu punt final, garantint-ne la precisió, la integritat i la coherència.
S'espera que l'automatització i l'estandardització del llinatge de dades augmentin, facilitant la implementació i el manteniment de les organitzacions. Al final, no es pot emfatitzar la importància del llinatge de dades.
Ofereix a les empreses les eines que necessiten per prendre decisions sàvies, executar les seves operacions de manera més eficient i aconseguir l'èxit.
Deixa un comentari