Cuprins[Ascunde][Spectacol]
Datele sunt peste tot în jurul tău. Într-un sens real, influențează fiecare aspect al afacerii tale. S-ar putea să simtă că nu este suficient timp pentru a examina detaliile despre cât de bine vă servește afacerea atunci când sunteți preocupat de deciziile cu privire la modul în care vă gestionați datele.
Observați acest lucru. Organizația dvs. utilizează date 24 de ore pe zi. Așa că înțelegerea de unde a venit, cum a ajuns acolo și cum se deplasează prin companie este crucială pentru a înțelege valoarea acesteia.
Linia datelor devine importantă în această situație. Este mai simplu să înțelegem cum s-au format datele, de unde au venit și încotro se îndreaptă atunci când putem urmări originile, migrațiile și modificările datelor.
În această postare, ne vom uita îndeaproape la Data Lineage, cum funcționează, cazurile de utilizare, tehnicile și multe altele.
Ce este Data Lineage?
Linia de date servește ca un fel de pașaport digital. Este cel mai cuprinzător raport al unei călătorii de date, care detaliază toate opririle, ocolirile și modificările sale de la origine până la destinația sa eventuală.
IÎn esență, descendența datelor descrie originea, modificarea și utilizarea unei date în multe sisteme și platforme. Funcționează ca instrument de detectiv, oferind utilizatorilor informații despre cum au fost produse datele, de unde au provenit și cum au fost utilizate. Aceste informații le permit utilizatorilor să recunoască și să rezolve orice probleme potențiale.
Linia de date este o resursă de neprețuit pentru companiile care depind de date pentru a-și desfășura operațiunile, deoarece le permite utilizatorilor să răspundă la întrebări cruciale precum cine, ce, când și unde.
Linia de date este, pentru a spune simplu, traseul final de date care garantează acuratețea, completitudinea și coerența datelor, oferind în același timp o perspectivă clară și succintă a căii complete a datelor.
Cum funcționează Data Lineage?
Linia de date este foaia de parcurs care ne permite să urmărim o bucată de date de la punctul de pornire până la punctul final. Luați în considerare un punct de date ca un călător, iar pașaportul său ca descendență de date pentru a înțelege mai bine cum funcționează.
Sursele de date, transformarea datelor, stocarea datelor și ieșirea datelor alcătuiesc cele patru componente principale ale pașaportului.
Numeroasele sisteme, aplicații și platforme din care provin datele sunt reprezentate de surse de date, care servesc drept puncte de început pentru călătoria datelor. Transformarea datelor este etapa ulterioară, iar descendența datelor prezintă progresia datelor de la aceste surse la aceasta.
Transformarea datelor se referă la modelarea, modificarea și manipularea datelor pentru a satisface nevoile utilizatorilor. Funcționează ca o oprire în timpul călătoriei datelor, pregătindu-l pentru următoarea etapă.
Datele sunt apoi stocate înainte de a merge la locația finală. Poate fi păstrat pe servere cloud, baze de date sau alt tip de dispozitiv de stocare. Linia de date ține evidența unde sunt stocate datele, precum și modul în care sunt protejate, copiate de rezervă și recuperate.
Pasul final este ieșirea datelor, care este locul în care datele sunt trimise pentru a fi utilizate. Rapoarte, infografice sau orice alt tip de produs de date pot fi folosite pentru a le prezenta. Linia datelor ține evidența rezultatelor și garantează consistența, acuratețea și caracterul complet al datelor.
Linia de date funcționează, practic, prin înregistrarea fiecărei etape a călătoriei datelor, de la început până la ieșire, și asigurându-se că rămâne fiabilă, consecventă și corectă pe tot parcursul. Linia datelor ajută organizațiile să ia decizii informate, să rezolve probleme și să adere la obligațiile legale, oferind o imagine completă a existenței datelor.
Pentru a înțelege activele de date și modul în care acestea se deplasează prin conducta de date, metadatele sunt o parte crucială a procesului de generație a datelor.
Puteți vedea cum datele sunt convertite și utilizate în cadrul organizației folosind instrumente de generație a datelor, care folosesc metadatele pentru a oferi o descriere vizuală a fluxului de date. Acest lucru le permite utilizatorilor să evalueze potențialul datelor, ajutându-i să ia decizii mai bine informate.
Tipuri de linie de date
Există trei forme de bază de descendență de date: descendență de date înainte, descendență de date înapoi și descendență de date bidirecțională.
Linia de date înainte
Ca și în cazul unei străzi cu sens unic, descendența de date înainte implică urmărirea unei date de la punctul de pornire până la punctul final. Pornind de la sursa de date, urmărește datele pe măsură ce trec prin mai multe transformări și sisteme de stocare pentru a ajunge la rezultatul lor.
Înțelegerea prelucrării și transformării datelor, precum și a oricăror probleme care ar fi putut apărea pe parcurs sunt facilitate de existența unui gen de date de acest fel. Fiecare pas duce la următorul; este ca și cum ai urma o urmă de pesmet.
Linia de date înapoi
Linia de date înapoi este similară cu o călătorie inversă în care urmărim rezultatul datelor înapoi la sursa lor. Procesul începe la locația finală a datelor și se deplasează înapoi printr-o varietate de tehnici de stocare și transformare până când ajunge la sursa de date.
Identificarea sursei inițiale a datelor, înțelegerea transformării lor și verificarea corectitudinii și completității acestora sunt toate posibile cu ajutorul acestui tip de linie de date. Funcționează ca instrumentul unui detectiv, permițându-ne să urmăm calea datelor înapoi.
Linia de date bidirecțională
O filiație de date bidirecțională și bidirecțională combină avantajele filiației de date înainte și înapoi. Oferă o vedere cuprinzătoare a traseului datelor, urmărindu-le de la sursă până la destinație, precum și de la acea locație până la punctul de plecare.
Pentru a determina sursa inițială a datelor, pentru a înțelege modul în care au fost modificate și pentru a garanta calitatea, consecvența și completitudinea acestora pe tot parcursul drumului, este util să urmăriți descendența datelor. Cu informații în timp real despre locația și starea sa, este ca și cum ai avea un tracker GPS pentru date.
Implementarea liniei de date
Implementarea descendenței datelor într-o organizație implică frecvent următoarele faze.
Definiți sursele de date
Ar trebui identificate toate sistemele și bazele de date care dețin datele pe care doriți să le urmăriți. Pentru a face acest lucru, trebuie mai întâi să identificați diferitele surse de date, inclusiv fișiere, API-uri și servicii cloud.
Colectați metadatele
Următoarea etapă este obținerea detaliilor despre date, inclusiv locația, formatul și organizarea acestora. Înțelegerea caracteristicilor datelor și a modului în care sunt utilizate este posibilă prin aceste metadate.
Identificați defectele de date
Este mai simplu de înțeles cum sunt actualizate și utilizate datele în cadrul organizației dacă fluxul de date este mapat de la sursă la destinație, inclusiv orice transformări sau procesări care au loc de-a lungul rutei.
Urmăriți accesul la date
Pentru a menține securitatea și conformitatea datelor, urmăriți și înregistrați cine accesează datele.
Stocați și vizualizați descendența
Utilizați instrumente de vizualizare pentru a prezenta descendența pentru o înțelegere și o analiză simplă. Stocați metadatele adunate și informațiile despre fluxul de date într-un singur depozit.
Implementați o soluție automatizată
Puteți verifica că descendența datelor este adunată și monitorizată prin automatizare, ceea ce va ajuta, de asemenea, la reducerea greșelilor și la creșterea productivității.
Revizuire și actualizare
Asigurați-vă că înregistrările de descendență sunt corecte și actuale în mod regulat și actualizați-le după caz.
Procesul de implementare poate fi necesar să fie modificat sau adăugat la faze, în funcție de cerințele și limitele unice ale fiecărei organizații.
Tehnici de linie de date
Linie bazată pe modele
Cu această metodă, descendența este realizată fără a fi nevoie să interacționeze cu programarea care a generat sau transformat datele. Evaluarea metadatelor pentru tabele, coloane și rapoarte de afaceri fac parte din aceasta. Explorează descendența căutând tendințe folosind aceste metadate.
De exemplu, este foarte probabil ca o coloană din două seturi de date cu același nume și valori de date identice să reprezinte aceleași date în diferite faze ale existenței sale. O diagramă de descendență a datelor este apoi utilizată pentru a conecta cele două coloane.
Linia bazată pe modele are avantajul semnificativ de a fi independentă de tehnologie, deoarece verifică doar datele, nu metodele de procesare a datelor. Orice tehnologie de baze de date, inclusiv Oracle, MySQL și Spark, o poate implementa în același mod. Dezavantajul este că această abordare nu este întotdeauna precisă.
Atunci când logica de prelucrare a datelor este ascunsă în codul computerului și nu este ușor evidentă în metadatele care pot fi citite de om, ocazional poate trece cu vederea relațiile dintre seturile de date.
Linie prin etichetarea datelor
Această metodă se bazează pe ideea că un motor de transformare etichetează sau marchează în alt mod datele. Urmează eticheta de la început până la sfârșit pentru a găsi descendența. Această abordare poate avea succes numai dacă aveți un instrument de transformare de încredere care gestionează tot transferul de date și sunteți familiarizat cu structura de etichetare pe care o folosește instrumentul.
Chiar dacă un astfel de instrument ar exista, nicio dată care a fost creată sau modificată fără el nu ar putea fi supusă descendenței prin etichetarea datelor. În acest sens, se limitează la efectuarea unei linii de date pe sisteme de date închise.
Linie autonomă
Unele companii au un mediu de date care include stocarea metadatelor, logica de procesare și managementul datelor de bază (MDM). Aceste setări includ frecvent a lac de date unde toate datele sunt păstrate pe toată durata de viață.
Linia poate fi asigurată în mod natural de acest tip de sistem autonom, fără a necesita resurse suplimentare. Cu toate acestea, la fel ca și în cazul metodei de etichetare a datelor, descendența nu va fi conștientă de nimic care se întâmplă în afara acestui mediu reglementat.
Linia de date prin analizare
Cel mai sofisticat tip de descendență este cel care citește automat logica de procesare a datelor. Pentru urmărirea amănunțită, de la capăt la capăt, această metodă realizează ingineria inversă a logicii transformării datelor.
Deoarece această soluție trebuie să cuprindă toate limbaje de programare și instrumentele folosite pentru a converti și transporta datele, implementarea lor este complicată. Aceasta poate utiliza logica extracție-transformare-încărcare (ETL), soluții bazate pe SQL și Java, formate de date vechi, soluții bazate pe XML și alte tehnici.
Cazuri de utilizare a liniei de date
Modelarea datelor
Companiile trebuie să stabilească structurile de date subiacente care le susțin pentru a vizualiza numeroasele elemente de date și conexiunile dintre ele în interiorul unei companii. Aceste conexiuni sunt modelate folosind descendența datelor, care arată, de asemenea, numeroasele dependențe prezente în ecosistemul de date.
Deoarece datele se modifică în timp, apar în mod constant noi surse de date, necesitând noi integrări de date etc. Din acest motiv, modelele generale de date ale firmelor pentru gestionarea datelor trebuie să se schimbe, de asemenea, pentru a reflecta mediul.
Conformitate
Linia datelor oferă o metodă de conformitate pentru auditare, îmbunătățirea managementului riscului și asigurarea faptului că datele sunt păstrate și gestionate în conformitate cu politicile și legile de guvernare a datelor.
Analiza impactului
Efectele anumitor modificări ale afacerii, cum ar fi orice raportare în aval, pot fi observate folosind instrumente de generație a datelor. Linia de date, de exemplu, ar putea ajuta directorii să determine câte tablouri de bord ar afecta o schimbare de nume și, în consecință, câte persoane accesează raportarea respectivă.
Migratia datelor
Organizațiile folosesc migrarea datelor pentru a înțelege unde se află datele și cât timp au fost acolo înainte de a le trece la un nou sistem de stocare sau de a implementa un nou software.
Linia de date ajută echipele să se pregătească pentru upgrade-uri sau migrări ale sistemului, oferindu-le o privire de ansamblu asupra modului în care datele s-au mutat în organizație. Acest lucru accelerează transferul în noul mediu de stocare în general.
În plus, oferă echipelor șansa de a dezordine sistemul de date prin arhivarea sau eliminarea datelor învechite sau inutile. Procedând astfel, sistemul de date va funcționa mai bine în general și va avea nevoie de mai puțină gestionare a datelor.
Provocări ale implementării liniei de date
- Securitatea datelor: Securitatea datelor este o preocupare principală atunci când se construiește descendența datelor. Pentru a urmări o călătorie a datelor de la punctul de plecare până la destinația finală, trebuie să se acorde acces la datele sensibile, iar aceste date trebuie protejate împotriva accesului neautorizat și a încălcărilor.
- Lipsa standardizării: Una dintre barierele principale în calea adoptării descendenței datelor este lipsa standardelor. Întrucât multe platforme, aplicații și sisteme folosesc metode unice pentru urmărirea și înregistrarea provenienței datelor, poate fi dificil să împletești o imagine coerentă a călătoriei datelor.
- Silozuri de date: silozurile de date sunt o altă problemă care apare în timpul implementării descendenței datelor. Atunci când datele sunt răspândite în mai multe aplicații și sisteme, ar putea fi o provocare să-și urmărească călătoria de la una la alta. Acest lucru poate duce la generarea datelor inexacte sau incomplete.
Concluzie
În concluzie, descendența datelor este o parte esențială a oricărei întreprinderi bazate pe date. Oferă o perspectivă cuprinzătoare a căii datelor de la punctul de pornire până la punctul final, garantând acuratețea, completitudinea și coerența acesteia.
Se așteaptă ca automatizarea și standardizarea viitoarelor date să crească, facilitând implementarea și întreținerea organizațiilor. În cele din urmă, semnificația descendenței datelor nu poate fi subliniată.
Oferă companiilor instrumentele de care au nevoie pentru a face alegeri înțelepte, pentru a-și conduce operațiunile mai eficient și pentru a obține succes.
Lasă un comentariu