Sommario[Nascondere][Spettacolo]
I dati sono ovunque intorno a te. In un certo senso, influenza ogni aspetto della tua attività. Potrebbe sembrare che non ci sia abbastanza tempo per esaminare le specifiche di quanto bene sta servendo la tua azienda quando sei preoccupato delle decisioni su come gestire i tuoi dati.
Osserva questo. La tua organizzazione utilizza i dati 24 ore al giorno. Quindi capire da dove viene, come è arrivato lì e come si sta muovendo all'interno dell'azienda è fondamentale per comprenderne il valore.
La derivazione dei dati diventa importante in questa situazione. È più semplice comprendere come si sono formati i dati, da dove provengono e dove stanno andando quando possiamo tracciare le origini, le migrazioni e le modifiche dei dati.
In questo post, esamineremo da vicino Data Lineage, come funziona, i suoi casi d'uso, le tecniche e molto altro.
Che cos'è la derivazione dei dati?
La derivazione dei dati funge da sorta di passaporto digitale. È il resoconto più completo di un viaggio dati, che descrive in dettaglio tutte le sue fermate, deviazioni e modifiche dalla sua origine alla sua destinazione finale.
IIn sostanza, il data lineage descrive l'origine, la modifica e l'utilizzo di un dato su molti sistemi e piattaforme. Funziona come uno strumento investigativo fornendo agli utenti informazioni su come i dati sono stati prodotti, da dove hanno avuto origine e come sono stati utilizzati. Queste informazioni consentono agli utenti di riconoscere e risolvere eventuali problemi.
La derivazione dei dati è una risorsa inestimabile per le aziende che dipendono dai dati per eseguire le proprie operazioni perché consente agli utenti di rispondere a domande cruciali come chi, cosa, quando e dove.
La derivazione dei dati è, per dirla semplicemente, l'ultima traccia di dati che garantisce l'accuratezza, la completezza e la coerenza dei dati, offrendo al contempo una prospettiva chiara e concisa del percorso completo di un dato.
Come funziona la derivazione dei dati?
La derivazione dei dati è la road map che ci consente di seguire un pezzo di dati dal suo punto di partenza al suo punto finale. Considera un punto dati come un viaggiatore e il suo passaporto come discendenza dei dati per capire meglio come funziona.
Le origini dei dati, la trasformazione dei dati, l'archiviazione dei dati e l'output dei dati costituiscono i quattro componenti principali del passaporto.
I numerosi sistemi, applicazioni e piattaforme da cui provengono i dati sono rappresentati da origini dati, che fungono da punti di partenza per il viaggio dei dati. La trasformazione dei dati è la fase successiva e la derivazione dei dati traccia la progressione dei dati da queste origini ad essa.
La trasformazione dei dati si riferisce alla modellazione, modifica e manipolazione dei dati per soddisfare le esigenze degli utenti. Funziona come punto di ristoro durante il viaggio dei dati, preparandoli per la tappa successiva.
I dati vengono quindi archiviati prima di raggiungere la loro posizione finale. Potrebbe essere conservato su server cloud, database o qualche altro tipo di dispositivo di archiviazione. La derivazione dei dati tiene traccia di dove sono archiviati i dati, nonché di come vengono protetti, sottoposti a backup e recuperati.
Il passaggio finale è l'output dei dati, ovvero il punto in cui i dati vengono inviati per essere utilizzati. Report, infografiche o qualsiasi altro tipo di prodotto di dati potrebbe essere utilizzato per presentarlo. La derivazione dei dati tiene traccia dell'output e garantisce la coerenza, l'accuratezza e la completezza dei dati.
La derivazione dei dati funziona fondamentalmente registrando ogni fase del viaggio dei dati, dall'inizio all'output, e assicurandosi che rimangano affidabili, coerenti e corretti per tutto il percorso. La derivazione dei dati aiuta le organizzazioni a prendere decisioni informate, risolvere problemi e rispettare gli obblighi legali fornendo una visione completa dell'esistenza di un dato.
Per comprendere le risorse di dati e il modo in cui si muovono attraverso la pipeline di dati, i metadati sono una parte cruciale del processo di derivazione dei dati.
Puoi vedere come i dati vengono convertiti e utilizzati all'interno dell'organizzazione utilizzando strumenti di derivazione dei dati, che sfruttano i metadati per fornire una rappresentazione visiva del flusso di dati. Ciò consente agli utenti di valutare il potenziale dei dati aiutandoli a prendere decisioni più informate.
Tipi di derivazione dei dati
Esistono tre forme base di lineage dei dati: lineage dei dati in avanti, lineage dei dati all'indietro e lineage dei dati bidirezionale.
Discendenza dei dati in avanti
Come con una strada a senso unico, la derivazione dei dati in avanti implica il tracciamento di un pezzo di dati dal suo punto di partenza al suo punto finale. A partire dall'origine dati, segue i dati mentre passano attraverso diverse trasformazioni e sistemi di archiviazione per raggiungere il suo output.
La comprensione dell'elaborazione e della trasformazione dei dati, nonché gli eventuali problemi che possono essere sorti lungo il percorso, sono facilitati da un data lineage di questo tipo. Ogni passo conduce al successivo; è come seguire una scia di pangrattato.
Derivazione dei dati all'indietro
La derivazione dei dati all'indietro è simile a un viaggio all'indietro in cui tracciamo l'output dei dati fino alla sua origine. Il processo inizia nella posizione finale dei dati e procede all'indietro attraverso una varietà di tecniche di archiviazione e trasformazione fino a raggiungere l'origine dati.
L'identificazione della fonte originaria del dato, la comprensione della sua trasformazione e la verifica della sua correttezza e completezza sono tutte possibili con l'ausilio di questo tipo di data lineage. Funziona come uno strumento da detective, permettendoci di seguire il percorso dei dati a ritroso.
Derivazione dati bidirezionale
Una linea di dati a doppio senso e bidirezionale combina i vantaggi della linea di dati avanti e indietro. Fornisce una visione completa del percorso dei dati tracciandoli dalla fonte alla destinazione e da quella posizione al punto di partenza.
Per determinare la fonte originale dei dati, comprendere come sono stati modificati e garantirne la qualità, la coerenza e la completezza lungo tutto il percorso, è utile tenere traccia della discendenza dei dati. Con informazioni in tempo reale sulla sua posizione e stato, è come avere un localizzatore GPS per i dati.
Implementazione della derivazione dei dati
L'implementazione della derivazione dei dati in un'organizzazione comporta spesso le seguenti fasi.
Definire le origini dati
I sistemi e i database che contengono i dati che desideri monitorare devono essere tutti identificati. Per fare ciò, devi prima identificare le varie origini dati, inclusi file, API e servizi cloud.
Raccogli i metadati
La fase successiva consiste nell'acquisire dettagli sui dati, inclusa la posizione, il formato e l'organizzazione. Comprendere le caratteristiche dei dati e come vengono utilizzati è reso possibile da questi metadati.
Identifica i difetti dei dati
È più semplice capire come i dati vengono aggiornati e utilizzati all'interno dell'organizzazione se il flusso di dati viene mappato dalla sua origine alla sua destinazione, comprese eventuali trasformazioni o elaborazioni che avvengono lungo il percorso.
Tieni traccia dell'accesso ai dati
Per mantenere la sicurezza e la conformità dei dati, tenere traccia e registrare chi accede ai dati.
Memorizza e visualizza il lignaggio
Utilizza gli strumenti di visualizzazione per presentare il lignaggio per una semplice comprensione e analisi. Memorizza i metadati raccolti e le informazioni sul flusso di dati in un unico repository.
Implementa una soluzione automatizzata
Puoi verificare che la derivazione dei dati venga raccolta e monitorata attraverso l'automazione, che aiuterà anche a ridurre gli errori e aumentare la produttività.
Rivedi e aggiorna
Assicurarsi che i record di discendenza siano corretti e aggiornati su base regolare e aggiornarli come appropriato.
Potrebbe essere necessario modificare o aggiungere fasi al processo di implementazione a seconda dei requisiti e dei limiti unici di ciascuna organizzazione.
Tecniche di derivazione dei dati
Lignaggio basato su modelli
Con questo metodo, il lignaggio viene eseguito senza dover interagire con la programmazione che ha generato o trasformato i dati. Ne fanno parte la valutazione dei metadati per tabelle, colonne e report aziendali. Esplora il lignaggio cercando le tendenze utilizzando questi metadati.
Ad esempio, è molto probabile che una colonna in due set di dati con lo stesso nome e valori di dati identici rappresenti gli stessi dati in fasi diverse della sua esistenza. Viene quindi utilizzato un grafico di derivazione dei dati per collegare queste due colonne.
Il lignaggio basato su modelli ha il vantaggio significativo di essere indipendente dalla tecnologia perché controlla solo i dati, non i metodi di elaborazione dei dati. Qualsiasi tecnologia di database, inclusi Oracle, MySQL e Spark, può implementarlo allo stesso modo. Lo svantaggio è che questo approccio non è sempre preciso.
Quando la logica di elaborazione dei dati è nascosta nel codice del computer e non immediatamente evidente nei metadati leggibili dall'uomo, può occasionalmente trascurare le relazioni tra i set di dati.
Discendenza tramite tagging dei dati
Questo metodo si basa sull'idea che un motore di trasformazione contrassegna o contrassegna in altro modo i dati. Traccia il tag dall'inizio alla fine per trovare il lignaggio. Questo approccio può avere successo solo se si dispone di uno strumento di trasformazione affidabile che gestisce tutti i trasferimenti di dati e si ha familiarità con la struttura di tagging impiegata dallo strumento.
Anche se un tale strumento dovesse esistere, nessun dato creato o alterato senza di esso potrebbe essere soggetto a discendenza tramite l'etichettatura dei dati. A questo proposito è limitato all'esecuzione del data lineage su sistemi di dati chiusi.
Lignaggio autonomo
Alcune aziende dispongono di un ambiente di dati che include l'archiviazione dei metadati, la logica di elaborazione e la gestione dei dati master (MDM). Queste impostazioni includono spesso a lago dati dove tutti i dati sono conservati per tutta la loro durata.
Il lignaggio può essere naturalmente fornito da questo tipo di sistema autonomo senza la necessità di risorse aggiuntive. Tuttavia, proprio come con il metodo di tagging dei dati, il lignaggio non sarà a conoscenza di nulla che si verifica al di fuori di questo ambiente regolamentato.
Derivazione dei dati mediante analisi
Il tipo più sofisticato di lignaggio è quello che legge automaticamente la logica di elaborazione dei dati. Per un tracciamento completo e completo, questo metodo esegue il reverse engineering della logica di trasformazione dei dati.
Poiché questa soluzione deve comprendere tutti i file linguaggi di programmazione e gli strumenti utilizzati per convertire e trasportare i dati, la sua implementazione è complicata. Ciò potrebbe utilizzare la logica ETL (extract-transform-load), soluzioni basate su SQL e Java, vecchi formati di dati, soluzioni basate su XML e altre tecniche.
Casi d'uso della derivazione dei dati
Modellazione dei dati
Le aziende devono stabilire le strutture di dati sottostanti che le supportano al fine di visualizzare i numerosi elementi di dati e le connessioni tra di loro all'interno di un'azienda. Queste connessioni sono modellate utilizzando la derivazione dei dati, che mostra anche le numerose dipendenze presenti nell'ecosistema dei dati.
Poiché i dati cambiano nel tempo, appaiono costantemente nuove fonti di dati, che richiedono nuove integrazioni di dati, ecc. Per questo motivo, anche i modelli di dati generali delle aziende per la gestione dei propri dati devono cambiare per riflettere l'ambiente.
Conformità
La derivazione dei dati offre un metodo di conformità per il controllo, il miglioramento della gestione del rischio e la garanzia che i dati siano conservati e gestiti in conformità con le politiche e le leggi sulla governance dei dati.
Analisi d'impatto
Gli effetti di alcuni cambiamenti aziendali, come qualsiasi reporting a valle, possono essere visualizzati utilizzando gli strumenti di derivazione dei dati. La derivazione dei dati, ad esempio, potrebbe aiutare i dirigenti a determinare il numero di dashboard che una modifica del nome influirebbe e, di conseguenza, quante persone accedono a tale report.
Migrazione dei dati
Le organizzazioni utilizzano la migrazione dei dati per comprendere dove si trovano i dati e da quanto tempo sono rimasti lì prima di spostarli su un nuovo sistema di archiviazione o implementare un nuovo software.
La derivazione dei dati aiuta i team a prepararsi per gli aggiornamenti o le migrazioni del sistema, fornendo loro una panoramica di come i dati si sono spostati all'interno dell'organizzazione. Questo velocizza il trasferimento al nuovo ambiente di storage in generale.
Inoltre, offre ai team la possibilità di ripulire il sistema di dati archiviando o eliminando dati obsoleti o inutili. In questo modo, il sistema di dati funzionerà complessivamente meglio e necessiterà di una minore gestione dei dati.
Sfide dell'implementazione della derivazione dei dati
- Sicurezza dei dati: la sicurezza dei dati è una preoccupazione primaria durante la creazione della discendenza dei dati. Per seguire un viaggio di dati dal punto di partenza alla destinazione finale, è necessario concedere l'accesso ai dati sensibili e questi dati devono essere protetti da accessi non autorizzati e violazioni.
- Mancanza di standardizzazione: uno dei principali ostacoli all'adozione del data lineage è la mancanza di standard. Poiché molte piattaforme, app e sistemi utilizzano metodi unici per tracciare e registrare la provenienza dei dati, può essere difficile mettere insieme un'immagine coerente di un percorso di dati.
- Silos di dati: i silos di dati sono un altro problema che si pone durante l'implementazione della derivazione dei dati. Quando i dati sono distribuiti su più applicazioni e sistemi, potrebbe essere difficile tracciarne il percorso dall'uno all'altro. Ciò potrebbe portare a una derivazione dei dati imprecisa o incompleta.
Conclusione
In conclusione, la derivazione dei dati è una parte essenziale di ogni impresa basata sui dati. Offre una prospettiva completa del percorso di un dato dal punto iniziale al punto finale, garantendone l'accuratezza, la completezza e la coerenza.
Si prevede che l'automazione e la standardizzazione future della derivazione dei dati aumenteranno, semplificando l'implementazione e la manutenzione per le organizzazioni. Alla fine, l'importanza della discendenza dei dati non può essere enfatizzata.
Fornisce alle aziende gli strumenti di cui hanno bisogno per fare scelte oculate, gestire le loro operazioni in modo più efficiente e raggiungere il successo.
Lascia un Commento