Table of Contents[Ferstopje][Toanje]
Gegevens binne oeral om dy hinne. Yn in echte sin hat it ynfloed op elk aspekt fan jo bedriuw. It kin fiele dat d'r net genôch tiid is om de spesifiken te ûndersykjen fan hoe goed it jo bedriuw tsjinnet as jo dwaande binne mei besluten oer hoe jo jo gegevens moatte behannelje.
Observearje dit. Jo organisaasje brûkt gegevens 24 oeren deis. Sa begripe wêr't it wei kaam, hoe't it dêr kaam, en hoe't it troch it bedriuw beweecht, is krúsjaal om de wearde te begripen.
Data lineage wurdt wichtich yn dizze situaasje. It is ienfâldiger om te begripen hoe't gegevens binne foarme, wêr't se wei kamen, en wêr't it hinne giet as wy de oarsprong, migraasjes en feroaringen fan 'e gegevens kinne folgje.
Yn dit post sille wy nau sjen nei Data Lineage, hoe't it wurket, har gebrûksgefallen, techniken, en folle mear.
Wat is Data Lineage?
Data lineage tsjinnet as in soarte fan digitaal paspoart. It is it meast wiidweidige akkount fan in gegevensreis, mei detaillearre al syn haltes, omwegen en wizigingen fan har oarsprong nei syn úteinlike bestimming.
In essinsje beskriuwt data lineage de oarsprong, modifikaasje en gebrûk fan in stikje gegevens oer in protte systemen en platfoarms. It funksjonearret as in detective-ark troch brûkers ynformaasje te jaan oer hoe't gegevens binne produsearre, wêr't se ûntstien binne en hoe't se waarden brûkt. Dizze ynformaasje stelt brûkers yn steat om potinsjele problemen te herkennen en op te lossen.
Data lineage is in kostbere boarne foar bedriuwen dy't ôfhinklik binne fan gegevens om har operaasjes út te fieren, om't it brûkers yn steat stelt om te reagearjen op krúsjale fragen lykas wa, wat, wannear en wêr.
Gegevenslineage is, om it gewoan te sizzen, it ultime gegevensspoar dat de krektens, folsleinens en konsistinsje fan gegevens garandearret, wylst it in dúdlik en beknopt perspektyf biedt fan it folsleine paad fan in gegevens.
Hoe wurket Data Lineage?
Data lineage is de dykkaart wêrmei't wy in stikje gegevens kinne folgje fan it begjinpunt oant it einpunt. Beskôgje in gegevenspunt as reizger, en syn paspoart as syn gegevenslineage om better te begripen hoe't it funksjonearret.
Gegevensboarnen, gegevenstransformaasje, gegevensopslach en gegevensútfier meitsje de fjouwer primêre komponinten fan it paspoart út.
De protte systemen, applikaasjes en platfoarms wêrfan de gegevens ûntsteane wurde fertsjintwurdige troch gegevensboarnen, dy't as begjinpunten tsjinje foar de reis fan 'e gegevens. Gegevenstransformaasje is it folgjende poadium, en gegevenslineage diagrammet de foarútgong fan 'e gegevens fan dizze boarnen nei it.
Datatransformaasje ferwiist nei it foarmjen, wizigjen en manipulearjen fan gegevens om te foldwaan oan behoeften fan brûkers. It funksjonearret as in rêststop tidens de reis fan 'e gegevens, dy't it taret foar de folgjende skonk.
De gegevens wurde dan opslein foardat se nei har definitive lokaasje gean. It koe wurde bewarre op wolkservers, databases, of in oar soarte opslachapparaat. Data lineage hâldt by wêr't de gegevens wurde opslein, lykas hoe't se wurde beskerme, reservekopy en weromfûn.
De lêste stap is gegevensútfier, dat is wêr't de gegevens stjoerd wurde om te brûken. Rapporten, infografiken, of in oar type gegevensprodukt kinne brûkt wurde om it te presintearjen. Data lineage hâldt de útfier by en garandearret de konsistinsje, krektens en folsleinens fan 'e gegevens.
Data lineage wurket yn prinsipe troch elke faze fan 'e reis fan' e gegevens op te nimmen, fan 'e begjin oant syn útfier, en derfoar te soargjen dat it betrouber, konsekwint en hielendal troch bliuwt. Data lineage helpt organisaasjes om oplate besluten te nimmen, problemen op te lossen en te hâlden oan juridyske ferplichtingen troch in folslein sicht te jaan fan it bestean fan in gegevens.
Om de gegevensaktiva te begripen en hoe't se troch de gegevenspipeline bewege, is metadata in krúsjaal ûnderdiel fan it datalineageproses.
Jo kinne sjen hoe't gegevens wurde omboud en brûkt binnen de organisaasje mei help fan ark foar gegevenslineage, dy't metadata brûke om in fisuele ôfbylding fan 'e gegevensstream te leverjen. Dit stelt brûkers yn steat om it potinsjeel fan 'e gegevens te beoardieljen en har te helpen better ynformeare besluten te nimmen.
Soarten Data Lineage
D'r binne trije basisfoarmen fan datalineage: foarút datalineage, efterút datalineage, en bi-directional data lineage.
Forward Data Lineage
Lykas by in ienrjochtingsstrjitte, omfettet foarút gegevenslineage it folgjen fan in stik gegevens fan it begjinpunt nei it einpunt. Begjin fan 'e gegevensboarne folget it de gegevens as it troch ferskate transformaasjes en opslachsystemen giet om har útfier te berikken.
Begryp fan 'e ferwurking en transformaasje fan gegevens, lykas alle problemen dy't ûnderweis kinne ûntstean, wurde fasilitearre troch it hawwen fan in dataline fan dit soarte. Elke stap liedt ta de folgjende; it is as folgjen fan in spoar fan bôlekruimels.
Backward Data Lineage
Efterút gegevenslineage is gelyk oan in reis yn omkearde wêr't wy de útfier fan 'e gegevens werom nei har boarne trace. It proses begjint op 'e definitive lokaasje fan' e gegevens en beweecht efterút troch in ferskaat oan opslach- en transformaasjetechniken oant it de gegevensboarne berikt.
Identifikaasje fan 'e orizjinele boarne fan' e gegevens, begryp fan har transformaasje, en ferifikaasje fan 'e krektens en folsleinens binne allegear mooglik mei help fan dit soarte fan gegevenslineage. It wurket as in detective-ark, wêrtroch't wy it paad fan 'e gegevens efterút kinne folgje.
Bi-directional Data Lineage
In twa-rjochting strjitte, bi-directional data lineage kombinearret de foardielen fan foarút en efterút data lineage. It biedt in wiidweidich werjefte fan 'e rûte fan' e gegevens troch it te folgjen fan 'e boarne nei har bestimming, lykas fan dy lokaasje nei it begjinpunt.
Om de oarspronklike boarne fan 'e gegevens te bepalen, te begripen hoe't se binne feroare, en har kwaliteit, konsistinsje en folsleinens ûnderweis te garandearjen, is it nuttich om de lineage fan 'e gegevens te folgjen. Mei real-time ynformaasje oer syn lokaasje en status, it is as in GPS tracker foar gegevens.
Útfiering fan Data Lineage
It ymplementearjen fan gegevenslineage yn in organisaasje omfettet faak de folgjende fazen.
Definiearje de gegevens boarnen
De systemen en databases dy't de gegevens hâlde dy't jo wolle folgje moatte allegear wurde identifisearre. Om dit te dwaan, moatte jo earst de ferskate gegevensboarnen identifisearje, ynklusyf bestannen, API's en wolktsjinsten.
Sammelje de metadata
De folgjende poadium is om details oer de gegevens te krijen, ynklusyf de lokaasje, opmaak en organisaasje. Begryp fan 'e funksjes fan' e gegevens en hoe't it wurdt brûkt wurdt mooglik makke troch dizze metadata.
Identifisearje gegevens gebreken
It is ienfâldiger om te begripen hoe't gegevens wurde bywurke en brûkt binnen de organisaasje as de stream fan gegevens wurdt yn kaart brocht fan har boarne nei har bestimming, ynklusyf alle transformaasjes of ferwurking dy't plakfine lâns de rûte.
Track gegevens tagong
Om gegevensfeiligens en neilibjen te behâlden, folgje en registrearje wa't tagong hat ta de gegevens.
Bewarje en fisualisearje de lineage
Brûk fisualisaasjeark om de lineage te presintearjen foar ienfâldich begryp en analyse. Bewarje de sammele metadata en gegevensstreamynformaasje yn ien repository.
Implementearje in automatisearre oplossing
Jo kinne ferifiearje dat gegevenslineage wurdt sammele en kontroleare troch automatisearring, wat ek sil helpe om flaters te besunigjen en de produktiviteit te ferheegjen.
Review & Update
Meitsje dat de lineage records op in reguliere basis korrekt en aktueel binne, en aktualisearje it as passend.
It ymplemintaasjeproses moat miskien wurde wizige of tafoege oan fazen ôfhinklik fan 'e unike easken en grinzen fan elke organisaasje.
Data Lineage Techniques
Patroan-basearre Lineage
Mei dizze metoade wurdt lineage útfierd sûnder hoege te ynteraksje mei de programmearring dy't de gegevens generearre of transformearre. Metadata-beoardieling foar tabellen, kolommen en saaklike rapporten binne der allegear diel fan. It ûndersiket lineage troch te sykjen nei trends mei dizze metadata.
Bygelyks, it is heul wierskynlik dat in kolom yn twa datasets mei deselde namme en identike gegevenswearden deselde gegevens fertsjintwurdiget yn ferskate fazen fan har bestean. In data lineage chart wurdt dan brûkt om dizze twa kolommen te ferbinen.
Patroan-basearre lineage hat it wichtige foardiel fan technologyûnôfhinklik te wêzen, om't it gewoan gegevens kontrolearret, net gegevensferwurkingsmetoaden. Elke databanktechnology, ynklusyf Oracle, MySQL, en Spark, kin it op deselde manier ymplementearje. It neidiel is dat dizze oanpak net altyd krekt is.
As de logika foar gegevensferwurking ferburgen is yn 'e kompjûterkoade en net maklik dúdlik is yn minsklik lêsbere metadata, kin it soms relaasjes tusken datasets oersjen.
Lineage troch Data Tagging
Dizze metoade is basearre op it idee dat in transformaasjemotor gegevens tagget of oars markearret. It traceart de tag fan begjin oant ein om lineage te finen. Dizze oanpak kin allinich suksesfol wêze as jo in betrouber transformaasje-ark hawwe dat alle gegevensferfier beheart en jo binne bekend mei de taggingstruktuer dy't it ark brûkt.
Sels as sa'n ark bestean soe, kinne gjin gegevens dy't sûnder dat makke binne of feroare wurde kinne ûnderwurpen wurde oan lineage fia datatagging. It is yn dit ferbân beheind ta it útfieren fan gegevenslineage op sletten gegevenssystemen.
Self-Contained Lineage
Guon bedriuwen hawwe in gegevensomjouwing dy't metadata-opslach, ferwurkingslogika en masterdatabehear (MDM) omfettet. Dizze ynstellingen befetsje faak in data lake wêr't alle gegevens yn 'e hiele libbensperioade bewarre wurde.
Lineage kin fansels wurde levere troch dit soarte fan selsstannich systeem sûnder de eask foar ekstra boarnen. Krekt as by de metoade foar data-tagging, sil lineage lykwols net bewust wêze fan alles dat bûten dizze regulearre omjouwing foarkomt.
Data Lineage troch Parsing
It meast ferfine type lineage is ien dy't logika foar gegevensferwurking automatysk lêst. Foar yngeande, end-to-end tracing, reverse engineert dizze metoade de datatransformaasjelogika.
Sûnt dizze oplossing moat begripe alle fan de programmeertalen en ark brûkt om de gegevens te konvertearjen en te ferfieren, de ynset is yngewikkeld. Dit kin extract-transform-load (ETL) logika, SQL- en Java-basearre oplossingen, âlde gegevensformaten, XML-basearre oplossingen en oare techniken brûke.
Data Lineage Use Cases
Data modeling
Bedriuwen moatte de ûnderlizzende gegevensstruktueren fêststelle dy't har stypje om de protte gegevensitems en de ferbiningen dêrtusken binnen in bedriuw te visualisearjen. Dizze ferbiningen wurde modeleare mei gegevenslineage, dy't ek de protte ôfhinklikens sjen litte oanwêzich yn it gegevensekosysteem.
Om't gegevens yn 'e rin fan' e tiid feroarje, ferskine konstant nije gegevensboarnen, dy't nije gegevensyntegraasjes nedich binne, ensfh. Hjirtroch moatte de algemiene gegevensmodellen fan bedriuwen foar it behearen fan har gegevens ek feroarje om de omjouwing te reflektearjen.
Compliance
Data lineage biedt in neilibjen metoade foar auditing, ferbetterjen risiko behear, en soargje derfoar dat gegevens wurde hâlden en behannele yn oerienstimming mei gegevens bestjoer belied en wetten.
Effektanalyse
De effekten fan beskate saaklike feroarings, lykas elke downstream-rapportaazje, kinne wurde sjoen mei help fan datalineage-ark. Gegevenslineage kin bygelyks bestjoerders helpe by it bepalen fan hoefolle dashboards in nammeferoaring soe beynfloedzje en, dus, hoefolle minsken tagong krije ta dy rapportaazje.
Gegevensmigraasje
Organisaasjes brûke gegevensmigraasje om te begripen wêr't de gegevens lizze en hoe lang it d'r west hat foardat se nei in nij opslachsysteem ferpleatse of nije software ymplementearje.
Data lineage helpt teams har tariede op systeemupgrades of migraasjes troch har in oersjoch te jaan fan hoe't de gegevens troch de organisaasje binne ferpleatst. Dit fersnelt de oerdracht nei de nije opslachomjouwing yn 't algemien.
Derneist jout it teams de kâns om it gegevenssysteem te declutter troch ferâldere of nutteleaze gegevens te argivearjen of te eliminearjen. Troch dit te dwaan, sil it gegevenssysteem algemien better prestearje en minder behear fan gegevens nedich wêze.
Útdagings fan it útfieren fan gegevens lineage
- Gegevensfeiligens: Gegevensfeiligens is in primêre soarch by it bouwen fan gegevenslineage. Om in gegevensreis te folgjen fan har begjinpunt nei syn definitive bestimming, moat tagong ta gefoelige gegevens wurde ferliend, en dizze gegevens moatte wurde beskerme tsjin net autorisearre tagong en ynbreuken.
- Gebrek oan standerdisearring: Ien fan 'e primêre barriêres foar it omearmjen fan gegevenslineage is it gebrek oan noarmen. Om't in protte platfoarms, apps en systemen unike metoaden brûke foar it folgjen en opnimmen fan gegevensherkomst, kin it lestich wêze om in gearhingjend byld fan in gegevensreis te kombinearjen.
- Gegevenssilo's: Gegevenssilo's binne in oar probleem dat ûntstiet by it ymplementearjen fan gegevenslineage. As gegevens binne ferspraat oer ferskate applikaasjes en systemen, kin it útdaagjend wêze om har reis fan de iene nei de oare te folgjen. Dit kin liede ta ûnkrekt of ûnfolsleine gegevenslineage.
Konklúzje
Ta beslút, gegevens lineage is in essinsjeel ûnderdiel fan elke gegevens-oandreaune ûndernimming. It biedt in wiidweidich perspektyf fan it paad fan in gegevens fan it begjinpunt nei it einpunt, en garandearret har krektens, folsleinens en konsistinsje.
Takomstige automatisearring en standerdisearring fan gegevensline wurde ferwachte te ferheegjen, wêrtroch ymplemintaasje en ûnderhâld foar organisaasjes makliker wurde. Uteinlik kin de betsjutting fan gegevenslineage net beklamme wurde.
It jout bedriuwen de ark dy't se nedich binne om wize karren te meitsjen, har operaasjes effisjinter út te fieren en sukses te berikken.
Leave a Reply