Talaan ng nilalaman[Tago][Ipakita]
Ang data ay nasa lahat ng dako sa paligid mo. Sa totoong kahulugan, nakakaimpluwensya ito sa bawat aspeto ng iyong negosyo. Maaaring pakiramdam na walang sapat na oras upang suriin ang mga detalye ng kung gaano kahusay ang paghahatid nito sa iyong negosyo kapag abala ka sa mga desisyon kung paano pangasiwaan ang iyong data.
Obserbahan ito. Gumagamit ang iyong organisasyon ng data 24 na oras sa isang araw. Kaya ang pag-unawa kung saan ito nanggaling, kung paano ito nakarating doon, at kung paano ito gumagalaw sa kumpanya ay napakahalaga sa pag-unawa sa halaga nito.
Nagiging mahalaga ang lineage ng data sa sitwasyong ito. Mas madaling maunawaan kung paano nabuo ang data, saan ito nanggaling, at saan ito pupunta kapag masusubaybayan natin ang mga pinagmulan, paglilipat, at pagbabago ng data.
Sa post na ito, titingnan nating mabuti ang Data Lineage, kung paano ito gumagana, ang mga kaso ng paggamit nito, mga diskarte, at marami pa.
Ano ang Data Lineage?
Ang lineage ng data ay nagsisilbing isang uri ng digital passport. Ito ang pinakakomprehensibong account ng isang data trip, na nagdedetalye ng lahat ng mga paghinto, mga detour, at mga pagbabago nito mula sa pinagmulan nito hanggang sa destinasyon nito.
ISa esensya, inilalarawan ng lineage ng data ang pinagmulan, pagbabago, at paggamit ng isang piraso ng data sa maraming system at platform. Gumagana ito bilang tool ng detective sa pamamagitan ng pagbibigay sa mga user ng impormasyon tungkol sa kung paano ginawa ang data, kung saan ito nagmula, at kung paano ito ginamit. Ang impormasyong ito ay nagbibigay-daan sa mga user na makilala at malutas ang anumang mga potensyal na problema.
Ang data lineage ay isang napakahalagang mapagkukunan para sa mga kumpanyang umaasa sa data upang patakbuhin ang kanilang mga operasyon dahil pinapayagan nito ang mga user na tumugon sa mga mahahalagang tanong tulad ng sino, ano, kailan, at saan.
Ang lineage ng data ay, sa madaling salita, ang pinakahuling data trail na ginagarantiyahan ang katumpakan, pagkakumpleto, at pagkakapare-pareho ng data habang nag-aalok ng malinaw at maikling pananaw ng buong landas ng isang data.
Paano gumagana ang Data Lineage?
Ang lineage ng data ay ang mapa ng daan na nagbibigay-daan sa amin na sundan ang isang piraso ng data mula sa panimulang punto nito hanggang sa dulo nito. Isaalang-alang ang isang data point bilang isang manlalakbay, at ang pasaporte nito ay ang linya ng data nito upang mas maunawaan kung paano ito gumagana.
Ang mga mapagkukunan ng data, pagbabago ng data, pag-iimbak ng data, at output ng data ay bumubuo sa apat na pangunahing bahagi ng pasaporte.
Ang maraming mga system, application, at platform kung saan nagmula ang data ay kinakatawan ng mga mapagkukunan ng data, na nagsisilbing mga panimulang punto para sa paglalakbay ng data. Ang pagbabagong-anyo ng data ay ang kasunod na yugto, at ang lineage ng data ay nag-chart ng pag-unlad ng data mula sa mga mapagkukunang ito patungo dito.
Ang pagbabago ng data ay tumutukoy sa paghubog, pagbabago, at pagmamanipula ng data upang matugunan ang mga pangangailangan ng user. Nagsisilbi itong rest stop sa panahon ng biyahe ng data, na inihahanda ito para sa susunod na leg.
Pagkatapos ay iniimbak ang data bago pumunta sa huling lokasyon nito. Maaari itong itago sa mga cloud server, database, o iba pang uri ng storage device. Sinusubaybayan ng linya ng data kung saan iniimbak ang data, pati na rin kung paano ito pinoprotektahan, bina-back up, at binabawi.
Ang huling hakbang ay ang output ng data, kung saan ipinapadala ang data upang magamit. Maaaring gamitin ang mga ulat, infographic, o anumang iba pang uri ng produkto ng data upang ipakita ito. Sinusubaybayan ng linya ng data ang output at ginagarantiyahan ang pagkakapare-pareho, katumpakan, at pagkakumpleto ng data.
Ang lineage ng data ay karaniwang gumagana sa pamamagitan ng pagtatala ng bawat yugto ng paglalakbay ng data, mula sa pagsisimula nito hanggang sa paglabas nito, at pagtiyak na ito ay mananatiling maaasahan, pare-pareho, at tama sa lahat ng paraan. Tinutulungan ng lineage ng data ang mga organisasyon na gumawa ng matalinong mga desisyon, ayusin ang mga problema, at sumunod sa mga legal na obligasyon sa pamamagitan ng pagbibigay ng buong pagtingin sa pagkakaroon ng data.
Upang maunawaan ang mga asset ng data at kung paano gumagalaw ang mga ito sa pipeline ng data, ang metadata ay isang mahalagang bahagi ng proseso ng lineage ng data.
Makikita mo kung paano kino-convert at ginagamit ang data sa loob ng organisasyon gamit ang mga tool sa lineage ng data, na gumagamit ng metadata upang magbigay ng visual na paglalarawan ng daloy ng data. Binibigyang-daan nito ang mga user na masuri ang potensyal ng data na tumutulong sa kanila na gumawa ng mga desisyon na may mas mahusay na kaalaman.
Mga Uri ng Data Lineage
May tatlong pangunahing anyo ng lineage ng data: forward data lineage, backward data lineage, at bi-directional data lineage.
Ipasa ang Lineage ng Data
Tulad ng isang one-way na kalye, ang forward data lineage ay kinabibilangan ng pagsubaybay sa isang piraso ng data mula sa panimulang punto nito hanggang sa pagtatapos nito. Simula sa data source, sinusundan nito ang data habang dumadaan ito sa ilang pagbabago at storage system upang maabot ang output nito.
Ang pag-unawa sa pagpoproseso at pagbabago ng data pati na rin ang anumang mga problema na maaaring lumitaw sa daan ay pinadali ng pagkakaroon ng isang linya ng data ng ganitong uri. Ang bawat hakbang ay humahantong sa susunod; ito ay tulad ng pagsunod sa isang trail ng breadcrumbs.
Paatras na Data Lineage
Ang backward na lineage ng data ay katulad ng isang paglalayag sa kabaligtaran kung saan sinusubaybayan namin ang output ng data pabalik sa pinagmulan nito. Ang proseso ay nagsisimula sa huling lokasyon ng data at umuusad paatras sa pamamagitan ng iba't ibang mga diskarte sa pag-iimbak at pagbabago hanggang sa maabot nito ang data source.
Ang pagkilala sa orihinal na pinagmulan ng data, pag-unawa sa pagbabago nito, at pag-verify ng kawastuhan at pagkakumpleto nito ay posible sa tulong ng ganitong uri ng linya ng data. Gumagana ito tulad ng tool ng isang detective, na nagpapahintulot sa amin na sundan ang landas ng data pabalik.
Bi-directional na Lineage ng Data
Pinagsasama ng two-way na kalye, bi-directional data lineage ang mga pakinabang ng forward at backward na lineage ng data. Nagbibigay ito ng komprehensibong view ng ruta ng data sa pamamagitan ng pagsubaybay nito mula sa pinagmulan nito hanggang sa patutunguhan nito pati na rin mula sa lokasyong iyon hanggang sa panimulang punto nito.
Upang matukoy ang orihinal na pinagmulan ng data, maunawaan kung paano ito binago, at magarantiya ang kalidad, pagkakapare-pareho, at pagkakumpleto nito sa lahat ng paraan, makatutulong na subaybayan ang linya ng data. Sa real-time na impormasyon sa lokasyon at katayuan nito, ito ay tulad ng pagkakaroon ng GPS tracker para sa data.
Pagpapatupad ng Data Lineage
Ang pagpapatupad ng lineage ng data sa isang organisasyon ay kadalasang kinabibilangan ng mga sumusunod na yugto.
Tukuyin ang mga pinagmumulan ng data
Ang mga system at database na nagtataglay ng data na gusto mong subaybayan ay dapat matukoy lahat. Para magawa ito, kailangan mo munang tukuyin ang iba't ibang pinagmumulan ng data, kabilang ang mga file, API, at mga serbisyo sa cloud.
Kolektahin ang metadata
Ang susunod na yugto ay ang pagkuha ng mga detalye tungkol sa data, kabilang ang lokasyon, format, at organisasyon nito. Ang pag-unawa sa mga feature ng data at kung paano ito ginagamit ay ginagawang posible ng metadata na ito.
Kilalanin ang mga bahid ng data
Mas madaling maunawaan kung paano ina-update at ginagamit ang data sa loob ng organisasyon kung ang daloy ng data ay namamapa mula sa pinagmulan nito patungo sa patutunguhan nito, kabilang ang anumang pagbabago o pagproseso na nagaganap sa ruta.
Subaybayan ang pag-access ng data
Upang mapanatili ang seguridad at pagsunod sa data, subaybayan, at itala kung sino ang nag-a-access sa data.
Itabi at ilarawan sa isip ang lahi
Gumamit ng mga visualization tool upang ipakita ang lineage para sa simpleng pag-unawa at pagsusuri. Iimbak ang nakalap na metadata at impormasyon ng daloy ng data sa iisang repositoryo.
Magpatupad ng isang awtomatikong solusyon
Maaari mong i-verify na ang lineage ng data ay kinokolekta at sinusubaybayan sa pamamagitan ng automation, na makakatulong din upang mabawasan ang mga pagkakamali at mapalakas ang pagiging produktibo.
Suriin at I-update
Gawing regular na tama at napapanahon ang mga talaan ng lahi, at i-update ito kung naaangkop.
Maaaring kailanganin ang proseso ng pagpapatupad na baguhin o idagdag sa mga yugto depende sa mga natatanging kinakailangan at limitasyon ng bawat organisasyon.
Mga Pamamaraan ng Data Lineage
Lineage na nakabatay sa pattern
Sa pamamaraang ito, ang lineage ay isinasagawa nang hindi kinakailangang makipag-ugnayan sa programming na bumuo o nagbago ng data. Ang pagtatasa ng metadata para sa mga talahanayan, column, at ulat ng negosyo ay bahagi lahat nito. Ine-explore nito ang lineage sa pamamagitan ng paghahanap ng mga trend gamit ang metadata na ito.
Halimbawa, malamang na ang isang column sa dalawang dataset na may parehong pangalan at magkaparehong halaga ng data ay kumakatawan sa parehong data sa iba't ibang yugto ng pagkakaroon nito. Ang isang data lineage chart ay gagamitin upang ikonekta ang dalawang column na iyon.
Ang lineage na nakabatay sa pattern ay may malaking pakinabang ng pagiging malaya sa teknolohiya dahil sinusuri lang nito ang data, hindi ang mga pamamaraan sa pagproseso ng data. Ang anumang teknolohiya ng database, kabilang ang Oracle, MySQL, at Spark, ay maaaring ipatupad ito sa parehong paraan. Ang disbentaha ay ang diskarte na ito ay hindi palaging tumpak.
Kapag ang lohika sa pagpoproseso ng data ay nakatago sa computer code at hindi madaling makita sa metadata na nababasa ng tao, paminsan-minsan ay mapapalampas nito ang mga ugnayan sa pagitan ng mga dataset.
Lineage sa pamamagitan ng Data Tagging
Ang pamamaraang ito ay nakabatay sa paniwala na ang isang transformation engine ay nagta-tag o kung hindi man ay nagmamarka ng data. Sinusubaybayan nito ang tag mula sa simula hanggang sa katapusan upang mahanap ang lineage. Magiging matagumpay lang ang diskarteng ito kung mayroon kang maaasahang tool sa pagbabagong-anyo na namamahala sa lahat ng paglilipat ng data at pamilyar ka sa istraktura ng pag-tag na ginagamit ng tool.
Kahit na umiral ang naturang tool, walang data na ginawa o binago kung wala ito ang maaaring mapasailalim sa lineage sa pamamagitan ng data tagging. Ito ay limitado sa bagay na ito sa pagsasagawa ng data lineage sa mga closed data system.
Sariling Linang
Ang ilang negosyo ay may data environment na kinabibilangan ng metadata storage, processing logic, at master data management (MDM). Ang mga setting na ito ay madalas na kinabibilangan ng a lawa ng data kung saan ang lahat ng data ay pinananatili sa buong buhay nito.
Ang lineage ay maaaring natural na ibigay ng ganitong uri ng self-contained system nang hindi nangangailangan ng karagdagang mga mapagkukunan. Gayunpaman, tulad ng sa paraan ng pag-tag ng data, hindi malalaman ng lineage ang anumang bagay na nangyayari sa labas ng kinokontrol na kapaligirang ito.
Lineage ng Data sa pamamagitan ng Pag-parse
Ang pinaka-sopistikadong uri ng lineage ay isa na awtomatikong nagbabasa ng data-processing logic. Para sa masusing, end-to-end na pagsubaybay, binabaliktad ng pamamaraang ito ang lohika ng pagbabago ng data.
Dahil ang solusyong ito ay dapat na maunawaan ang lahat ng programming languages at mga tool na ginagamit upang i-convert at i-transport ang data, ang deployment nito ay kumplikado. Ito ay maaaring gumamit ng extract-transform-load (ETL) logic, SQL- at Java-based na mga solusyon, lumang format ng data, XML-based na solusyon, at iba pang mga diskarte.
Mga Kaso ng Paggamit ng Data Lineage
Pagmomodelo ng data
Dapat itatag ng mga kumpanya ang pinagbabatayan na mga istruktura ng data na sumusuporta sa kanila upang mailarawan ang maraming item ng data at ang mga koneksyon sa pagitan ng mga ito sa loob ng isang kumpanya. Ang mga koneksyon na ito ay namodelo gamit ang lineage ng data, na nagpapakita rin ng maraming dependency na nasa ecosystem ng data.
Dahil ang data ay nagbabago sa paglipas ng panahon, ang mga bagong data source ay patuloy na lumalabas, na nangangailangan ng mga bagong data integrations, atbp. Dahil dito, ang mga pangkalahatang modelo ng data ng mga kumpanya para sa pamamahala ng kanilang data ay dapat ding magbago upang ipakita ang kapaligiran.
Pagsunod
Nag-aalok ang lineage ng data ng paraan ng pagsunod para sa pag-audit, pagpapahusay ng pamamahala sa peligro, at pagtiyak na ang data ay pinapanatili at pinangangasiwaan alinsunod sa mga patakaran at batas sa pamamahala ng data.
Pagsusuri sa Epekto
Ang mga epekto ng ilang partikular na pagbabago sa negosyo, gaya ng anumang downstream na pag-uulat, ay makikita gamit ang mga tool sa lineage ng data. Ang lineage ng data, halimbawa, ay maaaring makatulong sa mga executive sa pagtukoy kung gaano karaming mga dashboard ang maaapektuhan ng pagbabago ng pangalan at, bilang resulta, kung gaano karaming tao ang nag-a-access sa pag-uulat na iyon.
Paglipat ng data
Gumagamit ang mga organisasyon ng paglilipat ng data upang maunawaan kung saan matatagpuan ang data at kung gaano ito katagal bago ito ilipat sa isang bagong storage system o magpatupad ng bagong software.
Tinutulungan ng lineage ng data ang mga team na maghanda para sa mga upgrade o paglipat ng system sa pamamagitan ng pagbibigay sa kanila ng pangkalahatang-ideya kung paano lumipat ang data sa buong organisasyon. Pinapabilis nito ang paglipat sa bagong kapaligiran ng imbakan sa pangkalahatan.
Bukod pa rito, binibigyan nito ang mga koponan ng pagkakataong i-declutter ang data system sa pamamagitan ng pag-archive o pag-aalis ng luma o walang silbi na data. Sa paggawa nito, ang sistema ng data ay gaganap nang mas mahusay sa pangkalahatan at nangangailangan ng mas kaunting pamamahala ng data.
Mga Hamon sa Pagpapatupad ng Data Lineage
- Seguridad ng Data: Ang seguridad ng data ay isang pangunahing alalahanin habang bumubuo ng linya ng data. Upang sundan ang isang paglalakbay ng data mula sa panimulang punto nito hanggang sa huling destinasyon nito, dapat na ibigay ang access sa sensitibong data, at dapat na protektahan ang data na ito laban sa hindi awtorisadong pag-access at mga paglabag.
- Kakulangan ng Standardisasyon: Ang isa sa mga pangunahing hadlang sa pagtanggap ng linya ng data ay ang kakulangan ng mga pamantayan. Dahil maraming platform, app, at system ang gumagamit ng mga natatanging pamamaraan para sa pagsubaybay at pagtatala ng pinagmulan ng data, maaaring mahirap pagsama-samahin ang isang magkakaugnay na larawan ng isang paglalakbay sa data.
- Data Silos: Ang data silo ay isa pang isyu na lumitaw habang ipinapatupad ang lineage ng data. Kapag kumalat ang data sa ilang mga application at system, maaaring maging mahirap na subaybayan ang paglalakbay nito mula sa isa't isa. Ito ay maaaring humantong sa hindi tumpak o hindi kumpletong linya ng data.
Konklusyon
Sa konklusyon, ang data lineage ay isang mahalagang bahagi ng bawat data-driven na enterprise. Nag-aalok ito ng komprehensibong pananaw ng landas ng isang data mula sa simula nito hanggang sa pagtatapos nito, na ginagarantiyahan ang katumpakan, pagkakumpleto, at pagkakapare-pareho nito.
Ang hinaharap na data lineage automation at standardization ay inaasahang tataas, na ginagawang mas madali ang pagpapatupad at pagpapanatili para sa mga organisasyon. Sa huli, hindi mabibigyang-diin ang kahalagahan ng lineage ng data.
Nagbibigay ito sa mga kumpanya ng mga tool na kailangan nila upang makagawa ng matalinong mga pagpipilian, patakbuhin ang kanilang mga operasyon nang mas mahusay, at makamit ang tagumpay.
Mag-iwan ng Sagot