Змест[Схаваць][Паказаць]
Дадзеныя ўсюды вакол вас. У рэальным сэнсе гэта ўплывае на кожны аспект вашага бізнесу. Можа здацца, што не хапае часу, каб вывучыць асаблівасці таго, наколькі добра гэта служыць вашаму бізнесу, калі вы занятыя рашэннямі аб тым, як апрацоўваць свае даныя.
Звярніце ўвагу на гэта. Ваша арганізацыя выкарыстоўвае даныя 24 гадзіны ў суткі. Такім чынам, разуменне таго, адкуль ён прыйшоў, як ён туды трапіў і як ён рухаецца ў кампаніі, мае вырашальнае значэнне для разумення яго каштоўнасці.
Паходжанне даных становіцца важным у гэтай сітуацыі. Прасцей зразумець, як былі сфарміраваны даныя, адкуль яны ўзяліся і куды ідуць, калі мы можам адсочваць іх паходжанне, міграцыі і змены.
У гэтай публікацыі мы ўважліва разгледзім Data Lineage, як гэта працуе, варыянты выкарыстання, метады і многае іншае.
Што такое радавод дадзеных?
Data lineage служыць своеасаблівым лічбавым пашпартам. Гэта найбольш поўнае апісанне паездкі з дадзенымі, у якой падрабязна апісаны ўсе яе прыпынкі, аб'езды і змены ад пачатку да канчатковага пункта прызначэння.
IПа сутнасці, радавод дадзеных апісвае паходжанне, мадыфікацыю і выкарыстанне часткі даных у многіх сістэмах і платформах. Ён функцыянуе як інструмент дэтэктыва, даючы карыстальнікам інфармацыю пра тое, як былі створаны дадзеныя, адкуль яны ўзяліся і як выкарыстоўваліся. Гэтая інфармацыя дазваляе карыстальнікам распазнаваць і вырашаць любыя магчымыя праблемы.
Лінія дадзеных з'яўляецца бясцэнным рэсурсам для кампаній, якія залежаць ад дадзеных для вядзення сваёй дзейнасці, таму што гэта дазваляе карыстальнікам адказваць на важныя пытанні, напрыклад, хто, што, калі і дзе.
Паходжанне даных - гэта, прасцей кажучы, найвышэйшы след даных, які гарантуе дакладнасць, паўнату і паслядоўнасць даных, адначасова прапаноўваючы ясную і кароткую перспектыву поўнага шляху даных.
Як працуе Data Lineage?
Лінія даных - гэта дарожная карта, якая дазваляе нам сачыць за часткай даных ад іх пачатковай да канчатковай кропкі. Разглядайце пункт даных як падарожніка, а яго пашпарт - як яго радавод даных, каб лепш зразумець, як ён функцыянуе.
Крыніцы даных, пераўтварэнне даных, захоўванне даных і вывад даных складаюць чатыры асноўныя кампаненты пашпарта.
Мноства сістэм, прыкладанняў і платформаў, з якіх паходзяць даныя, прадстаўлены крыніцамі даных, якія служаць адпраўнымі кропкамі для шляху даных. Трансфармацыя даных з'яўляецца наступнай стадыяй, а радавод даных адлюстроўвае пераход даных ад гэтых крыніц да іх.
Пераўтварэнне даных адносіцца да фарміравання, мадыфікацыі і апрацоўкі даных для задавальнення патрэбаў карыстальнікаў. Ён функцыянуе як прыпынак для адпачынку падчас паездкі дадзеных, рыхтуючы іх да наступнага этапу.
Затым даныя захоўваюцца перад пераходам у канчатковае месца. Яе можна захоўваць на воблачных серверах, базах дадзеных або іншым тыпе прылады захоўвання дадзеных. Data lineage адсочвае, дзе захоўваюцца даныя, а таксама як яны абараняюцца, ствараюцца рэзервовыя копіі і аднаўляюцца.
Апошнім крокам з'яўляецца вывад даных, куды даныя адпраўляюцца для выкарыстання. Справаздачы, інфаграфіка або любыя іншыя тыпы даных могуць быць выкарыстаны для іх прадстаўлення. Data lineage адсочвае выходныя дадзеныя і гарантуе ўзгодненасць, дакладнасць і паўнату даных.
Data lineage у асноўным працуе шляхам запісу кожнага этапу шляху даных, ад іх стварэння да выхаду, і пераканаўшыся, што яны застаюцца надзейнымі, паслядоўнымі і правільнымі на працягу ўсяго шляху. Лінія даных дапамагае арганізацыям прымаць абгрунтаваныя рашэнні, выпраўляць праблемы і прытрымлівацца юрыдычных абавязацельстваў, даючы поўнае ўяўленне аб існаванні даных.
Каб зразумець актывы даных і тое, як яны рухаюцца па канвееры даных, метададзеныя з'яўляюцца важнай часткай працэсу радаводу даных.
Вы можаце ўбачыць, як даныя пераўтвараюцца і выкарыстоўваюцца ў арганізацыі, выкарыстоўваючы інструменты радаводу даных, якія выкарыстоўваюць метаданыя для візуальнага адлюстравання патоку даных. Гэта дазваляе карыстальнікам ацэньваць патэнцыял дадзеных, дапамагаючы ім прымаць больш абгрунтаваныя рашэнні.
Тыпы радаводу дадзеных
Ёсць тры асноўныя формы лініі перадачы дадзеных: лінія перадачы дадзеных, зваротная лінія перадачы дадзеных і двухнакіраваная лінія перадачы дадзеных.
Forward Data Lineage
Як і ў выпадку з вуліцай з аднабаковым рухам, правая лінія дадзеных прадугледжвае адсочванне фрагмента даных ад пачатковай да канчатковай кропкі. Пачынаючы з крыніцы даных, ён сочыць за данымі, калі яны праходзяць праз некалькі пераўтварэнняў і сістэм захоўвання, каб дасягнуць выхаду.
Разуменне апрацоўкі і пераўтварэння даных, а таксама любых праблем, якія маглі ўзнікнуць на гэтым шляху, палягчаюцца дзякуючы наяўнасці такога тыпу даных. Кожны крок вядзе да наступнага; гэта ўсё роўна, што ісці па хлебных крошках.
Зваротная радавод дадзеных
Зваротная радаводнасць дадзеных падобная да падарожжа ў зваротным кірунку, калі мы адсочваем выхад даных да іх крыніцы. Працэс пачынаецца ў канчатковым месцы размяшчэння даных і рухаецца назад праз розныя метады захоўвання і трансфармацыі, пакуль не дасягне крыніцы даных.
Ідэнтыфікацыя першакрыніцы дадзеных, разуменне іх пераўтварэння і праверка іх карэктнасці і паўнаты - усё гэта магчыма з дапамогай гэтага віду радаводу дадзеных. Ён працуе як інструмент дэтэктыва, дазваляючы нам сачыць за шляхам даных назад.
Двунакіраваная лінія дадзеных
Двунакіраваная лінія перадачы дадзеных з двухбаковым рухам спалучае ў сабе перавагі перадачы дадзеных у прамым і зваротным кірунку. Ён забяспечвае поўнае ўяўленне аб маршруце дадзеных, адсочваючы іх ад крыніцы да месца прызначэння, а таксама ад гэтага месца да пачатковай кропкі.
Для таго, каб вызначыць першакрыніцу дадзеных, зразумець, як яны былі зменены, і гарантаваць іх якасць, паслядоўнасць і паўнату на працягу ўсяго шляху, карысна адсочваць паходжанне дадзеных. Маючы інфармацыю аб сваім месцазнаходжанні і стане ў рэжыме рэальнага часу, гэта падобна на GPS-трэкер для даных.
Рэалізацыя Data Lineage
Укараненне лініі даных у арганізацыі часта ўключае ў сябе наступныя этапы.
Вызначце крыніцы даных
Усе сістэмы і базы даных, якія захоўваюць даныя, якія вы хочаце адсочваць, павінны быць ідэнтыфікаваныя. Каб зрабіць гэта, вы павінны спачатку вызначыць розныя крыніцы даных, уключаючы файлы, API і воблачныя сэрвісы.
Збярыце метададзеныя
Наступным этапам з'яўляецца атрыманне падрабязных звестак аб дадзеных, уключаючы іх месцазнаходжанне, фармат і арганізацыю. Разуменне асаблівасцей даных і спосабаў іх выкарыстання стала магчымым дзякуючы гэтым метаданым.
Вызначце недахопы дадзеных
Прасцей зразумець, як даныя абнаўляюцца і выкарыстоўваюцца ў арганізацыі, калі паток даных нанесены на карту ад крыніцы да пункта прызначэння, уключаючы любыя пераўтварэнні або апрацоўку, якія адбываюцца ўздоўж маршруту.
Адсочванне доступу да даных
Каб падтрымліваць бяспеку і адпаведнасць даных, адсочвайце і запісвайце, хто мае доступ да даных.
Захоўвайце і візуалізуйце радавод
Выкарыстоўвайце інструменты візуалізацыі, каб прадставіць радавод для простага разумення і аналізу. Захоўвайце сабраныя метаданыя і інфармацыю аб патоку даных у адным сховішчы.
Укараніць аўтаматызаванае рашэнне
Вы можаце пераканацца, што даныя збіраюцца і кантралююцца з дапамогай аўтаматызацыі, што таксама дапаможа скараціць колькасць памылак і павысіць прадукцыйнасць.
Агляд і абнаўленне
Рэгулярна сочыце за тым, каб запісы радаводу былі правільнымі і актуальнымі, і па меры неабходнасці абнаўляйце іх.
Працэс укаранення, магчыма, спатрэбіцца змяніць або дадаць у фазы ў залежнасці ад унікальных патрабаванняў і абмежаванняў кожнай арганізацыі.
Тэхнікі радаводу дадзеных
Лінія на аснове ўзораў
З дапамогай гэтага метаду, радавод выконваецца без неабходнасці ўзаемадзейнічаць з праграмаваннем, якое згенеравала або пераўтварыла дадзеныя. Ацэнка метададзеных для табліц, слупкоў і бізнес-справаздач - усё гэта частка. Ён даследуе радавод, шукаючы тэндэнцыі з дапамогай гэтых метаданых.
Напрыклад, цалкам верагодна, што слупок у двух наборах даных з аднолькавым імем і аднолькавымі значэннямі даных прадстаўляе адны і тыя ж даныя на розных этапах свайго існавання. Затым для злучэння гэтых двух слупкоў выкарыстоўваецца дыяграма радаводу дадзеных.
Паходжанне на аснове шаблонаў мае значныя перавагі незалежнасці ад тэхналогій, паколькі правярае толькі даныя, а не метады апрацоўкі даных. Любая тэхналогія баз дадзеных, уключаючы Oracle, MySQL і Spark, можа рэалізаваць гэта такім жа чынам. Недахоп у тым, што гэты падыход не заўсёды дакладны.
Калі логіка апрацоўкі даных схавана ў камп'ютэрным кодзе і не вельмі відавочная ў метададзеных, якія чытаюцца чалавекам, часам могуць не заўважацца адносіны паміж наборамі даных.
Паходжанне па пазначэнні дадзеных
Гэты метад грунтуецца на ўяўленні аб тым, што механізм пераўтварэння пазначае даныя цэтлікамі або іншым спосабам. Ён прасочвае тэг ад пачатку да канца, каб знайсці радавод. Такі падыход можа быць паспяховым, толькі калі ў вас ёсць надзейны інструмент пераўтварэння, які кіруе ўсёй перадачай даных, і вы знаёмыя са структурай тэгаў, якую выкарыстоўвае гэты інструмент.
Нават калі б такі інструмент існаваў, ніякія дадзеныя, якія былі створаны або зменены без яго, нельга было б падвергнуць радаводу праз пазначэнне даных. У сувязі з гэтым ён абмежаваны выкананнем радаводу дадзеных у закрытых сістэмах даных.
Самадастатковы род
Некаторыя прадпрыемствы маюць асяроддзе дадзеных, якое ўключае захоўванне метададзеных, логіку апрацоўкі і кіраванне галоўнымі дадзенымі (MDM). Гэтыя налады часта ўключаюць a возера дадзеных дзе ўсе дадзеныя захоўваюцца на працягу ўсяго тэрміну службы.
Паходжанне можа быць натуральным чынам забяспечана такім выглядам аўтаномнай сістэмы без патрабавання дадатковых рэсурсаў. Аднак, як і ў выпадку з метадам пазначэння дадзеных, лінія не будзе ведаць ні пра што, што адбываецца па-за межамі гэтага рэгуляванага асяроддзя.
Радавод дадзеных шляхам разбору
Самы складаны тып радаводу - гэта той, які аўтаматычна счытвае логіку апрацоўкі даных. Для дбайнай скразной трасіроўкі гэты метад рэканструюе логіку пераўтварэння даных.
Паколькі гэта рашэнне павінна ахопліваць усе мовы праграмавання і інструменты, якія выкарыстоўваюцца для пераўтварэння і перадачы даных, іх разгортванне складанае. Для гэтага можа выкарыстоўвацца логіка экстракцыі-пераўтварэння-загрузкі (ETL), рашэнні на аснове SQL і Java, старыя фарматы даных, рашэнні на аснове XML і іншыя метады.
Выпадкі выкарыстання радаводу дадзеных
Мадэляванне даных
Кампаніі павінны стварыць асноўныя структуры даных, якія іх падтрымліваюць, каб візуалізаваць мноства элементаў даных і сувязі паміж імі ўнутры кампаніі. Гэтыя злучэнні мадэлююцца з выкарыстаннем лініі даных, якая таксама паказвае мноства залежнасцей, прысутных у экасістэме даных.
Паколькі даныя змяняюцца з цягам часу, пастаянна з'яўляюцца новыя крыніцы даных, якія патрабуюць новай інтэграцыі даных і г. д. З-за гэтага агульныя мадэлі даных фірмаў для кіравання іх данымі таксама павінны змяняцца, каб адлюстроўваць навакольнае асяроддзе.
захаванне
Data lineage прапануе метад захавання патрабаванняў для аўдыту, паляпшэння кіравання рызыкамі і забеспячэння таго, каб даныя захоўваліся і апрацоўваліся ў адпаведнасці з палітыкай і законамі аб кіраванні данымі.
Аналіз уздзеяння
Наступствы пэўных бізнес-змен, такіх як любая справаздачнасць далей па плыні, можна ўбачыць з дапамогай інструментаў радаводу даных. Напрыклад, паходжанне дадзеных можа дапамагчы кіраўнікам вызначыць, на колькі прыборных панэляў паўплывае змяненне назвы і, як следства, колькі людзей атрымае доступ да гэтай справаздачнасці.
Міграцыя даных
Арганізацыі выкарыстоўваюць міграцыю даных, каб зразумець, дзе знаходзяцца даныя і як доўга яны там знаходзіліся, перш чым перанесці іх у новую сістэму захоўвання або ўкараніць новае праграмнае забеспячэнне.
Лінія дадзеных дапамагае камандам падрыхтавацца да абнаўлення сістэмы або міграцыі, даючы ім агляд таго, як даныя перамяшчаліся па арганізацыі. Гэта паскарае пераход у новае асяроддзе захоўвання ў цэлым.
Акрамя таго, гэта дае камандам магчымасць разгрузіць сістэму даных шляхам архівавання або выдалення састарэлых або бескарысных даных. Паступаючы такім чынам, сістэма даных будзе працаваць лепш у цэлым і менш патрабуе кіравання данымі.
Праблемы ўкаранення Data Lineage
- Бяспека даных: Бяспека даных з'яўляецца асноўнай задачай пры стварэнні радаводу даных. Для праходжання шляху даных ад пачатковай кропкі да канчатковага пункта прызначэння неабходна прадаставіць доступ да канфідэнцыяльных даных, і гэтыя даныя павінны быць абаронены ад несанкцыянаванага доступу і ўзлому.
- Адсутнасць стандартызацыі: Адным з асноўных бар'ераў для прыняцця радаводу дадзеных з'яўляецца адсутнасць стандартаў. Паколькі на многіх платформах, праграмах і сістэмах выкарыстоўваюцца унікальныя метады адсочвання і запісу паходжання даных, можа быць складана скласці цэласную карціну перадачы даных.
- Бункеры даных: Сілас даных - гэта яшчэ адна праблема, якая ўзнікае пры ўкараненні лініі даных. Калі даныя распаўсюджваюцца па некалькіх праграмах і сістэмах, можа быць складана адсачыць іх шлях ад аднаго да іншага. Гэта можа прывесці да недакладных або няпоўных даных.
заключэнне
У заключэнне можна сказаць, што лінія даных з'яўляецца важнай часткай кожнага прадпрыемства, якое кіруецца дадзенымі. Ён прапануе поўную перспектыву шляху даных ад пачатковай да канчатковай кропкі, гарантуючы іх дакладнасць, паўнату і паслядоўнасць.
Чакаецца, што будучая аўтаматызацыя і стандартызацыя даных павялічацца, што спрашчае ўкараненне і абслугоўванне для арганізацый. У рэшце рэшт, нельга падкрэсліць значэнне радаводу дадзеных.
Гэта дае кампаніям інструменты, неабходныя для разумнага выбару, больш эфектыўнага вядзення дзейнасці і дасягнення поспеху.
Пакінуць каментар