Съдържание[Крия][Покажи]
Данните са навсякъде около вас. В реален смисъл това влияе на всеки аспект от вашия бизнес. Може да ви се струва, че няма достатъчно време, за да разгледате спецификата на това колко добре обслужва вашия бизнес, когато сте заети с решения как да боравите с вашите данни.
Наблюдавайте това. Вашата организация използва данни 24 часа на ден. Така че разбирането откъде идва, как е стигнало до там и как се движи в компанията е от решаващо значение за разбирането на неговата стойност.
Производството на данни става важно в тази ситуация. По-лесно е да разберем как са формирани данните, откъде идват и къде отиват, когато можем да проследим произхода, миграциите и промените на данните.
В тази публикация ще разгледаме отблизо Data Lineage, как работи, случаите на употреба, техники и много повече.
Какво е Data Lineage?
Линията на данни служи като вид цифров паспорт. Това е най-изчерпателният разказ за пътуване с данни, описващ подробно всичките му спирки, отклонения и модификации от началото до крайната дестинация.
IПо същество родословието на данните описва произхода, модификацията и използването на част от данните в много системи и платформи. Функционира като детективски инструмент, като предоставя на потребителите информация за това как са произведени данните, откъде произхождат и как са използвани. Тази информация позволява на потребителите да разпознават и разрешават потенциални проблеми.
Родословието на данни е безценен ресурс за компаниите, които разчитат на данните, за да управляват своите операции, защото позволява на потребителите да отговарят на важни въпроси като кой, какво, кога и къде.
Data lineage е, казано просто, най-добрата пътека за данни, която гарантира точност, пълнота и последователност на данните, като същевременно предлага ясна и кратка перспектива на пълния път на данните.
Как работи Data Lineage?
Производството на данни е пътната карта, която ни позволява да следваме част от данните от началната до крайната точка. Помислете за точка за данни като пътешественик, а паспортът й за нейната линия на данни, за да разберете по-добре как функционира.
Източници на данни, трансформация на данни, съхранение на данни и извеждане на данни съставляват четирите основни компонента на паспорта.
Многото системи, приложения и платформи, от които произхождат данните, са представени от източници на данни, които служат като начални точки за пътуването на данните. Трансформацията на данни е последващият етап и родословието на данните показва прогресията на данните от тези източници към тях.
Трансформацията на данни се отнася до оформянето, модифицирането и манипулирането на данни, за да се отговори на нуждите на потребителите. Функционира като спирка за почивка по време на пътуването на данните, подготвяйки ги за следващия етап.
След това данните се съхраняват, преди да отидат до крайното си местоположение. Може да се съхранява на облачни сървъри, бази данни или някакъв друг вид устройство за съхранение. Data lineage следи къде се съхраняват данните, както и как са защитени, архивирани и възстановени.
Последната стъпка е изход на данни, където данните се изпращат, за да бъдат използвани. За представянето му могат да се използват отчети, инфографики или друг вид продукт с данни. Data lineage следи изхода и гарантира последователността, точността и пълнотата на данните.
Data lineage основно работи, като записва всеки етап от пътуването на данните, от тяхното създаване до извеждането им, и се уверява, че те остават надеждни, последователни и правилни през целия път. Data lineage помага на организациите да вземат обосновани решения, да коригират проблеми и да се придържат към законовите задължения, като предоставят пълна представа за съществуването на данните.
За да се разберат активите с данни и как те се движат през тръбопровода за данни, метаданните са решаваща част от процеса на произход на данните.
Можете да видите как данните се преобразуват и използват в рамките на организацията с помощта на инструменти за родословие на данни, които използват метаданни, за да предоставят визуално изображение на потока от данни. Това позволява на потребителите да оценят потенциала на данните, което им помага да вземат по-добре информирани решения.
Видове родословие на данни
Има три основни форми на линия на данни: линия на данни в права посока, линия на данни в обратна посока и двупосочна линия на данни.
Потекло на данни напред
Както при еднопосочната улица, предаването на данни включва проследяване на част от данните от началната до крайната точка. Започвайки от източника на данни, той следва данните, докато преминават през няколко трансформации и системи за съхранение, за да достигнат своя изход.
Разбирането на обработката и трансформацията на данни, както и всички проблеми, които може да са възникнали по пътя, се улесняват от наличието на родословие на данни от този вид. Всяка стъпка води към следващата; все едно следваш следа от галета.
Потекло на обратни данни
Обратното предаване на данни е подобно на пътуване в обратна посока, при което проследяваме изхода на данните обратно до техния източник. Процесът започва от крайното местоположение на данните и се движи назад чрез различни техники за съхранение и трансформация, докато достигне източника на данни.
Идентифицирането на оригиналния източник на данните, разбирането на тяхната трансформация и проверката на тяхната коректност и пълнота са възможни с помощта на този вид линия на данни. Работи като инструмент на детектив, позволявайки ни да следваме пътя на данните назад.
Двупосочна линия на данни
Двупосочна, двупосочна линия на данни съчетава предимствата на правата и обратната линия на данни. Той предоставя цялостен поглед върху маршрута на данните, като ги проследява от източника до местоназначението им, както и от това местоположение до началната им точка.
За да се определи оригиналният източник на данните, да се разбере как са били променени и да се гарантира тяхното качество, последователност и пълнота през целия път, е полезно да се проследи произхода на данните. С информация в реално време за неговото местоположение и състояние, това е като да имате GPS тракер за данни.
Внедряване на Data Lineage
Внедряването на линията на данни в една организация често включва следните фази.
Дефинирайте източниците на данни
Всички системи и бази данни, които съдържат данните, които искате да проследявате, трябва да бъдат идентифицирани. За да направите това, първо трябва да идентифицирате различните източници на данни, включително файлове, API и облачни услуги.
Съберете метаданните
Следващият етап е да се получат подробности за данните, включително тяхното местоположение, формат и организация. Разбирането на характеристиките на данните и как се използват става възможно благодарение на тези метаданни.
Идентифицирайте пропуските в данните
По-лесно е да се разбере как данните се актуализират и използват в организацията, ако потокът от данни е картографиран от източника до местоназначението, включително всички трансформации или обработка, които се извършват по маршрута.
Проследяване на достъпа до данни
За да поддържате сигурността на данните и съответствието, проследявайте и записвайте кой има достъп до данните.
Съхранявайте и визуализирайте родословието
Използвайте инструменти за визуализация, за да представите родословието за лесно разбиране и анализ. Съхранявайте събраните метаданни и информация за потока от данни в едно хранилище.
Внедрете автоматизирано решение
Можете да проверите дали данните се събират и наблюдават чрез автоматизация, което също ще помогне за намаляване на грешките и повишаване на производителността.
Преглед и актуализиране
Уверете се, че записите на родословието са правилни и актуални редовно и ги актуализирайте, ако е подходящо.
Може да се наложи процесът на внедряване да бъде модифициран или добавен към фази в зависимост от уникалните изисквания и ограничения на всяка организация.
Техники за родословие на данни
Родословие, базирано на модел
С този метод родословието се извършва, без да се налага да взаимодействате с програмирането, което е генерирало или трансформирало данните. Оценката на метаданни за таблици, колони и бизнес отчети е част от него. Той изследва родословието, като търси тенденции, използвайки тези метаданни.
Например, много е вероятно колона в два набора от данни с едно и също име и идентични стойности на данни да представлява едни и същи данни на различни фази от своето съществуване. След това се използва диаграма на родословие на данни за свързване на тези две колони.
Базираното на шаблони родословие има значителната полза от това, че е технологично независим, защото просто проверява данните, а не методите за обработка на данни. Всяка технология за база данни, включително Oracle, MySQL и Spark, може да я приложи по същия начин. Недостатъкът е, че този подход не винаги е прецизен.
Когато логиката за обработка на данни е скрита в компютърния код и не е очевидна в четливите за човека метаданни, понякога може да пренебрегне връзките между наборите от данни.
Потекло чрез маркиране на данни
Този метод се основава на идеята, че машината за трансформация маркира или по друг начин маркира данни. Проследява етикета от началото до края, за да намери произхода. Този подход може да бъде успешен само ако разполагате с надежден инструмент за трансформация, който управлява целия трансфер на данни и сте запознати със структурата на маркиране, използвана от инструмента.
Дори и да съществува такъв инструмент, никакви данни, които са създадени или променени без него, не могат да бъдат подложени на произход чрез маркиране на данни. В това отношение той е ограничен до извършване на линия на данни в затворени системи за данни.
Самостоятелно родословие
Някои фирми имат среда за данни, която включва съхранение на метаданни, логика за обработка и управление на основни данни (MDM). Тези настройки често включват a езеро с данни където всички данни се съхраняват през целия му живот.
Потеклото може да бъде естествено осигурено от този вид самостоятелна система без изискване за допълнителни ресурси. Въпреки това, точно както при метода за маркиране на данни, родословието няма да знае нищо, което се случва извън тази регулирана среда.
Потекло на данни чрез анализиране
Най-сложният тип линия е тази, която чете автоматично логиката за обработка на данни. За цялостно проследяване от край до край, този метод извършва обратно инженерство на логиката на трансформация на данни.
Тъй като това решение трябва да обхваща всички програмни езици и инструменти, използвани за конвертиране и транспортиране на данните, внедряването му е сложно. Това може да използва логика за извличане-трансформиране-зареждане (ETL), базирани на SQL и Java решения, стари формати на данни, базирани на XML решения и други техники.
Случаи на използване на потекло на данни
Моделиране на данни
Компаниите трябва да установят основните структури от данни, които ги поддържат, за да визуализират множеството елементи от данни и връзките между тях вътре в компанията. Тези връзки са моделирани с помощта на линия на данни, която също показва многото зависимости, присъстващи в екосистемата от данни.
Тъй като данните се променят с времето, постоянно се появяват нови източници на данни, изискващи нови интеграции на данни и т.н. Поради това общите модели на данни на фирмите за управление на техните данни също трябва да се променят, за да отразяват околната среда.
Спазването
Data lineage предлага метод за съответствие за одит, подобряване на управлението на риска и гарантиране, че данните се съхраняват и обработват в съответствие с политиките и законите за управление на данните.
Анализ на въздействието
Ефектите от определени бизнес промени, като всяко отчитане надолу по веригата, могат да се видят с помощта на инструменти за родословие на данни. Производството на данни, например, може да помогне на ръководителите да определят колко табла за управление ще засегне промяната на името и, следователно, колко хора имат достъп до това отчитане.
Мигриране на данни
Организациите използват миграция на данни, за да разберат къде се намират данните и колко време са били там, преди да ги преместят в нова система за съхранение или да внедрят нов софтуер.
Data lineage помага на екипите да се подготвят за системни надстройки или миграции, като им дава преглед на това как данните са се преместили в цялата организация. Това ускорява като цяло прехвърлянето към новата среда за съхранение.
Освен това дава възможност на екипите да разчистят системата от данни чрез архивиране или елиминиране на остарели или безполезни данни. По този начин системата за данни ще работи по-добре като цяло и ще се нуждае от по-малко управление на данни.
Предизвикателства при внедряването на Data Lineage
- Сигурност на данните: Сигурността на данните е основна грижа при изграждането на родословието на данните. За да се проследи пътуването на данните от началната му точка до крайната дестинация, трябва да бъде предоставен достъп до чувствителни данни и тези данни трябва да бъдат защитени срещу неоторизиран достъп и пробиви.
- Липса на стандартизация: Една от основните пречки пред възприемането на линията на данни е липсата на стандарти. Тъй като много платформи, приложения и системи използват уникални методи за проследяване и записване на произхода на данните, може да бъде трудно да се състави цялостна картина на пътуването на данните.
- Силози на данни: Силозите на данни са друг проблем, който възниква при внедряването на линията на данни. Когато данните се разпространяват в няколко приложения и системи, може да е предизвикателство да се проследи пътуването им от едно към друго. Това може да доведе до неточна или непълна линия на данните.
Заключение
В заключение, родословието на данни е съществена част от всяко предприятие, управлявано от данни. Той предлага цялостна перспектива на пътя на данните от началната до крайната точка, като гарантира тяхната точност, пълнота и последователност.
Очаква се бъдещата автоматизация и стандартизация на линията на данни да се увеличи, което ще улесни внедряването и поддръжката за организациите. В крайна сметка не може да се подчертае значението на произхода на данните.
Той дава на компаниите инструментите, от които се нуждаят, за да направят разумен избор, да управляват операциите си по-ефективно и да постигнат успех.
Оставете коментар