Зміст[Сховати][Показати]
Дані всюди навколо вас. У реальному сенсі це впливає на кожен аспект вашого бізнесу. Може здатися, що немає достатньо часу, щоб перевірити, наскільки добре це служить вашому бізнесу, коли ви стурбовані рішеннями про те, як обробляти свої дані.
Зверніть увагу на це. Ваша організація використовує дані 24 години на добу. Отже, розуміння того, звідки він узявся, як він туди потрапив і як він просувається в компанії, має вирішальне значення для розуміння його цінності.
У цій ситуації важливим стає походження даних. Простіше зрозуміти, як дані були сформовані, звідки вони прийшли та куди йдуть, коли ми можемо відстежувати походження, міграцію та зміни даних.
У цій публікації ми детально розглянемо Data Lineage, як це працює, випадки використання, техніки та багато іншого.
Що таке походження даних?
Data lineage служить своєрідним цифровим паспортом. Це найповніший опис подорожі з даними, у якому детально описано всі зупинки, об’їзди та зміни від місця відправлення до кінцевого пункту призначення.
IПо суті, походження даних описує походження, модифікацію та використання частини даних у багатьох системах і платформах. Він функціонує як інструмент детектива, надаючи користувачам інформацію про те, як дані були створені, звідки вони походять і як їх використовували. Ця інформація дозволяє користувачам розпізнавати та вирішувати будь-які потенційні проблеми.
Лінія даних є безцінним ресурсом для компаній, які залежать від даних для виконання своїх операцій, оскільки вони дозволяють користувачам відповідати на важливі запитання, наприклад, хто, що, коли та де.
Лінія даних — це, простіше кажучи, остаточний шлях даних, який гарантує точність, повноту та узгодженість даних, одночасно пропонуючи чітку та стислу перспективу повного шляху даних.
Як працює Data Lineage?
Лінія даних — це дорожня карта, яка дає нам змогу стежити за частиною даних від початкової до кінцевої точки. Розглядайте точку даних як мандрівника, а її паспорт — як походження даних, щоб краще зрозуміти, як вона функціонує.
Джерела даних, перетворення даних, зберігання даних і вихід даних складають чотири основні компоненти паспорта.
Багато систем, програм і платформ, з яких надходять дані, представлені джерелами даних, які служать відправними точками для подорожі даних. Трансформація даних є наступним етапом, а походження даних відображає прогрес даних від цих джерел до них.
Перетворення даних стосується формування, модифікації та маніпулювання даними для задоволення потреб користувачів. Він функціонує як зупинка для відпочинку під час подорожі даних, готуючи їх до наступного етапу.
Потім дані зберігаються перед тим, як перейти в остаточне місце розташування. Його можна зберігати на хмарних серверах, базах даних або іншому пристрої зберігання даних. Data lineage відстежує, де зберігаються дані, а також як вони захищені, створені резервні копії та відновлені.
Останнім кроком є вихід даних, куди дані надсилаються для використання. Для його представлення можна використовувати звіти, інфографіку або будь-який інший тип продукту даних. Data lineage відстежує вихідні дані та гарантує послідовність, точність і повноту даних.
Data lineage в основному працює шляхом запису кожного етапу подорожі даних, від їх створення до виведення, і переконавшись, що вони залишаються надійними, узгодженими та правильними на всьому шляху. Лінія даних допомагає організаціям приймати обґрунтовані рішення, вирішувати проблеми та дотримуватися юридичних зобов’язань, надаючи повне уявлення про існування даних.
Щоб зрозуміти активи даних і те, як вони переміщуються через конвеєр даних, метадані є важливою частиною процесу походження даних.
Ви можете побачити, як дані перетворюються та використовуються в організації за допомогою інструментів визначення походження даних, які використовують метадані для візуального зображення потоку даних. Це дозволяє користувачам оцінювати потенціал даних, допомагаючи їм приймати більш обґрунтовані рішення.
Типи походження даних
Є три основні форми походження даних: пряме походження даних, зворотне походження даних і двонаправлене походження даних.
Лінія передніх даних
Як і у випадку з вулицею з одностороннім рухом, передача даних передбачає відстеження частини даних від початкової до кінцевої точки. Починаючи з джерела даних, він стежить за даними, коли вони проходять через кілька перетворень і систем зберігання, щоб отримати вихід.
Розуміння обробки та перетворення даних, а також будь-яких проблем, які могли виникнути на цьому шляху, полегшується завдяки наявності такого типу даних. Кожен крок веде до наступного; це схоже на стежку хлібних крихт.
Зворотне походження даних
Зворотне походження даних схоже на подорож у зворотному напрямку, коли ми відстежуємо вихід даних до їх джерела. Процес починається в кінцевому місці розташування даних і рухається назад через різноманітні методи зберігання та перетворення, поки не досягне джерела даних.
Ідентифікація вихідного джерела даних, розуміння їх перетворення, а також перевірка їх правильності та повноти – все це можливо за допомогою цього роду ліній даних. Він працює як інструмент детектива, дозволяючи нам стежити за шляхом даних у зворотному напрямку.
Двонаправлене походження даних
Двостороння лінія передачі даних поєднує в собі переваги прямої та зворотної лінії передачі даних. Він забезпечує повне уявлення про маршрут даних, відстежуючи їх від джерела до пункту призначення, а також від цього місця до початкової точки.
Щоб визначити вихідне джерело даних, зрозуміти, як вони були змінені, і гарантувати їх якість, узгодженість і повноту протягом усього шляху, корисно відстежувати походження даних. Маючи інформацію про місцезнаходження та статус у реальному часі, це все одно, що мати GPS-трекер для даних.
Реалізація Data Lineage
Впровадження лінії даних в організації часто включає наступні етапи.
Визначте джерела даних
Системи та бази даних, які зберігають дані, які ви хочете відстежувати, повинні бути ідентифіковані. Для цього потрібно спочатку визначити різні джерела даних, включаючи файли, API та хмарні служби.
Зберіть метадані
Наступним етапом є отримання деталей про дані, включаючи їх розташування, формат і організацію. Розуміння особливостей даних і способів їх використання стало можливим завдяки цим метаданим.
Визначте недоліки даних
Простіше зрозуміти, як дані оновлюються та використовуються в організації, якщо потік даних нанесено на карту від їх джерела до місця призначення, включаючи будь-які перетворення або обробку, які відбуваються вздовж маршруту.
Відстежуйте доступ до даних
Щоб забезпечити безпеку та відповідність даних, відстежуйте та записуйте, хто має доступ до даних.
Зберігайте та візуалізуйте родовід
Використовуйте інструменти візуалізації, щоб представити походження для простого розуміння та аналізу. Зберігайте зібрані метадані та інформацію про потік даних в єдиному сховищі.
Впровадити автоматизоване рішення
Ви можете перевірити, чи дані збираються та контролюються за допомогою автоматизації, що також допоможе зменшити кількість помилок і підвищити продуктивність.
Перегляд і оновлення
Слідкуйте за тим, щоб записи про походження були правильними та актуальними на регулярній основі, і оновлюйте їх у разі необхідності.
Залежно від унікальних вимог і обмежень кожної організації процес впровадження може знадобитися змінити або додати його до фаз.
Техніки походження даних
Родовід на основі шаблонів
За допомогою цього методу визначення походження виконується без необхідності взаємодії з програмою, яка створила або перетворила дані. Оцінка метаданих для таблиць, стовпців і бізнес-звітів є її частиною. Він досліджує походження, шукаючи тенденції за допомогою цих метаданих.
Наприклад, цілком ймовірно, що стовпець у двох наборах даних з однаковою назвою та ідентичними значеннями даних представляє ті самі дані на різних етапах свого існування. Потім для з’єднання цих двох стовпців використовується діаграма походження даних.
Лініїзація на основі шаблонів має значну перевагу незалежності від технології, оскільки перевіряє лише дані, а не методи обробки даних. Будь-яка технологія баз даних, включаючи Oracle, MySQL і Spark, може реалізувати це таким же чином. Недоліком є те, що цей підхід не завжди точний.
Коли логіка обробки даних прихована в комп’ютерному коді та неочевидна в зрозумілих людині метаданих, вона іноді може пропускати зв’язки між наборами даних.
Родовід за тегом даних
Цей метод заснований на уявленні про те, що механізм трансформації позначає дані тегами або іншим чином. Він відстежує тег від початку до кінця, щоб знайти походження. Цей підхід може бути успішним, лише якщо у вас є надійний інструмент перетворення, який керує всіма передачами даних, і ви знайомі зі структурою тегів, яку використовує інструмент.
Навіть якби такий інструмент існував, жодні дані, які були створені або змінені без нього, не могли б бути піддані родоводу через тегування даних. У цьому відношенні він обмежений виконанням ліній даних у закритих системах даних.
Самодостатній родовід
Деякі підприємства мають середовище даних, яке включає зберігання метаданих, логіку обробки та керування основними даними (MDM). Ці налаштування часто включають a озеро даних де всі дані зберігаються протягом усього терміну служби.
Родовід може бути природним чином забезпечений таким типом автономної системи без потреби в додаткових ресурсах. Однак, як і з методом тегування даних, родовід не знатиме нічого, що відбувається за межами цього регульованого середовища.
Родовід даних за аналізом
Найдосконаліший тип походження — це той, який автоматично зчитує логіку обробки даних. Для ретельного наскрізного відстеження цей метод виконує зворотне проектування логіки перетворення даних.
Оскільки це рішення повинно охоплювати все мови програмування і інструментів, що використовуються для перетворення та транспортування даних, їх розгортання є складним. Це може використовувати логіку вилучення-перетворення-завантаження (ETL), рішення на основі SQL і Java, старі формати даних, рішення на основі XML та інші методи.
Випадки використання походження даних
Моделювання даних
Компанії повинні створити базові структури даних, які їх підтримують, щоб візуалізувати багато елементів даних і зв’язки між ними всередині компанії. Ці зв’язки моделюються за допомогою походження даних, що також показує багато залежностей, присутніх в екосистемі даних.
Оскільки дані змінюються з часом, постійно з’являються нові джерела даних, що вимагає нових інтеграцій даних тощо. Через це загальні моделі даних компаній для управління своїми даними також повинні змінюватися відповідно до середовища.
Дотримання
Data lineage пропонує метод відповідності для аудиту, покращення управління ризиками та забезпечення того, що дані зберігаються й обробляються відповідно до політик і законів щодо керування даними.
Аналіз впливу
Наслідки певних бізнес-змін, як-от будь-яка подальша звітність, можна побачити за допомогою інструментів походження даних. Наприклад, походження даних може допомогти керівникам визначити, на скільки інформаційних панелей вплине зміна назви та, як наслідок, скільки людей мають доступ до цієї звітності.
Міграція даних
Організації використовують міграцію даних, щоб зрозуміти, де розташовані дані та як довго вони там перебували, перш ніж перемістити їх у нову систему зберігання чи запровадити нове програмне забезпечення.
Лінія даних допомагає командам підготуватися до оновлення системи або міграції, надаючи їм огляд того, як дані переміщувалися в організації. Це загалом прискорює перехід до нового середовища зберігання.
Крім того, це дає командам можливість розчистити систему даних, архівуючи або видаляючи застарілі чи непотрібні дані. Завдяки цьому система даних працюватиме краще загалом і потребуватиме менше керування даними.
Проблеми впровадження даних Lineage
- Безпека даних: Безпека даних є першочерговою проблемою під час створення лінії даних. Щоб пройти шлях даних від початкової точки до кінцевого пункту призначення, необхідно надати доступ до конфіденційних даних, і ці дані мають бути захищені від несанкціонованого доступу та порушень.
- Відсутність стандартизації: одним із основних бар’єрів на шляху впровадження лінійних даних є відсутність стандартів. Оскільки багато платформ, програм і систем використовують унікальні методи для відстеження та запису походження даних, може бути важко скласти цілісну картину подорожі даних.
- Розташування даних. Ще одна проблема, яка виникає під час впровадження лінійних даних, — це розмежування даних. Коли дані розподіляються між кількома програмами та системами, може бути складно відстежити їх шлях від однієї до іншої. Це може призвести до неточного або неповного походження даних.
Висновок
Підсумовуючи, слід зазначити, що передача даних є невід’ємною частиною кожного підприємства, що керується даними. Він пропонує повну перспективу шляху даних від початкової до кінцевої точки, гарантуючи їх точність, повноту та послідовність.
Очікується, що майбутня автоматизація та стандартизація ліній даних збільшиться, що спростить впровадження та підтримку для організацій. Зрештою, не можна підкреслити важливість походження даних.
Він дає компаніям інструменти, необхідні для прийняття розумного вибору, більш ефективного ведення операцій і досягнення успіху.
залишити коментар