Содержание[Скрывать][Показывать]
Данные повсюду вокруг вас. В реальном смысле это влияет на каждый аспект вашего бизнеса. Может показаться, что у вас недостаточно времени, чтобы изучить особенности того, насколько хорошо он служит вашему бизнесу, когда вы заняты решениями о том, как обращаться с вашими данными.
Соблюдайте это. Ваша организация использует данные 24 часа в сутки. Поэтому понимание того, откуда оно взялось, как оно туда попало и как оно перемещается по компании, имеет решающее значение для понимания его ценности.
Происхождение данных становится важным в этой ситуации. Легче понять, как формировались данные, откуда они взялись и куда они направляются, когда мы можем отслеживать происхождение, миграцию и изменение данных.
В этом посте мы подробно рассмотрим Data Lineage, как он работает, его варианты использования, методы и многое другое.
Что такое преемственность данных?
Происхождение данных служит своего рода цифровым паспортом. Это наиболее полный отчет о поездке с подробным описанием всех его остановок, объездов и модификаций от его начала до конечного пункта назначения.
IПо сути, линия передачи данных описывает происхождение, модификацию и использование фрагмента данных во многих системах и платформах. Он функционирует как инструмент детектива, предоставляя пользователям информацию о том, как были получены данные, откуда они взялись и как они были использованы. Эта информация позволяет пользователям распознавать и решать любые потенциальные проблемы.
Происхождение данных — это бесценный ресурс для компаний, которые зависят от данных в своей деятельности, потому что они позволяют пользователям отвечать на такие важные вопросы, как кто, что, когда и где.
Происхождение данных — это, проще говоря, окончательный след данных, который гарантирует точность, полноту и согласованность данных, а также предлагает четкую и краткую перспективу полного пути данных.
Как работает Data Lineage?
Происхождение данных — это дорожная карта, которая позволяет нам проследить фрагмент данных от его начальной точки до конечной точки. Рассмотрим точку данных как путешественника, а ее паспорт — как линию передачи данных, чтобы лучше понять, как она работает.
Источники данных, преобразование данных, хранение данных и вывод данных составляют четыре основных компонента паспорта.
Множество систем, приложений и платформ, из которых поступают данные, представлены источниками данных, которые служат начальными точками пути данных. Преобразование данных — это последующий этап, а линия передачи данных отображает продвижение данных из этих источников в него.
Преобразование данных относится к формированию, изменению и манипулированию данными для удовлетворения потребностей пользователей. Он служит остановкой для отдыха во время поездки данных, подготавливая их к следующему этапу.
Затем данные сохраняются перед тем, как отправиться в свое окончательное место. Он может храниться на облачных серверах, в базах данных или на каком-либо другом устройстве хранения. Data lineage отслеживает, где хранятся данные, а также как они защищаются, резервируются и восстанавливаются.
Последним шагом является вывод данных, когда данные отправляются для использования. Для ее представления могут использоваться отчеты, инфографика или любые другие информационные продукты. Линейка данных отслеживает вывод и гарантирует согласованность, точность и полноту данных.
Происхождение данных в основном работает, записывая каждый этап пути данных, от их создания до их вывода, и следя за тем, чтобы они оставались надежными, непротиворечивыми и правильными на всем протяжении. Происхождение данных помогает организациям принимать обоснованные решения, устранять проблемы и соблюдать юридические обязательства, предоставляя полное представление о существовании данных.
Чтобы понять активы данных и то, как они перемещаются по конвейеру данных, метаданные являются важной частью процесса передачи данных.
Вы можете увидеть, как данные преобразовываются и используются в организации, с помощью инструментов анализа происхождения данных, которые используют метаданные для визуального представления потока данных. Это позволяет пользователям оценивать потенциал данных, помогая им принимать более обоснованные решения.
Типы передачи данных
Существует три основных формы передачи данных: прямая передача данных, обратная передача данных и двунаправленная передача данных.
Направление передачи данных
Как и в случае с улицей с односторонним движением, прямая передача данных включает в себя отслеживание фрагмента данных от его начальной точки до конечной точки. Начиная с источника данных, он следует за данными, когда они проходят через несколько преобразований и систем хранения, чтобы достичь результата.
Понимание обработки и преобразования данных, а также любых проблем, которые могут возникнуть на этом пути, облегчается наличием такой линии передачи данных. Каждый шаг ведет к следующему; это как идти по следу хлебных крошек.
Обратная линия передачи данных
Происхождение данных в обратном направлении похоже на путешествие в обратном направлении, когда мы прослеживаем вывод данных до их источника. Процесс начинается с конечного местоположения данных и движется назад, используя различные методы хранения и преобразования, пока не достигнет источника данных.
Идентификация исходного источника данных, понимание их преобразования и проверка их правильности и полноты возможны с помощью такого рода передачи данных. Он работает как инструмент детектива, позволяя нам проследить путь данных в обратном направлении.
Двунаправленная передача данных
Улица с двусторонним движением, двунаправленная линия передачи данных сочетает в себе преимущества прямой и обратной линии передачи данных. Он обеспечивает полное представление о маршруте данных, отслеживая их от источника до пункта назначения, а также от этого местоположения до начальной точки.
Чтобы определить первоисточник данных, понять, как они были изменены, и гарантировать их качество, непротиворечивость и полноту на протяжении всего пути, полезно отслеживать происхождение данных. Имея информацию в режиме реального времени о его местонахождении и статусе, это все равно, что иметь GPS-трекер для данных.
Реализация линии передачи данных
Реализация передачи данных в организации часто включает следующие этапы.
Определите источники данных
Все системы и базы данных, в которых хранятся данные, которые вы хотите отслеживать, должны быть идентифицированы. Для этого необходимо сначала определить различные источники данных, включая файлы, API-интерфейсы и облачные службы.
Соберите метаданные
Следующим этапом является получение подробной информации о данных, включая их расположение, формат и организацию. Эти метаданные позволяют понять особенности данных и то, как они используются.
Выявление недостатков данных
Легче понять, как данные обновляются и используются в организации, если поток данных отображается на карте от источника до места назначения, включая любые преобразования или обработку, происходящие на этом пути.
Отслеживание доступа к данным
Чтобы обеспечить безопасность данных и соответствие требованиям, отслеживайте и записывайте, кто получает доступ к данным.
Храните и визуализируйте родословную
Используйте инструменты визуализации, чтобы представить родословную для простого понимания и анализа. Храните собранные метаданные и информацию о потоках данных в одном репозитории.
Внедрить автоматизированное решение
Вы можете убедиться, что данные собираются и отслеживаются с помощью автоматизации, что также поможет сократить количество ошибок и повысить производительность.
Обзор и обновление
Следите за тем, чтобы записи о происхождении были правильными и актуальными на регулярной основе, и обновляйте их по мере необходимости.
В зависимости от уникальных требований и ограничений каждой организации может потребоваться изменить процесс внедрения или добавить его к фазам.
Методы передачи данных
Родословная на основе шаблонов
С помощью этого метода родословная выполняется без необходимости взаимодействия с программным обеспечением, которое сгенерировало или преобразовало данные. Оценка метаданных для таблиц, столбцов и бизнес-отчетов является его частью. Он исследует родословную, ища тенденции, используя эти метаданные.
Например, вполне вероятно, что столбец в двух наборах данных с одинаковым именем и одинаковыми значениями данных представляет одни и те же данные на разных этапах их существования. Затем для соединения этих двух столбцов используется диаграмма происхождения данных.
Происхождение на основе шаблонов имеет значительное преимущество в том, что оно не зависит от технологии, потому что оно просто проверяет данные, а не методы обработки данных. Любая технология баз данных, включая Oracle, MySQL и Spark, может быть реализована таким же образом. Недостатком является то, что этот подход не всегда точен.
Когда логика обработки данных скрыта в компьютерном коде и не очевидна в удобочитаемых метаданных, она может иногда упускать из виду отношения между наборами данных.
Происхождение по тегам данных
Этот метод основан на представлении о том, что механизм преобразования помечает или иным образом маркирует данные. Он прослеживает тег от начала до конца, чтобы найти родословную. Этот подход может быть успешным только в том случае, если у вас есть надежный инструмент преобразования, который управляет передачей всех данных, и вы знакомы со структурой тегов, которую использует этот инструмент.
Даже если бы такой инструмент существовал, никакие данные, которые были созданы или изменены без него, не могли быть подвергнуты происхождению посредством маркировки данных. В этом отношении он ограничен выполнением передачи данных в закрытых системах данных.
Самодостаточная родословная
Некоторые предприятия имеют среду данных, которая включает в себя хранилище метаданных, логику обработки и управление основными данными (MDM). Эти настройки часто включают озеро данных где все данные хранятся в течение всего срока службы.
Родословная может естественным образом обеспечиваться такой автономной системой без необходимости в дополнительных ресурсах. Однако, как и в случае с методом маркировки данных, родословная не будет знать ни о чем, что происходит за пределами этой регулируемой среды.
Происхождение данных путем анализа
Самый сложный тип родословной — это тот, который автоматически считывает логику обработки данных. Для тщательной сквозной трассировки этот метод реконструирует логику преобразования данных.
Поскольку это решение должно охватывать все языки программирования и инструменты, используемые для преобразования и передачи данных, его развертывание усложнено. При этом может использоваться логика извлечения-преобразования-загрузки (ETL), решения на основе SQL и Java, старые форматы данных, решения на основе XML и другие методы.
Примеры использования Data Lineage
Моделирование данных
Компании должны установить базовые структуры данных, которые их поддерживают, чтобы визуализировать множество элементов данных и связи между ними внутри компании. Эти соединения моделируются с использованием линии передачи данных, которая также показывает множество зависимостей, присутствующих в экосистеме данных.
Поскольку данные со временем меняются, постоянно появляются новые источники данных, требующие интеграции новых данных и т. д. Из-за этого общие модели данных фирм для управления их данными также должны меняться, чтобы отражать окружающую среду.
Комплаенс
Data lineage предлагает метод соответствия для аудита, улучшения управления рисками и обеспечения того, чтобы данные хранились и обрабатывались в соответствии с политиками и законами управления данными.
Анализ воздействия
Эффекты определенных бизнес-изменений, таких как любая последующая отчетность, можно увидеть с помощью инструментов передачи данных. Происхождение данных, например, может помочь руководителям определить, на скольких информационных панелях повлияет смена названия и, следовательно, сколько людей получит доступ к этим отчетам.
Перенос данных
Организации используют миграцию данных, чтобы понять, где находятся данные и как долго они находятся там, прежде чем перемещать их в новую систему хранения или внедрять новое программное обеспечение.
Происхождение данных помогает командам подготовиться к обновлению или миграции системы, предоставляя им обзор того, как данные перемещались по организации. Это ускоряет перенос в новую среду хранения в целом.
Кроме того, это дает командам возможность навести порядок в системе данных, архивируя или удаляя устаревшие или бесполезные данные. Таким образом, система данных будет работать лучше в целом и будет нуждаться в меньшем управлении данными.
Проблемы реализации Data Lineage
- Безопасность данных. Безопасность данных является первоочередной задачей при построении линии передачи данных. Чтобы проследить путешествие данных от начальной точки до конечного пункта назначения, необходимо предоставить доступ к конфиденциальным данным, и эти данные должны быть защищены от несанкционированного доступа и взлома.
- Отсутствие стандартизации. Одним из основных препятствий на пути внедрения данных является отсутствие стандартов. Поскольку многие платформы, приложения и системы используют уникальные методы отслеживания и регистрации происхождения данных, может быть сложно составить целостную картину путешествия данных.
- Хранилища данных. Хранилища данных — еще одна проблема, возникающая при реализации линии передачи данных. Когда данные распределены по нескольким приложениям и системам, может быть сложно отследить их переход от одного к другому. Это может привести к неточному или неполному происхождению данных.
Заключение
В заключение, передача данных является неотъемлемой частью любого предприятия, управляемого данными. Он предлагает исчерпывающую картину пути данных от начальной до конечной точки, гарантируя их точность, полноту и согласованность.
Ожидается, что в будущем автоматизация и стандартизация передачи данных возрастут, что упростит внедрение и обслуживание для организаций. В конце концов, значение линии передачи данных невозможно переоценить.
Это дает компаниям инструменты, необходимые им для принятия разумных решений, более эффективного управления операциями и достижения успеха.
Оставьте комментарий