Генерация синтетических данных: типы, методы и многое другое

Содержание[Скрывать][Показывать]

Что такое синтетические данные?
Важность синтетических данных
Типы синтетических данных+-
Методы генерации синтетических данных+-
Поставщики синтетических данных+-
- Структурированные данные
- Неструктурированные данные
Вызовы
Заключение

Исследователи и специалисты по данным часто сталкиваются с обстоятельствами, при которых они либо не имеют фактических данных, либо не могут их использовать из-за соображений конфиденциальности или конфиденциальности.

Чтобы решить эту проблему, производство синтетических данных используется для замены подлинных данных.

Для правильной работы алгоритма требуется соответствующая замена подлинных данных, которая также должна быть реалистичной по своему характеру. Вы можете использовать такие данные для обеспечения конфиденциальности, тестирования систем или создания обучающих данных для алгоритмов машинного обучения.

Давайте подробно рассмотрим создание синтетических данных и выясним, почему они жизненно важны в эпоху ИИ.

Что такое синтетические данные?

Синтетические данные — это аннотированные данные, созданные с помощью компьютерного моделирования или алгоритмов в качестве замены реальных данных. Это созданная искусственным интеллектом копия реальных данных.

Можно использовать шаблоны данных и размеры, используя продвинутые алгоритмы ИИ. После обучения они могут создавать неограниченное количество синтетических данных, статистически репрезентативных для исходных обучающих данных.

Существует множество подходов и технологий, которые могут помочь нам создавать синтетические данные, и вы можете использовать их в различных приложениях.

Программное обеспечение для генерации данных часто требует:

Метаданные хранилища данных, для которых должны быть созданы синтетические данные.
Техника создания правдоподобных, но вымышленных значений. Примеры включают списки значений и регулярные выражения.
Полная осведомленность обо всех связях данных, объявленных на уровне базы данных, а также тех, которые контролируются на уровне кода приложения.

В равной степени необходимо проверить модель и сравнить поведенческие аспекты реальных данных с данными, сгенерированными моделью.

Эти фиктивные наборы данных имеют всю ценность реальных вещей, но не содержат конфиденциальных данных. Это похоже на сочный, некалорийный торт. Он точно изображает реальный мир.

В результате вы можете использовать его для замены реальных данных.

Важность синтетических данных

Синтетические данные имеют характеристики, соответствующие определенным требованиям или ситуациям, которые в противном случае были бы недоступны в реальных данных. Когда не хватает данных для тестирования или когда конфиденциальность является главным соображением, он приходит на помощь.

Наборы данных, созданные ИИ, адаптируемы, безопасны, их легко хранить, обменивать и удалять. Метод синтеза данных подходит для подмножества и улучшения исходных данных.

Как следствие, он идеально подходит для использования в качестве тестовых данных и данных для обучения ИИ.

Научить Uber и Самоуправляемые автомобили Tesla.
В медицине и здравоохранении для оценки конкретных заболеваний и обстоятельств, для которых не существует достоверных данных.
Обнаружение и защита от мошенничества имеют решающее значение в финансовом секторе. Используя его, вы можете расследовать новые случаи мошенничества.
Amazon обучает языковую систему Alexa, используя синтетические данные.
American Express использует синтетические финансовые данные для улучшения обнаружения мошенничества.

Типы синтетических данных

Синтетические данные создаются случайным образом с целью сокрытия конфиденциальной частной информации при сохранении статистической информации о характеристиках в исходных данных.

В основном он бывает трех видов:

Полностью синтетические данные
Частично синтетические данные
Гибридные синтетические данные

1. Полностью синтетические данные

Эти данные полностью сгенерированы и не содержат исходных данных.

Как правило, генератор данных для этого типа идентифицирует функции плотности признаков в реальных данных и оценивает их параметры. Позже, из предсказанных функций плотности, для каждой функции случайным образом создаются ряды, защищенные конфиденциальностью.

Если для замены выбрано всего несколько характеристик фактических данных, защищенные ряды этих признаков сопоставляются с остальными признаками реальных данных, чтобы ранжировать защищенные и реальные ряды в одном порядке.

Методы начальной загрузки и множественные импутации — два традиционных метода получения полностью синтетических данных.

Поскольку данные полностью синтетические и реальных данных не существует, эта стратегия обеспечивает превосходную защиту конфиденциальности, полагаясь на достоверность данных.

2. Частично синтетические данные

В этих данных используются только синтетические значения для замены значений нескольких конфиденциальных функций.

В этой ситуации подлинные значения изменяются только в том случае, если существует существенная опасность раскрытия. Это изменение сделано для защиты конфиденциальности только что созданных данных.

Для получения частично синтетических данных используются множественные подходы на основе вменения и моделей. Эти методы также можно использовать для заполнения пропущенных значений в реальных данных.

3. Гибридные синтетические данные

Гибридные синтетические данные включают в себя как настоящие, так и поддельные данные.

Почти запись в нем выбирается для каждой случайной записи реальных данных, а затем они объединяются для создания гибридных данных. Он имеет преимущества как полностью синтетических, так и частично синтетических данных.

Таким образом, он предлагает надежное сохранение конфиденциальности с высокой полезностью по сравнению с двумя другими, но за счет большего объема памяти и времени обработки.

Методы генерации синтетических данных

В течение многих лет популярна концепция машинно-обрабатываемых данных. Сейчас созревает.

Вот некоторые из методов, используемых для создания синтетических данных:

1. На основе распределения

В случае, если реальных данных не существует, но аналитик данных имеет четкое представление о том, как будет выглядеть распределение набора данных; они могут производить случайную выборку любого распределения, включая нормальное, экспоненциальное, хи-квадрат, t, логнормальное и равномерное.

Ценность синтетических данных в этом методе варьируется в зависимости от уровня понимания аналитиком определенной среды данных.

2. Реальные данные в известном распределении

Предприятия могут производить его, определяя наиболее подходящие распределения для данных реальных данных, если они есть.

Предприятия могут использовать подход Монте-Карло для его создания, если они хотят подогнать реальные данные под известное распределение и знать параметры распределения.

Хотя метод Монте-Карло может помочь предприятиям найти наилучшее доступное соответствие, наилучшее соответствие может оказаться недостаточным для удовлетворения потребностей компании в синтетических данных.

Компании могут изучить возможность использования моделей машинного обучения, чтобы удовлетворить дистрибутивы в этих обстоятельствах.

Методы машинного обучения, такие как деревья решений, позволяют организациям моделировать неклассические распределения, которые могут быть мультимодальными и не иметь общих свойств известных распределений.

Предприятия могут создавать синтетические данные, которые соединяются с подлинными данными, используя этот дистрибутив, адаптированный к машинному обучению.

Однако модели машинного обучения подвержены переобучению, из-за чего они не могут сопоставить свежие данные или предсказать будущие наблюдения.

3. Глубокое обучение

Глубокие генеративные модели, такие как вариационный автоэнкодер (VAE) и генеративно-состязательная сеть (GAN), могут создавать синтетические данные.

Вариационный автоэнкодер

VAE — это неконтролируемый подход, при котором кодировщик сжимает исходный набор данных и отправляет данные в декодер.

Затем декодер выдает результат, который является представлением исходного набора данных.

Обучение системы предполагает максимизацию корреляции между входными и выходными данными.

Vae

Генеративная Состязательная Сеть

Модель GAN итеративно обучает модель, используя две сети, генератор и дискриминатор.

Генератор создает синтетический набор данных из набора случайных выборочных данных.

Дискриминатор сравнивает синтетически созданные данные с реальным набором данных, используя предварительно определенные условия.

Gan

Поставщики синтетических данных

Структурированные данные

Упомянутые ниже платформы предоставляют синтетические данные, полученные из табличных данных.

Он воспроизводит реальные данные, хранящиеся в таблицах, и может использоваться для поведенческого, прогнозного или транзакционного анализа.

Привить ИИ: это поставщик системы создания синтетических данных, которая использует генеративно-состязательные сети и дифференциальную конфиденциальность.
Беттердата: это поставщик синтетического решения для сохранения конфиденциальности данных для искусственного интеллекта, обмена данными и разработки продуктов.
Дайвпейл: это поставщик Geminai, системы для создания «двойных» наборов данных с теми же статистическими характеристиками, что и исходные данные.

Неструктурированные данные

Упомянутые ниже платформы работают с неструктурированными данными, предоставляя товары и услуги на основе синтетических данных для обучения алгоритмов зрения и разведки.

Датаген: он предоставляет трехмерные смоделированные обучающие данные для обучения и разработки визуального ИИ.
Нейролаборатории: Neurolabs — поставщик платформы синтетических данных компьютерного зрения.
Параллельный домен: это поставщик платформы синтетических данных для обучения и тестирования автономных систем.
Коньята: Это поставщик симуляторов для разработчиков ADAS и автономных транспортных средств.
Bifrost: предоставляет API-интерфейсы синтетических данных для создания трехмерных сред.

3 2

Вызовы

Он имеет долгую историю в Artificial Intelligence, и хотя у него много преимуществ, у него также есть существенные недостатки, которые необходимо учитывать при работе с синтетическими данными.

Вот некоторые из них:

При копировании сложности реальных данных в синтетические данные может быть много ошибок.
Его податливый характер приводит к предубеждениям в его поведении.
Могут быть некоторые скрытые недостатки в производительности алгоритмов, обученных с использованием упрощенных представлений синтетических данных, которые недавно появились при работе с реальными данными.
Репликация всех соответствующих атрибутов из реальных данных может стать сложной задачей. Также возможно, что некоторые важные аспекты могут быть упущены из виду во время этой операции.

Заключение

Производство синтетических данных явно привлекает внимание людей.

Этот метод не может быть универсальным ответом для всех случаев генерации данных.

Кроме того, этот метод может потребовать интеллекта через AI / ML и быть в состоянии обрабатывать сложные ситуации реального мира по созданию взаимосвязанных данных, в идеале данных, подходящих для определенной области.

Тем не менее, это инновационная технология, которая заполняет пробел, в котором другие технологии, обеспечивающие конфиденциальность, терпят неудачу.

Сегодня синтетика производство данных может потребовать сосуществования маскирования данных.

В будущем между ними может произойти большее сближение, что приведет к более комплексному решению для генерации данных.

Поделитесь своим мнением в комментариях!

Генерация синтетических данных: типы, методы и многое другое

Что такое синтетические данные?

Важность синтетических данных