Зміст[Сховати][Показати]
Дослідники та науковці даних часто стикаються з обставинами, за яких вони або не мають фактичних даних, або не можуть їх використовувати через міркування конфіденційності чи конфіденційності.
Щоб вирішити цю проблему, використовується синтетичне виробництво даних для створення заміни справжніх даних.
Для належної роботи алгоритму потрібна відповідна заміна справжніх даних, яка також має бути реалістичною. Ви можете використовувати такі дані для підтримки конфіденційності, тестування систем або створення навчальних даних для алгоритмів машинного навчання.
Давайте детально розглянемо генерацію синтетичних даних і з’ясуємо, чому вони є життєво важливими в епоху ШІ.
Що таке синтетичні дані?
Синтетичні дані – це анотовані дані, згенеровані комп’ютерним моделюванням або алгоритмами, які замінюють дані реального світу. Це копія фактичних даних, створена штучним інтелектом.
Можна використовувати шаблони даних і розміри, використовуючи передові алгоритми ШІ. Вони можуть створювати необмежену кількість синтетичних даних, які статистично репрезентують вихідні навчальні дані після їх навчання.
Існує безліч підходів і технологій, які можуть допомогти нам створювати синтетичні дані, і ви можете використовувати їх у різних програмах.
Програмне забезпечення для генерації даних часто вимагає:
- Метадані сховища даних, для яких необхідно створити синтетичні дані.
- Техніка створення правдоподібних, але вигаданих цінностей. Приклади включають списки значень і регулярні вирази.
- Повна поінформованість про всі відносини даних, оголошені на рівні бази даних, а також ті, що контролюються на рівні коду програми.
Так само необхідно перевірити модель і порівняти поведінкові аспекти реальних даних з тими, що генеруються моделлю.
Ці вигадані набори даних мають усю цінність реальної речі, але жодної з конфіденційних даних. Це як смачний торт без калорій. Він точно зображує реальний світ.
В результаті ви можете використовувати його для заміни реальних даних.
Важливість синтетичних даних
Синтетичні дані мають характеристики, які відповідають певним вимогам або ситуаціям, які інакше були б недоступні в реальних даних. Коли не вистачає даних для тестування або коли конфіденційність є головним міркуванням, це приходить на допомогу.
Набори даних, згенеровані штучним інтелектом, є адаптивними, безпечними та їх легко зберігати, обмінюватися та викидати. Методика синтезу даних підходить для підгрупи та покращення вихідних даних.
Як наслідок, він ідеально підходить для використання в якості тестових даних і даних для навчання ШІ.
- Щоб навчити Uber і Самокеровані автомобілі Tesla.
- У галузі медицини та охорони здоров’я для оцінки конкретних захворювань та обставин, щодо яких не існує справжніх даних.
- Виявлення та захист від шахрайства мають вирішальне значення у фінансовому секторі. Використовуючи його, ви можете розслідувати нові випадки шахрайства.
- Amazon навчає мовну систему Alexa за допомогою синтетичних даних.
- American Express використовує синтетичні фінансові дані для покращення виявлення шахрайства.
Типи синтетичних даних
Синтетичні дані створюються випадковим чином з метою приховати конфіденційну інформацію, зберігаючи статистичну інформацію про характеристики в вихідних даних.
В основному буває трьох видів:
- Повністю синтетичні дані
- Частково синтетичні дані
- Гібридні синтетичні дані
1. Повністю синтетичні дані
Ці дані повністю згенеровані і не містять оригінальних даних.
Як правило, генератор даних такого типу буде ідентифікувати функції щільності об’єктів у реальних даних та оцінити їх параметри. Пізніше з передбачених функцій щільності для кожної функції випадковим чином створюються захищені конфіденційністю ряди.
Якщо для заміни вибрано лише кілька характеристик фактичних даних, захищені ряди цих ознак зіставляються з іншими ознаками реальних даних, щоб ранжувати захищений і реальний ряди в одному порядку.
Методи завантаження та багаторазові імпутації є двома традиційними методами створення повністю синтетичних даних.
Оскільки дані є повністю синтетичними, а реальних даних не існує, ця стратегія забезпечує чудовий захист конфіденційності з опорою на правдивість даних.
2. Частково синтетичні дані
Ці дані використовують лише синтетичні значення для заміни значень кількох конфіденційних функцій.
У цій ситуації справжні цінності змінюються лише в тому випадку, якщо існує суттєва небезпека розкриття. Ця зміна зроблена для захисту конфіденційності свіжо створених даних.
Для отримання частково синтетичних даних використовуються багаторазові підходи та підходи на основі моделі. Ці методи також можна використовувати для заповнення відсутніх значень у реальних даних.
3. Гібридні синтетичні дані
Гібридні синтетичні дані включають як реальні, так і підроблені дані.
Для кожного випадкового запису реальних даних вибирається майже рекордний запис, а потім вони об’єднуються для створення гібридних даних. Він має переваги як повністю синтетичних, так і частково синтетичних даних.
Тому він забезпечує надійне збереження конфіденційності з високою корисністю в порівнянні з двома іншими, але ціною більшої пам’яті та часу обробки.
Методи генерації синтетичних даних
Протягом багатьох років концепція машинної обробки даних була популярною. Зараз воно дозріває.
Ось деякі методи, які використовуються для створення синтетичних даних:
1. На основі розподілу
Якщо реальних даних немає, але аналітик даних має повне уявлення про те, як виглядатиме розподіл набору даних; вони можуть створити випадкову вибірку будь-якого розподілу, включаючи нормальний, експоненційний, хі-квадрат, t, логнормальний і рівномірний.
Значення синтетичних даних у цьому методі варіюється в залежності від рівня розуміння аналітика певного середовища даних.
2. Дані реального світу у відомий розподіл
Підприємства можуть створювати їх, визначаючи найкращі розподіли для даних реальних даних, якщо є реальні дані.
Підприємства можуть використовувати підхід Монте-Карло для його створення, якщо вони хочуть вмістити реальні дані у відомий розподіл і знати параметри розподілу.
Незважаючи на те, що підхід Монте-Карло може допомогти підприємствам знайти найкращий доступний варіант, найкращий підхід може бути недостатньо корисним для потреб компанії в синтетичних даних.
Підприємства можуть вивчити використання моделей машинного навчання, щоб відповідати розповсюдженню в цих обставинах.
Методи машинного навчання, такі як дерева рішень, дозволяють організаціям моделювати некласичні розподіли, які можуть бути мультимодальними і не мають загальних властивостей визнаних розподілів.
Підприємства можуть створювати синтетичні дані, які з’єднуються з справжніми даними за допомогою цього розподіленого обладнання з машинним навчанням.
Тим не менш, моделі машинного навчання чутливі до переобладнання, що призводить до того, що вони не можуть зіставити свіжі дані або передбачити майбутні спостереження.
3. Глибоке навчання
Глибокі генеративні моделі, такі як варіаційний автокодер (VAE) і генеративна змагальна мережа (GAN), можуть створювати синтетичні дані.
Варіаційний автокодер
VAE — це неконтрольований підхід, при якому кодер стискає вихідний набір даних і надсилає дані декодеру.
Потім декодер виробляє вихід, який є представленням вихідного набору даних.
Навчання системи передбачає максимальну кореляцію між вхідними та вихідними даними.
Генеральна змагальна мережа
Модель GAN ітеративно навчає модель, використовуючи дві мережі, генератор і дискримінатор.
Генератор створює синтетичний набір даних із набору випадкових вибіркових даних.
Дискримінатор порівнює синтетично створені дані з реальним набором даних, використовуючи попередньо визначені умови.
Постачальники синтетичних даних
Структуровані дані
Платформи, згадані нижче, надають синтетичні дані, отримані з табличних даних.
Він реплікує дані реального світу, які зберігаються в таблицях, і може використовуватися для поведінкового, прогнозного або транзакційного аналізу.
- Прищеплювати ШІ: Це постачальник синтетичної системи створення даних, яка використовує генеративні змагальні мережі та диференційну конфіденційність.
- Кращі дані: Це постачальник синтетичних рішень із збереженням конфіденційності для штучного інтелекту, обміну даними та розробки продуктів.
- Divepale: Це постачальник Geminai, системи для створення «подвійних» наборів даних із такими ж статистичними характеристиками, що й вихідні дані.
Неструктуровані дані
Платформи, згадані нижче, працюють з неструктурованими даними, надаючи синтетичні дані та послуги для навчання алгоритмів зору та розвідки.
- Datagen: надає 3D-модельовані навчальні дані для навчання та розвитку візуального AI.
- нейролабораторії: Neurolabs є постачальником платформи синтетичних даних комп'ютерного зору.
- Паралельний домен: Це постачальник платформи синтетичних даних для навчання та тестування автономної системи.
- Cognata: Це постачальник моделювання для ADAS та розробників автономних транспортних засобів.
- Біфрост: надає API синтетичних даних для створення 3D-середовища.
Виклики
Він має довгу історію в Штучний Інтелект, і хоча він має багато переваг, він також має суттєві недоліки, які вам потрібно усунути під час роботи з синтетичними даними.
Ось деякі з них:
- Під час копіювання складності з фактичних даних на синтетичні дані може бути багато.
- Податливий характер його призводить до упереджень у його поведінці.
- Можуть бути деякі приховані недоліки в продуктивності алгоритмів, навчених за допомогою спрощених представлень синтетичних даних, які нещодавно з’явилися під час роботи з реальними даними.
- Відтворення всіх релевантних атрибутів із реальних даних може стати складним. Також можливо, що деякі важливі аспекти можуть бути упущені під час цієї операції.
Висновок
Виробництво синтетичних даних явно привертає увагу людей.
Цей метод не може бути єдиною відповіддю для всіх випадків генерування даних.
Крім того, ця техніка може вимагати інтелекту за допомогою штучного інтелекту і машинного навчання, а також мати можливість працювати зі складними реальними ситуаціями створення взаємопов’язаних даних, в ідеалі даних, які підходять для певної області.
Тим не менш, це інноваційна технологія, яка заповнює прогалину, де інші технології, що забезпечують конфіденційність, не мають можливості.
Сьогодні синтетика виробництво даних може потребувати співіснування маскування даних.
У майбутньому може виникнути більша конвергенція між ними, що призведе до більш комплексного рішення для створення даних.
Поділіться своїми думками в коментарях!
залишити коментар