Генериране на синтетични данни: типове, техники и повече

Съдържание[Крия][Покажи]

Какво представляват синтетичните данни?
Значение на синтетичните данни
Видове синтетични данни+-
Техники за генериране на синтетични данни+-
Доставчици на синтетични данни+-
- Структурирани данни
- Неструктурирани данни
Предизвикателства
Заключение

Изследователите и учените по данни често се сблъскват с обстоятелства, при които или не разполагат с действителните данни, или не могат да ги използват поради съображения за поверителност или поверителност.

За да се реши този проблем, се използва синтетично производство на данни за създаване на заместител на истински данни.

За правилното функциониране на алгоритъма е необходима подходяща подмяна на истински данни, която също трябва да има реалистичен характер. Можете да използвате такива данни за поддържане на поверителност, тестване на системи или създаване на данни за обучение за алгоритми за машинно обучение.

Нека разгледаме подробно генерирането на синтетични данни и да видим защо те са жизненоважни в ерата на AI.

Какво представляват синтетичните данни?

Синтетичните данни са анотирани данни, генерирани от компютърни симулации или алгоритми като заместител на данните от реалния свят. Това е генерирана от изкуствен интелект реплика на реални данни.

Човек може да използва модели на данни и измерения, използвайки усъвършенствани AI алгоритми. Те могат да създават неограничено количество синтетични данни, които са статистически представителни за оригиналните данни за обучение, след като бъдат обучени.

Има различни подходи и технологии, които могат да ни помогнат да създадем синтетични данни и можете да ги използвате в различни приложения.

Софтуерът за генериране на данни често изисква:

Метаданни на хранилище на данни, за което трябва да бъдат създадени синтетични данни.
Техника за генериране на правдоподобни, но измислени стойности. Примерите включват списъци със стойности и регулярни изрази.
Цялостна информираност за всички връзки с данни, декларирани на ниво база данни, както и тези, контролирани на ниво код на приложението.

Също толкова необходимо е да се валидира моделът и да се сравнят поведенческите аспекти на реалните данни с тези, генерирани от модела.

Тези фиктивни набори от данни имат цялата стойност на истинското нещо, но нито една от чувствителните данни. Това е като вкусна торта без калории. Той точно изобразява действителния свят.

В резултат на това можете да го използвате, за да замените реални данни.

Значение на синтетичните данни

Синтетичните данни имат характеристики, които отговарят на определени изисквания или ситуации, които иначе биха били недостъпни в реалните данни. Когато има недостиг на данни за тестване или когато поверителността е от първостепенно значение, това идва на помощ.

Генерираните от изкуствен интелект набори от данни са адаптивни, сигурни и лесни за съхранение, обмен и изхвърляне. Техниката за синтез на данни е подходяща за поднабор и подобряване на оригиналните данни.

Като следствие, той е идеален за използване като тестови данни и данни за обучение на AI.

Да преподава базиран на ML Uber и Самоуправляващи се автомобили Tesla.
В медицинската и здравната индустрия, за оценка на специфични заболявания и обстоятелства, за които не съществуват истински данни.
Разкриването и защитата от измами са от решаващо значение във финансовия сектор. Използвайки го, можете да разследвате нови случаи на измама.
Amazon обучава езиковата система на Alexa, използвайки синтетични данни.
American Express използва синтетични финансови данни, за да подобри откриването на измами.

Видове синтетични данни

Синтетичните данни се създават на случаен принцип с намерението да се прикрие чувствителна частна информация, като същевременно се съхранява статистическа информация за характеристиките в оригиналните данни.

Тя е предимно от три вида:

Напълно синтетични данни
Частично синтетични данни
Хибридни синтетични данни

1. Напълно синтетични данни

Тези данни са изцяло генерирани и не съдържат оригинални данни.

Обикновено генераторът на данни за този вид ще идентифицира функциите на плътност на характеристиките в реални данни и ще оцени техните параметри. По-късно, от предвидени функции на плътност, се създават на случаен принцип защитени поверителността серии за всяка характеристика.

Ако само няколко характеристики на действителните данни бъдат избрани да бъдат заменени с тях, защитената серия от тези характеристики се съпоставя с останалите характеристики на реалните данни, за да се класират защитената и реалната серия в същия ред.

Bootstrap техниките и множеството импутации са два традиционни метода за производство на напълно синтетични данни.

Тъй като данните са изцяло синтетични и не съществуват реални данни, тази стратегия осигурява отлична защита на поверителността, като разчита на истинността на данните.

2. Частично синтетични данни

Тези данни използват само синтетични стойности, за да заменят стойностите на няколко чувствителни характеристики.

В тази ситуация истинските стойности се променят само ако съществува значителна опасност от излагане. Тази промяна се прави, за да се защити поверителността на новосъздадените данни.

Използват се множество подходи за импутиране и базирани на модели за генериране на частично синтетични данни. Тези методи могат да се използват и за попълване на липсващи стойности в реални данни.

3. Хибридни синтетични данни

Хибридните синтетични данни включват както действителни, така и фалшиви данни.

За всеки произволен запис на реални данни се избира почти рекорд в него и след това двата се обединяват, за да генерират хибридни данни. Той има предимствата както на напълно синтетични, така и на частично синтетични данни.

Следователно предлага силно запазване на поверителността с висока полезност в сравнение с другите две, но с цената на повече памет и време за обработка.

Техники за генериране на синтетични данни

В продължение на много години концепцията за машинно изработени данни е популярна. Сега узрява.

Ето някои от техниките, използвани за генериране на синтетични данни:

1. Въз основа на разпространение

В случай, че не съществуват реални данни, но анализаторът на данни има задълбочена представа как ще изглежда разпределението на набора от данни; те могат да произвеждат произволна извадка от всяко разпределение, включително нормално, експоненциално, хи-квадрат, t, логнормално и равномерно.

Стойността на синтетичните данни в този метод варира в зависимост от нивото на разбиране на анализатора за определена среда с данни.

2. Данни от реалния свят в известно разпространение

Предприятията могат да го произвеждат, като идентифицират най-подходящите разпределения за дадени реални данни, ако има реални данни.

Бизнесът може да използва подхода на Монте Карло, за да го създаде, ако желаят да вместят реални данни в известна дистрибуция и да знаят параметрите на разпространение.

Въпреки че подходът на Монте Карло може да помогне на бизнеса да открие най-доброто налично съвпадение, най-доброто съвпадение може да не е достатъчно полезно за нуждите на компанията от синтетични данни.

Бизнесът може да проучи използването на модели за машинно обучение, които да отговарят на дистрибуции при тези обстоятелства.

Техниките за машинно обучение, като дърветата на решенията, позволяват на организациите да моделират некласически дистрибуции, които може да са мултимодални и да нямат общи свойства на признатите дистрибуции.

Фирмите могат да произвеждат синтетични данни, които се свързват с истински данни, използвайки това разпределение, оборудвано с машинно обучение.

Въпреки това, модели за машинно обучение са податливи на пренастройване, което ги кара да не успяват да съпоставят свежи данни или да предскажат бъдещи наблюдения.

3. Дълбоко обучение

Дълбоки генеративни модели като Variation Autoencoder (VAE) и Generative Adversarial Network (GAN) могат да произвеждат синтетични данни.

Вариационен автоенкодер

VAE е подход без надзор, при който енкодерът компресира оригиналния набор от данни и изпраща данни към декодера.

След това декодерът произвежда изход, който е представяне на оригиналния набор от данни.

Обучението на системата включва максимизиране на корелацията между входните и изходните данни.

VAE

Генеративна състезателна мрежа

Моделът GAN итеративно обучава модела, използвайки две мрежи, генератор и дискриминатор.

Генераторът създава синтетичен набор от данни от набор от произволни извадкови данни.

Discriminator сравнява синтетично създадени данни с реален набор от данни, използвайки предварително дефинирани условия.

Ган

Доставчици на синтетични данни

Структурирани данни

Платформите, споменати по-долу, предоставят синтетични данни, извлечени от таблични данни.

Той възпроизвежда данни от реалния свят, съхранявани в таблици и може да се използва за поведенчески, предсказващ или транзакционен анализ.

Насадете AI: Той е доставчик на система за създаване на синтетични данни, която използва генеративни съревнователни мрежи и диференциална поверителност.
По-добри данни: Той е доставчик на решение за синтетични данни, запазващо поверителността, за AI, споделяне на данни и разработване на продукти.
Divepale: Той е доставчик на Geminai, система за създаване на „двойни“ набори от данни със същите статистически характеристики като оригиналните данни.

Неструктурирани данни

Платформите, споменати по-долу, работят с неструктурирани данни, предоставяйки синтетични данни, стоки и услуги за обучение на визия и алгоритми за разузнаване.

Datagen: Предоставя 3D симулирани данни за обучение за обучение и развитие на Visual AI.
Невролаборатории: Neurolabs е доставчик на платформа за синтетични данни за компютърно зрение.
Паралелен домейн: Той е доставчик на синтетична платформа за данни за случаи на използване на обучение и тестване на автономна система.
Cognata: Той е доставчик на симулация за ADAS и разработчиците на автономни превозни средства.
Bifrost: Той предоставя API за синтетични данни за създаване на 3D среди.

3 2

Предизвикателства

Има дълга история в Изкуствен интелект, и макар да има много предимства, има и значителни недостатъци, които трябва да обърнете внимание, докато работите със синтетични данни.

Ето някои от тях:

Може да има много грешки при копиране на сложността от действителни данни към синтетични данни.
Податливият му характер води до пристрастия в поведението му.
Възможно е да има някои скрити недостатъци в производителността на алгоритми, обучени с помощта на опростени представяния на синтетични данни, които наскоро се появиха, докато се занимават с действителни данни.
Възпроизвеждането на всички релевантни атрибути от реални данни може да стане сложно. Възможно е също някои съществени аспекти да бъдат пренебрегнати по време на тази операция.

Заключение

Производството на синтетични данни очевидно привлича вниманието на хората.

Този метод може да не е универсален отговор за всички случаи, генериращи данни.

Освен това, техниката може да изисква интелигентност чрез AI/ML и да може да се справи със сложни ситуации в реалния свят на създаване на взаимосвързани данни, в идеалния случай данни, подходящи за определен домейн.

Независимо от това, това е иновативна технология, която запълва празнината, където другите технологии, позволяващи поверителността, са недостатъчни.

Днес, синтетика производството на данни може да се нуждае от съвместното съществуване на маскиране на данни.

В бъдеще може да има по-голяма конвергенция между двете, което ще доведе до по-всеобхватно решение за генериране на данни.

Споделете вашите мнения в коментарите!

инструменти и техники за генериране на синтетични данни

Генериране на синтетични данни: видове, техники и други

Какво представляват синтетичните данни?

Значение на синтетичните данни