Генерисање синтетичких података: врсте, технике и више

Преглед садржаја[Сакрити][Прикажи]

Шта су синтетички подаци?
Важност синтетичких података
Врсте синтетичких података+-
Технике генерисања синтетичких података+-
Добављачи синтетичких података+-
- Структурирани подаци
- Неструктурирани подаци
Изазови
Zakljucak

Истраживачи и научници података често се сусрећу са околностима у којима или немају стварне податке или нису у могућности да их користе због поверљивости или приватности.

Да би се решио овај проблем, синтетичка производња података се користи да би се произвела замена за оригиналне податке.

Потребна је одговарајућа замена оригиналних података да би алгоритам правилно функционисао, који такође треба да буде реалистичан. Такве податке можете користити за одржавање приватности, тестирање система или производњу података о обуци за алгоритме машинског учења.

Хајде да детаљно истражимо генерисање синтетичких података и видимо зашто су они витални у доба вештачке интелигенције.

Шта су синтетички подаци?

Синтетички подаци су анотирани подаци генерисани компјутерским симулацијама или алгоритмима као замена за податке из стварног света. То је реплика стварних података генерисана вештачком интелигенцијом.

Може се користити обрасци података и димензије помоћу напредних АИ алгоритама. Они могу створити неограничену количину синтетичких података који су статистички репрезентативни за оригиналне податке о обуци након што су обучени.

Постоји низ приступа и технологија које нам могу помоћи да креирамо синтетичке податке и које можете користити у разним апликацијама.

Софтвер за генерисање података често захтева:

Метаподаци спремишта података, за које се морају креирати синтетички подаци.
Техника за генерисање веродостојних, али измишљених вредности. Примери укључују листе вредности и регуларне изразе.
Свеобухватна свест о свим односима података, онима који су декларисани на нивоу базе података, као и онима који се контролишу на нивоу кода апликације.

Једнако је неопходно валидирати модел и упоредити аспекте понашања стварних података са онима које је генерисао модел.

Ови фиктивни скупови података имају сву вредност стварне ствари, али ниједан од осетљивих података. То је као укусна торта без калорија. Тачно приказује стварни свет.

Као резултат тога, можете га користити за замену података из стварног света.

Важност синтетичких података

Синтетички подаци имају карактеристике које одговарају одређеним захтевима или ситуацијама које би иначе биле недоступне у подацима из стварног света. Када постоји мали број података за тестирање или када је приватност главна пажња, то долази у помоћ.

Скупови података генерисани вештачком интелигенцијом су прилагодљиви, безбедни и лаки за складиштење, размену и одбацивање. Техника синтезе података је прикладна за подскупину и побољшање оригиналних података.

Као последица тога, идеалан је за употребу као тест података и података за обуку АИ.

Да подучавају Убер и Тесла самовозећи аутомобили.
У медицинској и здравственој индустрији, за процену специфичних болести и околности за које не постоје прави подаци.
Откривање и заштита од превара су од кључне важности у финансијском сектору. Користећи га, можете истражити нове случајеве преваре.
Амазон обучава Алека-ин језички систем користећи синтетичке податке.
Америцан Екпресс користи синтетичке финансијске податке за побољшање откривања превара.

Врсте синтетичких података

Синтетички подаци се креирају насумично са намером да се прикрију осетљиве приватне информације уз задржавање статистичких информација о карактеристикама у оригиналним подацима.

Углавном је три врсте:

Потпуно синтетички подаци
Делимично синтетички подаци
Хибридни синтетички подаци

1. Потпуно синтетички подаци

Ови подаци су у потпуности генерисани и не садрже оригиналне податке.

Типично, генератор података за ову врсту ће идентификовати функције густине карактеристика у стварним подацима и проценити њихове параметре. Касније, од предвиђених функција густине, серије заштићене приватности се креирају насумично за сваку карактеристику.

Ако је само неколико карактеристика стварних података изабрано да се њиме замене, заштићена серија ових карактеристика се мапира са преосталим карактеристикама стварних података да би се заштићене и стварне серије рангирале истим редоследом.

Боотстрап технике и вишеструке импутације су две традиционалне методе за производњу потпуно синтетичких података.

Пошто су подаци у потпуности синтетички и не постоје прави подаци, ова стратегија пружа одличну заштиту приватности уз ослањање на истинитост података.

2. Делимично синтетички подаци

Ови подаци користе само синтетичке вредности за замену вредности неколико осетљивих карактеристика.

У овој ситуацији, праве вредности се мењају само ако постоји значајна опасност од излагања. Ова промена је урађена да би се заштитила приватност свеже креираних података.

Вишеструка импутација и приступи засновани на моделу се користе за производњу делимично синтетичких података. Ове методе се такође могу користити за попуњавање вредности које недостају у подацима из стварног света.

3. Хибридни синтетички подаци

Хибридни синтетички подаци обухватају и стварне и лажне податке.

За сваки насумични запис стварних података бира се скоро рекорд у њему, а затим се та два спајају да би се генерисали хибридни подаци. Има предности и потпуно синтетичких и делимично синтетичких података.

Стога нуди снажно очување приватности уз велику корисност у поређењу са друга два, али по цену више меморије и времена обраде.

Технике генерисања синтетичких података

Дуги низ година, концепт машински израђених података је био популаран. Сада сазрева.

Ево неких техника које се користе за генерисање синтетичких података:

1. На основу дистрибуције

У случају да не постоје прави подаци, али аналитичар података има детаљну идеју о томе како ће изгледати дистрибуција скупа података; они могу произвести насумични узорак било које дистрибуције, укључујући нормалну, експоненцијалну, хи-квадрат, т, логнормалну и униформну.

Вредност синтетичких података у овој методи варира у зависности од нивоа разумевања аналитичара о одређеном окружењу података.

2. Подаци из стварног света у познату дистрибуцију

Предузећа могу да га произведу тако што ће идентификовати најбољу дистрибуцију за дате стварне податке ако постоје стварни подаци.

Предузећа могу користити Монте Карло приступ да га произведу ако желе да уклопе стварне податке у познату дистрибуцију и знају параметре дистрибуције.

Иако Монте Карло приступ може помоћи предузећима у лоцирању најбољег доступног подударања, оно што најбоље одговара можда неће бити довољно корисно за потребе компаније за синтетичким подацима.

Предузећа би могла да истраже коришћење модела машинског учења како би одговарали дистрибуцијама у овим околностима.

Технике машинског учења, као што су стабла одлучивања, омогућавају организацијама да моделирају некласичне дистрибуције, које могу бити мултимодалне и немају заједничка својства признатих дистрибуција.

Предузећа могу да производе синтетичке податке који се повезују са правим подацима користећи ову дистрибуцију прилагођену машинском учењу.

Међутим, модели машинског учења подложни су прекомерном прилагођавању, што доводи до тога да не успеју да се поклапају са свежим подацима или предвиде будућа запажања.

3. Дубоко учење

Дубоки генеративни модели као што су варијациони аутоенкодер (ВАЕ) и генеративна адверсариална мрежа (ГАН) могу да произведу синтетичке податке.

Вариацијски аутоенкодер

ВАЕ је приступ без надзора у коме енкодер компресује оригинални скуп података и шаље податке декодеру.

Декодер затим производи излаз који је репрезентација оригиналног скупа података.

Подучавање система укључује максимизирање корелације између улазних и излазних података.

Вае

Генеративе Адверсариал Нетворк

ГАН модел итеративно обучава модел користећи две мреже, генератор и дискриминатор.

Генератор креира синтетички скуп података из скупа насумичних узорака података.

Дискриминатор упоређује синтетички креиране податке са стварним скупом података користећи унапред дефинисане услове.

Ган

Добављачи синтетичких података

Структурирани подаци

Платформе наведене у наставку пружају синтетичке податке изведене из табеларних података.

Он реплицира податке из стварног света који се чувају у табелама и може се користити за бихејвиоралне, предиктивне или трансакционе анализе.

Инстилл АИ: То је добављач синтетичког система за креирање података који користи Генеративне Адверсариал Нетворкс и диференцијалну приватност.
Беттердата: То је добављач решења за синтетичке податке који чувају приватност за вештачку интелигенцију, дељење података и развој производа.
Дивепале: То је добављач Геминаи-а, система за креирање 'двоструких' скупова података са истим статистичким карактеристикама као и оригинални подаци.

Неструктурирани подаци

Платформе наведене у наставку раде са неструктурираним подацима, обезбеђујући синтетичке податке и услуге за обуку алгоритама за вид и извиђање.

Датаген: Обезбеђује 3Д симулиране податке о обуци за учење и развој визуелне вештачке интелигенције.
Неуролабс: Неуролабс је добављач синтетичке платформе за компјутерски вид.
Паралелни домен: То је добављач синтетичке платформе података за обуку и тестирање аутономног система у случајевима употребе.
Цогната: То је добављач симулација за АДАС и програмере аутономних возила.
Бифрост: Пружа синтетичке АПИ-је података за креирање 3Д окружења.

3 2

Изазови

Има дугу историју у Вештачка интелигенција, и иако има много предности, има и значајне недостатке које морате да решите док радите са синтетичким подацима.

Овде су неки од њих:

Може доћи до много грешака при копирању сложености са стварних података на синтетичке податке.
Његова савитљива природа доводи до пристрасности у његовом понашању.
Можда постоје неки скривени недостаци у перформансама алгоритама обучених коришћењем поједностављених репрезентација синтетичких података који су се недавно појавили док су се бавили стварним подацима.
Реплицирање свих релевантних атрибута из података из стварног света може постати компликовано. Такође је могуће да се неки суштински аспекти могу превидети током ове операције.

Zakljucak

Производња синтетичких података очигледно привлачи пажњу људи.

Овај метод можда није јединствен одговор за све случајеве генерисања података.

Осим тога, техника може захтевати интелигенцију путем АИ/МЛ и бити у стању да се носи са компликованим ситуацијама у стварном свету стварања међусобно повезаних података, идеално података погодних за одређени домен.

Без обзира на то, то је иновативна технологија која попуњава празнину у којој друге технологије које омогућавају приватност недостају.

Данас синтетички производња података може захтевати коегзистенцију маскирања података.

У будућности може доћи до веће конвергенције између ова два, што ће резултирати свеобухватнијим решењем за генерисање података.

Поделите своје ставове у коментарима!

алати и технике за генерисање синтетичких података

Генерисање синтетичких података: врсте, технике и више

Шта су синтетички подаци?

Важност синтетичких података