Објашњени синтетички подаци – следећа велика ствар у АИ, МЛ и ДЛ

Преглед садржаја[Сакрити][Прикажи]

Дакле, шта су синтетички подаци?
Колико су синтетички подаци важни и зашто бисте их требали користити?+-
Прави подаци наспрам синтетичких података
Користите случајеви+-
Синтетички подаци и машинско учење
Како можете генерисати синтетичке податке?+-
Изазови и ограничења синтетичких података
Будућност
Zakljucak

Напредна аналитика и програми машинског учења покрећу се подацима, али приступ тим подацима може бити тежак за академике због изазова са приватношћу и пословним процедурама.

Синтетички подаци, који се могу делити и користити на начин на који стварни подаци не могу, представљају потенцијални нови правац за праћење. Међутим, ова нова стратегија није без опасности и недостатака, стога је кључно да предузећа пажљиво размотре где и како користе своје ресурсе.

У тренутној ери вештачке интелигенције, такође можемо да кажемо да су подаци нова нафта, али само неколицина одабраних седи на шикару. Због тога многи људи сами производе гориво, које је и приступачно и ефикасно. Познат је као синтетички подаци.

У овом посту ћемо детаљно погледати синтетичке податке – зашто бисте их требали користити, како их произвести, по чему се разликују од стварних података, које случајеве употребе могу послужити и још много тога.

Дакле, шта су синтетички подаци?

Када су прави скупови података неадекватни у смислу квалитета, броја или разноврсности, синтетички подаци се могу користити за обуку АИ модела уместо стварних историјских података.

Када постојећи подаци не задовољавају пословне захтеве или имају ризике по приватност када се користе за развој Машина учење модели, софтвер за тестирање или слично, синтетички подаци могу бити значајно средство за корпоративне напоре АИ.

Једноставно речено, синтетички подаци се често користе уместо стварних података. Тачније, то су подаци који су вештачки означени и произведени симулацијама или компјутерским алгоритмима.

Синтетички подаци

Синтетички подаци су информације које је компјутерски програм креирао вештачки, а не као резултат стварних догађаја. Компаније могу да додају синтетичке податке у своје податке о обуци да покрију све ситуације коришћења и ивице, смање трошкове прикупљања података или задовоље прописе о приватности.

Вештачки подаци су сада доступнији него икада захваљујући побољшању снаге обраде и метода складиштења података као што је облак. Синтетички подаци побољшавају креирање АИ решења која су кориснија за све крајње кориснике, а то је несумњиво добар развој.

Колико су синтетички подаци важни и зашто бисте их требали користити?

Када обучавају АИ моделе, програмерима су често потребни огромни скупови података са прецизним означавањем. Када се подучава са разноврснијим подацима, неуронске мреже извести тачније.

Међутим, прикупљање и означавање ових масивних скупова података који садрже стотине или чак милионе ставки може одузети неоправдано време и новац. Цена производње података о обуци може се знатно смањити коришћењем синтетичких података. На пример, ако је створена вештачки, слика за обуку која кошта 5 долара када се купи од а добављач обележавања података може коштати само 0.05 долара.

Синтетички подаци могу ублажити бриге о приватности у вези са потенцијално осетљивим подацима генерисаним из стварног света, а истовремено смањују трошкове.

У поређењу са правим подацима, који не могу прецизно да одражавају комплетан спектар чињеница о стварном свету, то би могло помоћи у смањењу предрасуда. Обезбеђивањем неуобичајених појава које представљају веродостојне могућности, али их је тешко добити од легитимних података, синтетички подаци могу понудити већу разноликост.

Синтетички подаци би могли бити фантастично прикладни за ваш пројекат из разлога наведених у наставку:

1. Робусност модела

Без потребе да га набавите, приступите разноврснијим подацима за своје моделе. Са синтетичким подацима, можете да обучите свој модел користећи варијанте исте особе са различитим фризурама, длакама на лицу, наочарима, позама главе итд., као и тон коже, етничке особине, структуру костију, пеге и друге карактеристике како бисте створили јединствене лица и ојачати га.

2. Узимају се у обзир ивични случајеви

Уравнотежен скуп података преферира машинско учење алгоритми. Сетите се нашег примера препознавања лица. Тачност њихових модела би се побољшала (а у ствари, неке од ових компанија су урадиле управо то), и произвели би моралнији модел да су произвели синтетичке податке тамнопутих лица како би попунили своје празнине у подацима. Тимови могу да покрију све случајеве употребе, укључујући рубне случајеве где су подаци оскудни или непостојећи, уз помоћ синтетичких података.

3. Може се добити брже од „стварних“ података

Тимови су у стању да брзо генеришу огромне количине синтетичких података. Ово је посебно корисно када подаци из стварног живота зависе од спорадичних догађаја. Тимовима ће можда бити тешко да добију довољно података из стварног света о тешким условима на путу док прикупљају податке за самовозећи аутомобил, на пример, због њихове реткости. Да би убрзали напоран процес бележења, научници података могу поставити алгоритме за аутоматско означавање синтетичких података како се генеришу.

4. Он обезбеђује информације о приватности корисника

Компаније могу имати безбедносних потешкоћа при руковању осетљивим подацима, у зависности од посла и врсте података. Личне здравствене информације (ПХИ), на пример, често се укључују у податке о стационарима у здравственој индустрији и са њима се мора поступати са највећом сигурношћу.

Пошто синтетички подаци не укључују информације о стварним људима, питања приватности су смањена. Размислите о коришћењу синтетичких података као алтернативе ако ваш тим мора да се придржава одређених закона о приватности података.

Прави подаци наспрам синтетичких података

У стварном свету се добијају или мере прави подаци. Када неко користи паметни телефон, лаптоп или рачунар, носи ручни сат, приступи веб локацији или обави онлајн трансакцију, ова врста података се генерише тренутно.

Поред тога, анкете се могу користити за пружање правих података (онлине и офлајн). Дигитална подешавања производе синтетичке податке. Са изузетком дела који није изведен из било каквих догађаја у стварном свету, синтетички подаци се креирају на начин који успешно опонаша стварне податке у смислу основних квалитета.

Идеја коришћења синтетичких података као замене за стварне податке је веома обећавајућа јер се могу користити за обезбеђивање подаци о обуци који машинско учење модели захтевају. Али то није сигурно вештачка интелигенција може решити свако питање које се појави у стварном свету.

Користите случајеви

Синтетички подаци су корисни за различите комерцијалне сврхе, укључујући обуку модела, валидацију модела и тестирање нових производа. Навешћемо неколико сектора који су водили пут у његовој примени на машинско учење:

КСНУМКС. Здравство

С обзиром на осетљивост својих података, здравствени сектор је веома погодан за коришћење синтетичких података. Тимови могу користити синтетичке податке за снимање физиологије сваке врсте пацијената који могу постојати, помажући на тај начин у бржој и прецизнијој дијагнози болести.

Здравство

Гоогле-ов модел откривања меланома је интригантна илустрација овога јер укључује синтетичке податке људи са тамнијим тоновима коже (област клиничких података која је нажалост недовољно заступљена) како би моделу пружио капацитет да ефикасно функционише за све врсте коже.

КСНУМКС. Аутомобилес

Симулаторе често користе компаније које праве самовозеће аутомобиле за процену перформанси. Када је време тешко, на пример, прикупљање стварних података о путевима може бити ризично или тешко.

Аутомобил који се сам вози

Ослонити се на тестове уживо са стварним аутомобилима на путевима генерално није добра идеја јер постоји превише варијабли које треба узети у обзир у свим различитим ситуацијама вожње.

3. Преносивост података

Да би могле да деле своје податке о обуци са другима, организације захтевају поуздане и безбедне методе. Скривање личних података (ПИИ) пре објављивања скупа података је још једна интригантна апликација за синтетичке податке. Размена скупова научно-истраживачких података, медицинских података, социолошких података и других области које би могле да садрже ПИИ, називају се синтетичким подацима који чувају приватност.

КСНУМКС. Безбедност

Организације су сигурније захваљујући синтетичким подацима. Што се тиче нашег примера препознавања лица поново, можда сте упознати са фразом „дубоки лажни“, која описује измишљене фотографије или видео записе. Дубоке лажне ствари могу да произведу предузећа како би тестирала сопствене системе за препознавање лица и безбедносне системе. Синтетички подаци се такође користе у видео надзору како би се модели обучили брже и по јефтинијој цени.

Синтетички подаци и машинско учење

Да би се изградио чврст и поуздан модел, алгоритмима машинског учења је потребна значајна количина података за обраду. У недостатку синтетичких података, стварање тако велике количине података би било изазовно.

У доменима попут компјутерског вида или обраде слике, где је развој модела олакшан развојем раних синтетичких података, то може бити изузетно значајно. Нови развој у области препознавања слика је употреба Генеративних Адверсариал Нетворкс (ГАН). Обично се састоји од две мреже: генератора и дискриминатора.

Док мрежа дискриминатора има за циљ да одвоји стварне фотографије од лажних, мрежа генератора функционише тако да производи синтетичке слике које су знатно сличније сликама из стварног света.

У машинском учењу, ГАН-ови су подскуп породице неуронских мрежа, где обе мреже континуирано уче и развијају се додавањем нових чворова и слојева.

Када креирате синтетичке податке, имате опцију да промените окружење и тип података по потреби да бисте побољшали перформансе модела. Док се тачност за синтетичке податке може лако постићи уз јак резултат, тачност за означене податке у реалном времену може повремено бити изузетно скупа.

Како можете генерисати синтетичке податке?

Приступи који се користе за креирање синтетичке збирке података су следећи:

На основу статистичке расподеле

Стратегија која се користи у овом случају је да се узму бројеви из дистрибуције или да се погледају стварне статистичке дистрибуције како би се створили лажни подаци који изгледају упоредиво. У неким околностима стварни подаци могу бити потпуно одсутни.

Научник података може да генерише скуп података који садржи насумични узорак било које дистрибуције ако има дубоко разумевање статистичке дистрибуције у стварним подацима. Нормална дистрибуција, експоненцијална дистрибуција, хи-квадрат расподела, логнормална дистрибуција и још много тога су само неколико примера статистичких дистрибуција вероватноће које се могу користити за ово.

Ниво искуства научника података са ситуацијом ће имати значајан утицај на тачност обученог модела.

У зависности од модела

Ова техника гради модел који узима у обзир уочено понашање пре употребе тог модела за генерисање насумичних података. У суштини, ово укључује прилагођавање стварних података подацима из познате дистрибуције. Корпорације тада могу користити Монте Карло приступ за креирање лажних података.

Поред тога, дистрибуције се такође могу уградити помоћу модели машинског учења као стабла одлучивања. Научници података међутим, треба обратити пажњу на прогнозу, пошто стабла одлучивања обично претерују због своје једноставности и проширења дубине.

Са дубоким учењем

Дееп леарнинг модели који користе варијациони аутоматски кодер (ВАЕ) или модели генеративне адверсаријске мреже (ГАН) су два начина за креирање синтетичких података. Модели машинског учења без надзора укључују ВАЕ.

Састоје се од енкодера, који скупљају и сажимају оригиналне податке, и декодера, који анализирају ове податке да би пружили репрезентацију стварних података. Одржавање улазних и излазних података што је могуће идентичним је основни циљ ВАЕ. Две супротстављене неуронске мреже су ГАН модели и супарничке мреже.

Прва мрежа, позната као мрежа генератора, задужена је за производњу лажних података. Дискриминаторска мрежа, друга мрежа, функционише тако што упоређује створене синтетичке податке са стварним подацима у покушају да се утврди да ли је скуп података лажан. Дискриминатор упозорава генератор када открије лажни скуп података.

Генератор накнадно модификује следећу групу података која се доставља дискриминатору. Као резултат тога, дискриминатор временом постаје све бољи у уочавању лажних скупова података. Ова врста модела се често користи у финансијском сектору за откривање превара, као иу здравственом сектору за медицинско снимање.

Повећање података је другачији метод који научници података користе да би произвели више података. Међутим, не треба се погрешити са лажним подацима. Једноставно речено, повећање података је чин додавања нових података у прави скуп података који већ постоји.

Прављење неколико слика од једне слике, на пример, подешавањем оријентације, осветљености, увећања и још много тога. Понекад се користи стварни скуп података са преосталим личним подацима. Анонимизација података је оно што је, а скуп таквих података се такође не сматра синтетичким подацима.

Изазови и ограничења синтетичких података

Иако синтетички подаци имају различите предности које могу помоћи фирмама у активностима науке о подацима, они такође имају одређена ограничења:

Поузданост података: Опште је познато да је сваки модел машинског учења/дубоког учења добар онолико колико су добри подаци којима се уносе. Квалитет синтетичких података у овом контексту је снажно повезан са квалитетом улазних података и модела који се користи за производњу података. Важно је осигурати да у изворним подацима не постоје пристрасности, јер се оне могу врло јасно огледати у синтетичким подацима. Штавише, пре него што се направи било каква предвиђања, квалитет података треба да се потврди и верификује.
Захтева знање, труд и време: Иако би креирање синтетичких података могло бити једноставније и јефтиније од стварања правих података, потребно је одређено знање, време и труд.
Реплицирање аномалија: Савршена реплика података из стварног света није могућа; синтетички подаци могу само да га приближе. Стога, неки одступници који постоје у стварним подацима можда нису покривени синтетичким подацима. Аномалије података су значајније од типичних података.
Контролисање производње и осигурање квалитета: Синтетички подаци имају за циљ да реплицирају податке из стварног света. Ручна верификација података постаје неопходна. Неопходно је проверити тачност података пре него што их уградите у моделе машинског учења/дубоког учења за компликоване скупове података креиране аутоматски коришћењем алгоритама.
Повратне информације од корисника: Пошто су синтетички подаци нов концепт, неће сви бити спремни да поверују у прогнозе направљене са њима. Ово указује на то да је, да би се повећала прихватљивост корисника, прво потребно подићи знање о корисности синтетичких података.

Будућност

Употреба синтетичких података драматично се повећала у претходној деценији. Иако компанијама штеди време и новац, није без својих недостатака. Недостају му одступници, који се природно јављају у стварним подацима и који су критични за тачност у неким моделима.

Такође је вредно напоменути да се квалитет синтетичких података често ослања на улазне податке који се користе за креирање; пристрасности у улазним подацима могу се брзо проширити на синтетичке податке, тако да не треба прецењивати избор висококвалитетних података као полазне тачке.

Коначно, потребна му је даља контрола излаза, укључујући упоређивање синтетичких података са стварним подацима означеним људима како би се потврдило да не постоје разлике. Упркос овим препрекама, синтетички подаци остају поље које обећава.

Помаже нам да креирамо нова АИ решења чак и када подаци из стварног света нису доступни. Оно што је најважније, омогућава предузећима да граде производе који су инклузивнији и који указују на разноликост њихових крајњих потрошача.

Међутим, у будућности заснованој на подацима, синтетички подаци намеравају да помогну научницима података да обављају нове и креативне задатке које би било тешко извршити само са подацима из стварног света.

Zakljucak

У одређеним случајевима, синтетички подаци могу ублажити недостатак података или недостатак релевантних података унутар предузећа или организације. Такође смо погледали које стратегије могу помоћи у генерисању синтетичких података и ко може профитирати од тога.

Такође смо говорили о неким потешкоћама које се јављају у раду са синтетичким подацима. За комерцијално доношење одлука, стварни подаци ће увек бити фаворизовани. Међутим, реални подаци су следећа најбоља опција када такви прави необрађени подаци нису доступни за анализу.

Међутим, мора се имати на уму да су за производњу синтетичких података потребни научници података са солидним разумевањем моделирања података. Темељно разумевање стварних података и њиховог окружења је такође неопходно. Ово је неопходно како би се осигурало да су произведени подаци, ако су доступни, тачни колико је то изводљиво.

Објашњени синтетички подаци – следећа велика ствар у АИ, МЛ и ДЛ

Дакле, шта су синтетички подаци?