Змест[Схаваць][Паказаць]
Даследчыкі і навукоўцы па дадзеных часта сутыкаюцца з абставінамі, пры якіх яны альбо не маюць сапраўдных дадзеных, альбо не могуць іх выкарыстоўваць з-за меркаванняў канфідэнцыяльнасці або прыватнасці.
Для вырашэння гэтай праблемы выкарыстоўваецца сінтэтычная вытворчасць даных для атрымання замены сапраўдным даным.
Для належнай працы алгарытму патрабуецца адпаведная замена сапраўдных даных, які таксама павінен мець рэалістычны характар. Вы можаце выкарыстоўваць такія даныя для захавання канфідэнцыяльнасці, тэставання сістэм або стварэння навучальных даных для алгарытмаў машыннага навучання.
Давайце падрабязна вывучым генерацыю сінтэтычных даных і паглядзім, чаму яны жыццёва важныя ў эпоху ІІ.
Што такое сінтэтычныя даныя?
Сінтэтычныя даныя - гэта анатаваныя даныя, створаныя з дапамогай камп'ютэрнага мадэлявання або алгарытмаў у якасці замены рэальных дадзеных. Гэта копія рэальных дадзеных, створаная штучным інтэлектам.
Можна выкарыстоўваць шаблоны дадзеных і памеры, выкарыстоўваючы перадавыя алгарытмы AI. Яны могуць ствараць бязмежную колькасць сінтэтычных дадзеных, якія статыстычна рэпрэзентатыўныя зыходныя навучальныя дадзеныя пасля іх навучання.
Ёсць мноства падыходаў і тэхналогій, якія могуць дапамагчы нам стварыць сінтэтычныя даныя, якія вы можаце выкарыстоўваць у розных прылажэннях.
Праграмнае забеспячэнне для генерацыі даных часта патрабуе:
- Метададзеныя сховішча даных, для якіх павінны быць створаны сінтэтычныя даныя.
- Тэхніка стварэння праўдападобных, але выдуманых каштоўнасцяў. Прыклады ўключаюць спісы значэнняў і рэгулярныя выразы.
- Поўнае разуменне ўсіх сувязяў даных, заяўленых на ўзроўні базы дадзеных, а таксама тых, якія кантралююцца на ўзроўні кода прыкладання.
Гэтак жа неабходна праверыць мадэль і параўнаць паводніцкія аспекты рэальных дадзеных з тымі, якія спараджаюцца мадэллю.
Гэтыя фіктыўныя наборы даных маюць усю каштоўнасць сапраўднай рэчы, але не маюць канфідэнцыяльных даных. Гэта як сакавіты торт без калорый. Ён дакладна адлюстроўвае рэальны свет.
У выніку вы можаце выкарыстоўваць яго для замены рэальных даных.
Важнасць сінтэтычных даных
Сінтэтычныя дадзеныя маюць характарыстыкі, якія адпавядаюць пэўным патрабаванням або сітуацыям, якія інакш былі б недаступныя ў рэальных дадзеных. Калі для тэставання недастаткова дадзеных або канфідэнцыяльнасць з'яўляецца галоўным пытаннем, гэта прыходзіць на дапамогу.
Наборы даных, створаныя AI, адаптуюцца, бяспечныя і іх лёгка захоўваць, абменьвацца і выкідваць. Тэхніка сінтэзу даных падыходзіць для падмноства і паляпшэння зыходных дадзеных.
Як следства, ён ідэальна падыходзіць для выкарыстання ў якасці тэставых дадзеных і дадзеных навучання ІІ.
- Каб навучыць Uber і Самакіраваныя аўтамабілі Tesla.
- У медыцынскай індустрыі і ахове здароўя, каб ацаніць канкрэтныя хваробы і абставіны, для якіх не існуе сапраўдных дадзеных.
- Выяўленне і абарона ад махлярства маюць вырашальнае значэнне ў фінансавым сектары. Выкарыстоўваючы яго, вы можаце расследаваць новыя выпадкі махлярства.
- Amazon навучае моўную сістэму Alexa з выкарыстаннем сінтэтычных даных.
- American Express выкарыстоўвае сінтэтычныя фінансавыя даныя для паляпшэння выяўлення махлярства.
Віды сінтэтычных даных
Сінтэтычныя даныя ствараюцца выпадковым чынам з мэтай схаваць канфідэнцыйную асабістую інфармацыю, захоўваючы пры гэтым статыстычную інфармацыю аб характарыстыках у зыходных дадзеных.
У асноўным ён бывае трох відаў:
- Цалкам сінтэтычныя дадзеныя
- Часткова сінтэтычныя даныя
- Гібрыдныя сінтэтычныя дадзеныя
1. Цалкам сінтэтычныя дадзеныя
Гэтыя даныя цалкам створаны і не ўтрымліваюць зыходных даных.
Як правіла, генератар дадзеных для такога роду будзе вызначаць функцыі шчыльнасці аб'ектаў у рэальных дадзеных і ацэньваць іх параметры. Пазней, з прагназаваных функцый шчыльнасці, для кожнай функцыі выпадковым чынам ствараюцца серыі з абаронай прыватнасці.
Калі толькі некалькі характарыстык рэальных даных выбраны для замены імі, абароненая серыя гэтых прыкмет супастаўляецца з астатнімі характарыстыкамі рэальных даных для ранжыравання абароненага і рэальнага шэрагаў у тым жа парадку.
Метады загрузкі і множныя прыпіскі - гэта два традыцыйныя метады атрымання цалкам сінтэтычных дадзеных.
Паколькі дадзеныя з'яўляюцца цалкам сінтэтычнымі і рэальных дадзеных не існуе, гэтая стратэгія забяспечвае выдатную абарону прыватнасці з апорай на праўдзівасць дадзеных.
2. Часткова сінтэтычныя дадзеныя
Гэтыя даныя выкарыстоўваюць толькі сінтэтычныя значэнні для замены значэнняў некалькіх канфідэнцыйных функцый.
У гэтай сітуацыі сапраўдныя каштоўнасці мяняюцца толькі ў тым выпадку, калі існуе істотная небяспека выкрыцця. Гэта змяненне зроблена для абароны канфідэнцыяльнасці толькі што створаных даных.
Для атрымання часткова сінтэтычных дадзеных выкарыстоўваюцца падыходы, заснаваныя на множных імпутацыях і мадэлі. Гэтыя метады таксама можна выкарыстоўваць для запаўнення адсутных значэнняў у рэальных дадзеных.
3. Гібрыдныя сінтэтычныя дадзеныя
Гібрыдныя сінтэтычныя даныя ўключаюць як сапраўдныя, так і падробленыя даныя.
Для кожнага выпадковага запісу рэальных даных выбіраецца амаль рэкорд, які затым аб'ядноўваецца для стварэння гібрыдных дадзеных. Ён мае перавагі як цалкам сінтэтычных, так і часткова сінтэтычных дадзеных.
Такім чынам, ён прапануе моцнае захаванне канфідэнцыяльнасці з высокай карыснасцю ў параўнанні з двума іншымі, але за кошт большай памяці і часу апрацоўкі.
Прыёмы генерацыі сінтэтычных даных
На працягу многіх гадоў канцэпцыя машынных дадзеных была папулярнай. Цяпер яно спее.
Вось некаторыя метады, якія выкарыстоўваюцца для стварэння сінтэтычных дадзеных:
1. Заснаваны на размеркаванні
У выпадку, калі рэальных дадзеных не існуе, але аналітык мае дакладнае ўяўленне аб тым, як будзе выглядаць размеркаванне набору даных; яны могуць вырабляць выпадковую выбарку любога размеркавання, уключаючы нармальнае, экспанентнае, хі-квадрат, t, лаганармальнае і раўнамернае.
Значэнне сінтэтычных дадзеных у гэтым метадзе вар'іруецца ў залежнасці ад узроўню разумення аналітыка аб пэўным асяроддзі дадзеных.
2. Рэальныя дадзеныя ў вядомае размеркаванне
Прадпрыемствы могуць вырабіць яго, вызначыўшы найбольш прыдатныя размеркаванні для дадзеных рэальных дадзеных, калі ёсць рэальныя дадзеныя.
Прадпрыемствы могуць выкарыстоўваць падыход Монтэ-Карла для яго атрымання, калі жадаюць змясціць рэальныя дадзеныя ў вядомае размеркаванне і ведаць параметры размеркавання.
Нягледзячы на тое, што падыход Монтэ-Карла можа дапамагчы прадпрыемствам знайсці найбольшую даступнасць, найлепшы варыянт можа быць недастаткова карысным для патрэб кампаніі ў сінтэтычных дадзеных.
Кампаніі могуць вывучыць выкарыстанне мадэляў машыннага навучання, каб задаволіць размеркавання ў гэтых умовах.
Метады машыннага навучання, такія як дрэвы рашэнняў, дазваляюць арганізацыям мадэляваць некласічныя дыстрыбутывы, якія могуць быць мультымадальнымі і не маюць агульных уласцівасцяў прызнаных дыстрыбутываў.
Прадпрыемствы могуць вырабляць сінтэтычныя даныя, якія злучаюцца з сапраўднымі данымі, выкарыстоўваючы гэта размеркаванне, абсталяванае машынным навучаннем.
Тым не менш, мадэлі машыннага навучання успрымальныя да пераабсталявання, што прыводзіць да таго, што яны не могуць супаставіць свежыя дадзеныя або прадказаць будучыя назіранні.
3. Глыбокае навучанне
Глыбокія генератыўныя мадэлі, такія як варыяцыйны аўтаэнкадэр (VAE) і генератыўная змагарная сетка (GAN), могуць вырабляць сінтэтычныя даныя.
Варыяцыйны аўтакадавальнік
VAE - гэта некантраляваны падыход, пры якім кадавальнік сціскае зыходны набор даных і адпраўляе дадзеныя ў дэкадэр.
Затым дэкодэр выдае выхад, які ўяўляе сабой зыходны набор даных.
Навучанне сістэме прадугледжвае максімальную карэляцыю паміж уваходнымі і выходнымі дадзенымі.
Генератарная суперніцкая сетка
Мадэль GAN ітэрацыйна навучае мадэль, выкарыстоўваючы дзве сеткі, генератар і дыскрымінатар.
Генератар стварае сінтэтычны набор даных з набору выпадковых выбарачных даных.
Discriminator параўноўвае сінтэтычна створаныя даныя з рэальным наборам даных, выкарыстоўваючы загадзя вызначаныя ўмовы.
Пастаўшчыкі сінтэтычных даных
Структураваныя дадзеныя
Платформы, згаданыя ніжэй, забяспечваюць сінтэтычныя дадзеныя, атрыманыя з таблічных даных.
Ён паўтарае рэальныя дадзеныя, якія захоўваюцца ў табліцах, і можа выкарыстоўвацца для паводніцкага, прагнастычнага або транзакцыйнага аналізу.
- Прышчапіць ІІ: Гэта пастаўшчык сінтэтычнай сістэмы стварэння дадзеных, якая выкарыстоўвае генератыўныя спаборніцкія сеткі і дыферэнцыяльную канфідэнцыяльнасць.
- Лепшыя дадзеныя: Гэта пастаўшчык сінтэтычных рашэнняў для захавання канфідэнцыяльнасці для AI, абмену данымі і распрацоўкі прадуктаў.
- Акунацца: Гэта пастаўшчык Geminai, сістэмы для стварэння «падвойных» набораў даных з такімі ж статыстычнымі характарыстыкамі, што і зыходныя дадзеныя.
Неструктураваныя даныя
Платформы, згаданыя ніжэй, працуюць з неструктураванымі дадзенымі, забяспечваючы сінтэтычныя дадзеныя і паслугі для навучання алгарытмам зроку і выведкі.
- Datagen: Ён забяспечвае 3D змадэляваныя навучальныя дадзеныя для навучання і развіцця візуальнага AI.
- Нейралабараторыі: Neurolabs з'яўляецца пастаўшчыком платформы сінтэтычных дадзеных камп'ютэрнага зроку.
- Паралельны дамен: Гэта пастаўшчык сінтэтычнай платформы дадзеных для навучання і тэставання аўтаномнай сістэмы.
- Каньята: Гэта пастаўшчык мадэлявання для ADAS і распрацоўшчыкаў аўтаномных транспартных сродкаў.
- Bifrost: Ён забяспечвае сінтэтычныя API дадзеных для стварэння 3D-асяроддзя.
Выклікі
Ён мае доўгую гісторыю ў Штучны Інтэлект, і, хоць ён мае шмат пераваг, ён таксама мае істотныя недахопы, якія вам трэба вырашыць падчас працы з сінтэтычнымі дадзенымі.
Вось некаторыя з іх:
- Пры капіяванні складанасці з рэальных да сінтэтычных даных можа быць шмат памылак.
- Падатлівы характар яго прыводзіць да прадузятасці ў яго паводзінах.
- Могуць быць некаторыя схаваныя недахопы ў прадукцыйнасці алгарытмаў, навучаных з выкарыстаннем спрошчаных прадстаўленняў сінтэтычных даных, якія нядаўна ўсплылі падчас працы з рэальнымі дадзенымі.
- Рэплікацыя ўсіх адпаведных атрыбутаў з рэальных даных можа ўскладніцца. Таксама магчыма, што некаторыя істотныя аспекты могуць быць прапушчаны падчас гэтай аперацыі.
заключэнне
Вытворчасць сінтэтычных дадзеных відавочна прыцягвае ўвагу людзей.
Гэты метад не можа быць адзіным адказам для ўсіх выпадкаў генерацыі даных.
Акрамя таго, гэтая тэхніка можа запатрабаваць інтэлекту з дапамогай AI/ML і мець магчымасць апрацоўваць складаныя ў рэальным свеце сітуацыі стварэння ўзаемазвязаных даных, у ідэале дадзеных, прыдатных для пэўнага дамена.
Тым не менш, гэта інавацыйная тэхналогія, якая запаўняе прабел, дзе іншыя тэхналогіі, якія забяспечваюць канфідэнцыяльнасць, недастатковыя.
Сёння сінтэтыка для вытворчасці дадзеных можа спатрэбіцца суіснаванне маскіроўкі даных.
У будучыні можа адбыцца большае збліжэнне паміж імі, што прывядзе да больш поўнага рашэння для стварэння дадзеных.
Падзяліцеся сваімі меркаваннямі ў каментарах!
Пакінуць каментар