Turinys[Slėpti][Rodyti]
Tyrėjai ir duomenų mokslininkai dažnai susiduria su aplinkybėmis, kai jie arba neturi tikrų duomenų, arba negali jų naudoti dėl konfidencialumo ar privatumo sumetimų.
Siekiant išspręsti šią problemą, sintetinė duomenų gamyba naudojama autentiškiems duomenims pakeisti.
Kad algoritmas veiktų tinkamai, reikia tinkamai pakeisti tikrus duomenis, kurie taip pat turėtų būti tikroviški. Tokius duomenis galite naudoti privatumui palaikyti, sistemoms testuoti arba mašininio mokymosi algoritmų mokymo duomenims kurti.
Išsamiai išnagrinėkime sintetinių duomenų generavimą ir išsiaiškinkime, kodėl jie gyvybiškai svarbūs AI amžiuje.
Kas yra sintetiniai duomenys?
Sintetiniai duomenys – tai anotuoti duomenys, generuojami kompiuteriniu modeliavimu arba algoritmais, kaip realaus pasaulio duomenų pakaitalas. Tai dirbtinio intelekto sukurta tikrų duomenų kopija.
Galima naudoti duomenų šablonus ir matmenis naudojant pažangius AI algoritmus. Jie gali sukurti neribotą kiekį sintetinių duomenų, kurie statistiškai reprezentuoja pradinius treniruočių duomenis, kai jie yra mokomi.
Yra įvairių metodų ir technologijų, kurios gali padėti mums sukurti sintetinius duomenis, kuriuos galite naudoti įvairiose programose.
Duomenų generavimo programinei įrangai dažnai reikia:
- Duomenų saugyklos metaduomenys, kuriems turi būti sukurti sintetiniai duomenys.
- Tikėtinų, bet išgalvotų verčių generavimo technika. Pavyzdžiai apima verčių sąrašus ir reguliariąsias išraiškas.
- Išsamus supratimas apie visus duomenų ryšius, deklaruotus duomenų bazės lygiu ir tuos, kurie kontroliuojami programos kodo lygiu.
Taip pat būtina patvirtinti modelį ir palyginti realių duomenų elgsenos aspektus su modelio generuojamais.
Šie fiktyvūs duomenų rinkiniai turi visą tikrojo daikto vertę, bet neturi jokių neskelbtinų duomenų. Tai tarsi saldus, nekaloringas pyragas. Jis tiksliai vaizduoja tikrąjį pasaulį.
Dėl to galite jį naudoti norėdami pakeisti realaus pasaulio duomenis.
Sintetinių duomenų svarba
Sintetiniai duomenys turi savybių, kad atitiktų tam tikrus poreikius ar situacijas, kurių kitu atveju realaus pasaulio duomenyse nebūtų galima pasiekti. Kai trūksta duomenų testavimui arba kai svarbiausia yra privatumas, tai gelbėja.
Dirbtinio intelekto sukurti duomenų rinkiniai yra pritaikomi, saugūs ir lengvai saugomi, keičiami ir išmetami. Duomenų sintezės technika tinkama pirminiams duomenims sudėti ir tobulinti.
Todėl jis idealiai tinka naudoti kaip bandymo duomenis ir AI mokymo duomenis.
- Mokyti ML pagrindu sukurtą Uber ir Tesla savaeigiai automobiliai.
- Medicinos ir sveikatos priežiūros pramonėje – įvertinti konkrečias ligas ir aplinkybes, apie kurias nėra tikrų duomenų.
- Sukčiavimo atskleidimas ir apsauga yra labai svarbūs finansų sektoriuje. Naudodamiesi juo galite ištirti naujus nesąžiningus atvejus.
- „Amazon“ treniruoja „Alexa“ kalbos sistemą naudodama sintetinius duomenis.
- „American Express“ naudoja sintetinius finansinius duomenis, kad pagerintų sukčiavimo aptikimą.
Sintetinių duomenų tipai
Sintetiniai duomenys sukuriami atsitiktinai, siekiant paslėpti slaptą privačią informaciją, išsaugant statistinę informaciją apie pradinių duomenų charakteristikas.
Tai daugiausia yra trijų tipų:
- Visiškai sintetiniai duomenys
- Iš dalies sintetiniai duomenys
- Hibridiniai sintetiniai duomenys
1. Visiškai sintetiniai duomenys
Šie duomenys yra visiškai sukurti ir juose nėra originalių duomenų.
Paprastai tokio tipo duomenų generatorius nustatys realių duomenų savybių tankio funkcijas ir įvertins jų parametrus. Vėliau iš numatomo tankio funkcijų kiekvienai funkcijai atsitiktinai sukuriamos privatumo apsaugotos serijos.
Jei pasirenkamos tik kelios faktinių duomenų charakteristikos, kurias reikia pakeisti, saugomos šių savybių serijos susiejamos su likusiomis realių duomenų savybėmis, kad apsaugotos ir tikrosios serijos būtų suskirstytos ta pačia tvarka.
„Bootstrap“ metodai ir daugybinės imputacijos yra du tradiciniai visiškai sintetinių duomenų gavimo metodai.
Kadangi duomenys yra visiškai sintetiniai ir nėra tikrų duomenų, ši strategija užtikrina puikią privatumo apsaugą, remiantis duomenų tikrumu.
2. Iš dalies sintetiniai duomenys
Šie duomenys naudoja tik sintetines vertes, kad pakeistų kelių jautrių funkcijų reikšmes.
Esant tokiai situacijai, tikrosios vertės pakeičiamos tik tada, kai yra didelis poveikio pavojus. Šis pakeitimas atliekamas siekiant apsaugoti naujai sukurtų duomenų privatumą.
Norint gauti iš dalies sintetinius duomenis, naudojami keli priskyrimu ir modeliu pagrįsti metodai. Šie metodai taip pat gali būti naudojami norint užpildyti trūkstamas reikšmes realaus pasaulio duomenyse.
3. Hibridiniai sintetiniai duomenys
Hibridiniai sintetiniai duomenys apima ir tikrus, ir netikrus duomenis.
Kiekvienam atsitiktiniam tikrų duomenų įrašui parenkamas beveik įrašas, o po to jie du sujungiami, kad būtų generuojami hibridiniai duomenys. Jis turi tiek visiškai sintetinių, tiek iš dalies sintetinių duomenų pranašumų.
Todėl, palyginti su kitais dviem, jis užtikrina tvirtą privatumo išsaugojimą ir naudingumą, tačiau kainuoja daugiau atminties ir apdorojimo laiko.
Sintetinių duomenų generavimo būdai
Daugelį metų mašinomis sukurtų duomenų koncepcija buvo populiari. Dabar jis bręsta.
Štai keletas metodų, naudojamų sintetiniams duomenims generuoti:
1. Remiantis paskirstymu
Jei realių duomenų nėra, bet duomenų analitikas turi išsamų supratimą, kaip atrodytų duomenų rinkinio paskirstymas; jie gali sudaryti bet kokio pasiskirstymo atsitiktinę imtį, įskaitant normalųjį, eksponentinį, chi kvadratą, t, lognormalųjį ir vienodą.
Sintetinių duomenų reikšmė naudojant šį metodą skiriasi priklausomai nuo analitiko supratimo apie tam tikrą duomenų aplinką.
2. Realaus pasaulio duomenys į žinomą paskirstymą
Įmonės gali ją sukurti nustatydamos tinkamiausius pateiktų realių duomenų paskirstymus, jei yra tikrų duomenų.
Įmonės gali naudoti Monte Karlo metodą, kad jį sudarytų, jei nori sutalpinti tikrus duomenis į žinomą paskirstymą ir žinoti paskirstymo parametrus.
Nors Monte Karlo metodas gali padėti įmonėms rasti geriausią galimą atitiktį, geriausias pasirinkimas gali būti nepakankamai naudingas įmonės sintetinių duomenų poreikiams.
Įmonės gali išbandyti mašininio mokymosi modelius, kad atitiktų platinimą tokiomis aplinkybėmis.
Mašininio mokymosi metodai, tokie kaip sprendimų medžiai, leidžia organizacijoms modeliuoti neklasikinius paskirstymus, kurie gali būti daugiarūšiai ir neturi bendrų pripažintų paskirstymų savybių.
Įmonės gali gaminti sintetinius duomenis, kurie jungiasi prie tikrų duomenų, naudodamos šį mašininiam mokymuisi pritaikytą platinimą.
Tačiau, mašinų mokymosi modeliai yra jautrūs permontavimui, todėl jie nesugeba suderinti naujų duomenų arba numatyti būsimų stebėjimų.
3. Gilus mokymasis
Gilūs generaciniai modeliai, tokie kaip variacinis automatinis kodavimo įrenginys (VAE) ir generacinis priešpriešinis tinklas (GAN), gali sukurti sintetinius duomenis.
Variacinis automatinis kodavimo įrenginys
VAE yra neprižiūrimas metodas, kai koduotuvas suglaudina pradinį duomenų rinkinį ir siunčia duomenis į dekoderį.
Tada dekoderis sukuria išvestį, kuri yra pradinio duomenų rinkinio atvaizdas.
Sistemos mokymas apima įvesties ir išvesties duomenų koreliacijos maksimizavimą.
Generacinis prieštaringų tinklas
GAN modelis kartotinai apmoko modelį naudodamas du tinklus – generatorių ir diskriminatorių.
Generatorius sukuria sintetinį duomenų rinkinį iš atsitiktinių imties duomenų rinkinio.
Diskriminatorius lygina sintetiniu būdu sukurtus duomenis su realiu duomenų rinkiniu, naudodamas iš anksto nustatytas sąlygas.
Sintetinių duomenų teikėjai
Struktūrizuoti duomenys
Toliau nurodytos platformos teikia sintetinius duomenis, gautus iš lentelių duomenų.
Jis atkartoja realaus pasaulio duomenis, saugomus lentelėse, ir gali būti naudojamas elgesio, nuspėjamajai ar operacijų analizei.
- Įdiegti AI: Tai sintetinių duomenų kūrimo sistemos, kuri naudoja generatyvius priešingus tinklus ir skirtingą privatumą, tiekėjas.
- Betterdata: Tai privatumą išsaugančio sintetinių duomenų sprendimo, skirto AI, duomenų dalijimuisi ir produktų kūrimui, teikėjas.
- Divepale: Tai yra „Geminai“ – sistemos, skirtos „dvynių“ duomenų rinkiniams, turintiems tokias pat statistines savybes kaip ir pirminiai duomenys, kūrimo, tiekėjas.
Nestruktūruoti duomenys
Žemiau paminėtos platformos veikia su nestruktūrizuotais duomenimis, teikdamos sintetinių duomenų prekes ir paslaugas regėjimo ir žvalgybos algoritmams lavinti.
- Datagenas: suteikia 3D modeliuojamus mokymo duomenis, skirtus Visual AI mokymuisi ir tobulėjimui.
- Neurolabai: Neurolabs yra kompiuterinės vizijos sintetinių duomenų platformos tiekėja.
- Lygiagretus domenas: Tai sintetinių duomenų platformos, skirtos autonominių sistemų mokymui ir testavimo naudojimo atvejams, tiekėjas.
- Advokato sesuo: Tai modeliavimo tiekėjas ADAS ir autonominių transporto priemonių kūrėjams.
- Bifrostas: Jis teikia sintetinių duomenų API 3D aplinkoms kurti.
Iššūkiai
Ji turi ilgą istoriją Dirbtinis intelektas, ir nors jis turi daug privalumų, jis turi ir reikšmingų trūkumų, į kuriuos reikia atkreipti dėmesį dirbant su sintetiniais duomenimis.
Štai keletas iš jų:
- Kopijuojant sudėtingumą iš faktinių duomenų į sintetinius duomenis, gali būti daug klaidų.
- Kalus jo pobūdis lemia jo elgesio šališkumą.
- Gali būti tam tikrų paslėptų algoritmų, parengtų naudojant supaprastintą sintetinių duomenų atvaizdavimą, veikimo trūkumų, kurie neseniai išryškėjo dirbant su faktiniais duomenimis.
- Atkartoti visus svarbius atributus iš realaus pasaulio duomenų gali būti sudėtinga. Taip pat gali būti, kad atliekant šią operaciją gali būti nepaisoma kai kurių esminių aspektų.
Išvada
Sintetinių duomenų kūrimas akivaizdžiai atkreipia žmonių dėmesį.
Šis metodas gali būti ne vienas visiems duomenų generavimo atvejams tinkantis atsakymas.
Be to, ši technika gali reikalauti žvalgybos per AI/ML ir sugebėti valdyti realias sudėtingas situacijas kuriant tarpusavyje susijusius duomenis, idealiai tinkančius tam tikrai domenui.
Nepaisant to, tai naujoviška technologija, kuri užpildo spragą, kurioje trūksta kitų privatumą užtikrinančių technologijų.
Šiandien sintetinis duomenų gamybai gali prireikti duomenų maskavimo kartu.
Ateityje gali būti didesnė jų konvergencija, todėl bus sukurtas išsamesnis duomenų generavimo sprendimas.
Pasidalinkite savo nuomone komentaruose!
Palikti atsakymą