Sintētisko datu ģenerēšana: veidi, paņēmieni un vairāk

Saturs[Paslēpt][Rādīt]

Kas ir sintētiskie dati?
Sintētisko datu nozīme
Sintētisko datu veidi+-
Sintētisko datu ģenerēšanas metodes+-
Sintētisko datu sniedzēji+-
- Strukturēti dati
- Nestrukturēti dati
Izaicinājumi
Secinājumi

Pētnieki un datu zinātnieki bieži saskaras ar apstākļiem, kādos viņiem vai nu nav faktisko datu, vai arī viņi nevar tos izmantot konfidencialitātes vai privātuma apsvērumu dēļ.

Lai atrisinātu šo problēmu, tiek izmantota sintētisko datu ražošana, lai aizstātu oriģinālos datus.

Lai algoritms darbotos pareizi, ir nepieciešams atbilstoši aizstāt oriģinālos datus, kam arī jābūt reālistiskam. Šos datus varat izmantot, lai uzturētu privātumu, testētu sistēmas vai sagatavotu apmācību datus mašīnmācīšanās algoritmiem.

Detalizēti izpētīsim sintētisko datu ģenerēšanu un uzzināsim, kāpēc tie ir vitāli svarīgi AI laikmetā.

Kas ir sintētiskie dati?

Sintētiskie dati ir anotēti dati, ko ģenerē datorsimulācijas vai algoritmi, kas aizstāj reālās pasaules datus. Tā ir mākslīgā intelekta ģenerēta faktisko datu kopija.

Var izmantot datu modeļus un izmērus, izmantojot uzlabotus AI algoritmus. Viņi var izveidot neierobežotu daudzumu sintētisko datu, kas statistiski reprezentē sākotnējos apmācības datus, kad tie ir apmācīti.

Ir dažādas pieejas un tehnoloģijas, kas var palīdzēt mums izveidot sintētiskos datus, un jūs varat tos izmantot dažādās lietojumprogrammās.

Datu ģenerēšanas programmatūrai bieži ir nepieciešams:

Datu repozitorija metadati, kuriem jāizveido sintētiskie dati.
Paņēmiens ticamu, bet izdomātu vērtību ģenerēšanai. Piemēri ir vērtību saraksti un regulārās izteiksmes.
Visaptveroša izpratne par visām datu attiecībām, par tām, kas deklarētas datu bāzes līmenī, kā arī par tām, kuras tiek kontrolētas lietojumprogrammas koda līmenī.

Tikpat nepieciešams apstiprināt modeli un salīdzināt reālo datu uzvedības aspektus ar modeļa radītajiem.

Šīm fiktīvajām datu kopām ir visa reālās lietas vērtība, bet neviena no sensitīvajiem datiem. Tā ir kā salda kūka bez kalorijām. Tas precīzi attēlo reālo pasauli.

Rezultātā varat to izmantot, lai aizstātu reālās pasaules datus.

Sintētisko datu nozīme

Sintētiskajiem datiem ir īpašības, kas atbilst noteiktām prasībām vai situācijām, kas citādi nebūtu pieejamas reālos datos. Ja testēšanai ir maz datu vai privātums ir galvenais apsvērums, tas nāk palīgā.

AI radītās datu kopas ir pielāgojamas, drošas un viegli glabājamas, apmaināmas un izmetamas. Datu sintēzes tehnika ir piemērota sākotnējo datu apakškopu veidošanai un uzlabošanai.

Tā rezultātā tas ir ideāli piemērots izmantošanai kā testa dati un AI apmācības dati.

Lai iemācītu uz ML balstītu Uber un Tesla pašpiedziņas automašīnas.
Medicīnas un veselības aprūpes nozarēs, lai novērtētu konkrētas slimības un apstākļus, par kuriem nav patiesu datu.
Krāpšanas atklāšana un aizsardzība ir ļoti svarīga finanšu sektorā. Izmantojot to, varat izmeklēt jaunus krāpnieciskus gadījumus.
Amazon apmāca Alexa valodu sistēmu, izmantojot sintētiskos datus.
American Express izmanto sintētiskos finanšu datus, lai uzlabotu krāpšanas atklāšanu.

Sintētisko datu veidi

Sintētiskie dati tiek izveidoti nejauši ar nolūku slēpt sensitīvu privātu informāciju, vienlaikus saglabājot statistisko informāciju par sākotnējo datu raksturlielumiem.

Tas galvenokārt ir trīs veidu:

Pilnībā sintētiski dati
Daļēji sintētiski dati
Hibrīda sintētiskie dati

1. Pilnībā sintētiski dati

Šie dati ir pilnībā ģenerēti un nesatur sākotnējos datus.

Parasti šāda veida datu ģenerators identificēs reālo datu pazīmju blīvuma funkcijas un novērtēs to parametrus. Vēlāk, izmantojot paredzētās blīvuma funkcijas, katrai funkcijai nejauši tiek izveidotas ar privātumu aizsargātas sērijas.

Ja ir izvēlēti tikai daži faktisko datu raksturlielumi, ko aizstāt ar tiem, šo pazīmju aizsargātās sērijas tiek kartētas ar atlikušajām reālo datu iezīmēm, lai aizsargātās un reālās sērijas sakārtotu tādā pašā secībā.

Bootstrap metodes un vairāku imputāciju ir divas tradicionālās metodes pilnīgi sintētisko datu iegūšanai.

Tā kā dati ir pilnībā sintētiski un reālu datu nepastāv, šī stratēģija nodrošina izcilu privātuma aizsardzību, paļaujoties uz datu patiesumu.

2. Daļēji sintētiski dati

Šie dati izmanto tikai sintētiskas vērtības, lai aizstātu dažu sensitīvu funkciju vērtības.

Šādā situācijā patiesās vērtības tiek mainītas tikai tad, ja pastāv ievērojams iedarbības risks. Šīs izmaiņas tiek veiktas, lai aizsargātu tikko izveidoto datu privātumu.

Daļēji sintētisko datu iegūšanai tiek izmantotas vairākas imputācijas un uz modeļiem balstītas pieejas. Šīs metodes var izmantot arī, lai aizpildītu trūkstošās vērtības reālās pasaules datos.

3. Hibrīda sintētiskie dati

Hibrīda sintētiskie dati ietver gan faktiskos, gan viltotos datus.

Katram nejaušam reālo datu ierakstam tiek atlasīts gandrīz ieraksts, un pēc tam tie tiek apvienoti, lai ģenerētu hibrīdus datus. Tam ir gan pilnīgi sintētisko, gan daļēji sintētisko datu priekšrocības.

Tāpēc tas piedāvā spēcīgu privātuma saglabāšanu ar augstu lietderību, salīdzinot ar pārējiem diviem, taču uz vairāk atmiņas un apstrādes laika.

Sintētisko datu ģenerēšanas metodes

Jau daudzus gadus ir bijis populārs jēdziens par mašīnu veidotiem datiem. Tagad tas nobriest.

Tālāk ir norādītas dažas sintētisko datu ģenerēšanas metodes.

1. Pamatojoties uz izplatīšanu

Ja reālu datu nav, bet datu analītiķim ir pamatīgs priekšstats par to, kā parādītos datu kopas sadalījums; tie var izveidot jebkura sadalījuma nejaušu paraugu, tostarp parasto, eksponenciālo, hī kvadrātu, t, lognormālo un vienoto.

Sintētisko datu vērtība šajā metodē mainās atkarībā no analītiķa izpratnes līmeņa par noteiktu datu vidi.

2. Reālās pasaules dati zināmā sadalījumā

Uzņēmumi to var izveidot, nosakot reāliem datiem vispiemērotāko sadalījumu, ja ir reāli dati.

Uzņēmumi var izmantot Montekarlo pieeju, lai tos izveidotu, ja viņi vēlas iekļaut reālus datus zināmā sadalījumā un zināt izplatīšanas parametrus.

Lai gan Montekarlo pieeja var palīdzēt uzņēmumiem atrast vislabāko pieejamo atbilstību, vislabākā atbilstība var nebūt pietiekami noderīga uzņēmuma sintētisko datu vajadzībām.

Uzņēmumi varētu izpētīt mašīnmācīšanās modeļu izmantošanu, lai tie atbilstu izplatīšanai šādos apstākļos.

Mašīnmācīšanās paņēmieni, piemēram, lēmumu koki, ļauj organizācijām modelēt neklasiskus sadalījumus, kas var būt daudzmodāli un kuriem nav kopīgu atzītu sadalījumu īpašību.

Uzņēmumi var ražot sintētiskos datus, kas tiek savienoti ar īstiem datiem, izmantojot šo mašīnmācībai pielāgoto izplatīšanu.

Tomēr, mašīnmācīšanās modeļi ir pakļauti pārmērīgai uzstādīšanai, kas izraisa to, ka tie neatbilst svaigiem datiem vai neparedz turpmākus novērojumus.

3. Dziļā mācīšanās

Dziļi ģeneratīvie modeļi, piemēram, variācijas automātiskais kodētājs (VAE) un ģeneratīvais pretrunīgais tīkls (GAN), var radīt sintētiskos datus.

Variācijas automātiskais kodētājs

VAE ir neuzraudzīta pieeja, kurā kodētājs saspiež sākotnējo datu kopu un nosūta datus uz dekodētāju.

Pēc tam dekodētājs rada izvadi, kas ir sākotnējās datu kopas attēlojums.

Sistēmas mācīšana ietver maksimālu korelāciju starp ievades un izvades datiem.

Vae

Ģeneratīvs pretrunīgs tīkls

GAN modelis iteratīvi apmāca modeli, izmantojot divus tīklus, ģeneratoru un diskriminatoru.

Ģenerators izveido sintētisko datu kopu no izlases datu izlases datu kopas.

Diskriminators salīdzina sintētiski izveidotos datus ar reālu datu kopu, izmantojot iepriekš definētus nosacījumus.

Gan

Sintētisko datu sniedzēji

Strukturēti dati

Tālāk minētās platformas nodrošina sintētiskos datus, kas iegūti no tabulas datiem.

Tas atkārto reālās pasaules datus, kas tiek glabāti tabulās, un to var izmantot uzvedības, prognozēšanas vai darījumu analīzei.

Ievietojiet AI: Tas ir sintētisko datu izveides sistēmas nodrošinātājs, kas izmanto ģeneratīvos pretrunīgos tīklus un diferencētu privātumu.
Labāki dati: tas nodrošina privātumu saglabājošu sintētisko datu risinājumu AI, datu koplietošanai un produktu izstrādei.
Divepale: Tas ir Geminai nodrošinātājs — sistēma “dvīņu” datu kopu izveidei ar tādām pašām statistikas iezīmēm kā sākotnējiem datiem.

Nestrukturēti dati

Tālāk minētās platformas darbojas ar nestrukturētiem datiem, nodrošinot sintētiskas datu preces un pakalpojumus redzes un izlūkošanas algoritmu apmācībai.

Datagen: tas nodrošina 3D simulētus apmācības datus vizuālā AI mācībām un attīstībai.
Neurolabs: Neurolabs ir datorredzes sintētisko datu platformas nodrošinātājs.
Paralēlais domēns: Tas ir sintētisko datu platformas nodrošinātājs autonomu sistēmu apmācībai un lietošanas gadījumu testēšanai.
Cognata: tas ir simulācijas piegādātājs ADAS un autonomo transportlīdzekļu izstrādātājiem.
Bifrost: Tas nodrošina sintētisko datu API 3D vides izveidei.

3 2

Izaicinājumi

Tam ir sena vēsture Mākslīgais intelekts, un, lai gan tai ir daudz priekšrocību, tai ir arī būtiski trūkumi, kas jānovērš, strādājot ar sintētiskiem datiem.

Lūk, daži no tiem:

Kopējot sarežģītību no faktiskajiem datiem uz sintētiskiem datiem, var rasties daudz kļūdu.
Tā kaļamā daba izraisa aizspriedumus tā uzvedībā.
Var būt daži slēpti trūkumi algoritmu darbībā, kas apmācīti, izmantojot vienkāršotus sintētisko datu attēlojumus un kas nesen ir parādījušies, apstrādājot faktiskos datus.
Visu attiecīgo atribūtu replicēšana no reālajiem datiem var kļūt sarežģīta. Ir arī iespējams, ka šīs darbības laikā daži būtiski aspekti var tikt ignorēti.

Secinājumi

Sintētisko datu iegūšana nepārprotami piesaista cilvēku uzmanību.

Šī metode var nebūt viennozīmīga atbilde visiem datu ģenerēšanas gadījumiem.

Turklāt tehnikai var būt nepieciešama inteliģence, izmantojot AI/ML, un tā var tikt galā ar reāli sarežģītām situācijām, veidojot savstarpēji saistītus datus, ideālā gadījumā datus, kas piemēroti noteiktam domēnam.

Tomēr tā ir novatoriska tehnoloģija, kas aizpilda plaisu, kur citas privātumu veicinošas tehnoloģijas ir nepilnīgas.

Šodien sintētiskais datu veidošanai var būt nepieciešama datu maskēšanas līdzāspastāvēšana.

Nākotnē starp abiem var būt lielāka konverģence, kā rezultātā tiks izveidots visaptverošāks datu ģenerēšanas risinājums.

Dalieties savos viedokļos komentāros!

sintētisko datu ģenerēšanas rīki un paņēmieni

Sintētisko datu ģenerēšana: veidi, paņēmieni un daudz kas cits

Kas ir sintētiskie dati?

Sintētisko datu nozīme