Sintētiskie dati izskaidroti — nākamā lielā lieta AI, ML un DL jomā

Uzlabotas analītikas un mašīnmācīšanās programmas tiek virzītas, izmantojot datus, taču akadēmiķiem var būt grūti piekļūt šiem datiem, jo ir problēmas saistībā ar privātumu un biznesa procedūrām.

Sintētiskie dati, kurus var koplietot un izmantot tādos veidos, kā faktiskie dati nevar, ir potenciāls jauns virziens, uz kuru jātiecas. Tomēr šī jaunā stratēģija nav bez briesmām vai trūkumiem, tāpēc ir ļoti svarīgi, lai uzņēmumi rūpīgi apsvērtu, kur un kā viņi izmanto savus resursus.

Pašreizējā mākslīgā intelekta laikmetā mēs varam arī apgalvot, ka dati ir jaunā eļļa, taču tikai daži izredzētie sēž uz sūcēja. Tāpēc daudzi cilvēki paši ražo degvielu, kas ir gan pieņemama, gan efektīva. Tos sauc par sintētiskajiem datiem.

Šajā ziņojumā mēs detalizēti aplūkosim sintētiskos datus — kāpēc tos vajadzētu izmantot, kā tos iegūt, ar ko tie atšķiras no faktiskajiem datiem, kādos lietošanas gadījumos tie var kalpot un daudz ko citu.

Tātad, kas ir sintētiskie dati?

Ja īstas datu kopas nav atbilstošas kvalitātes, skaita vai daudzveidības ziņā, mākslīgā intelekta modeļu apmācīšanai reālu vēsturisko datu vietā var izmantot sintētiskos datus.

Ja esošie dati neatbilst biznesa prasībām vai rada privātuma riskus, kad tos izmanto izstrādei mašīna mācīšanās modeļi, testēšanas programmatūra vai tamlīdzīgi, sintētiskie dati var būt nozīmīgs rīks korporatīvajiem AI centieniem.

Vienkārši sakot, sintētiskie dati bieži tiek izmantoti faktisko datu vietā. Precīzāk, tie ir dati, kas ir mākslīgi marķēti un iegūti ar simulāciju vai datoru algoritmiem.

Sintētiskie dati

Sintētiskie dati ir informācija, ko datorprogramma ir radījusi mākslīgi, nevis reālu notikumu rezultātā. Uzņēmumi var pievienot sintētiskos datus saviem apmācību datiem, lai aptvertu visas lietošanas un malas situācijas, samazinātu datu vākšanas izmaksas vai izpildītu privātuma noteikumus.

Mākslīgie dati tagad ir vieglāk pieejami nekā jebkad, pateicoties apstrādes jaudas un datu uzglabāšanas metožu, piemēram, mākoņa, uzlabojumiem. Sintētiskie dati uzlabo tādu AI risinājumu izveidi, kas ir izdevīgāki visiem galalietotājiem, un tas neapšaubāmi ir laba attīstība.

Cik svarīgi ir sintētiskie dati un kāpēc tos vajadzētu izmantot?

Apmācot AI modeļus, izstrādātājiem bieži ir vajadzīgas milzīgas datu kopas ar precīzu marķējumu. Ja māca ar daudzveidīgākiem datiem, neironu tīkli veikt precīzāk.

Tomēr šo apjomīgo datu kopu, kurās ir simtiem vai pat miljoniem vienumu, apkopošana un marķēšana var būt nepamatoti laikietilpīga un laikietilpīga. Apmācības datu ražošanas cenu var ievērojami samazināt, izmantojot sintētiskos datus. Piemēram, ja tas ir mākslīgi izveidots, treniņa attēls, kas maksā 5 ASV dolārus, iegādājoties no a datu marķēšanas nodrošinātājs varētu maksāt tikai 0.05 USD.

Sintētiskie dati var mazināt privātuma problēmas saistībā ar potenciāli sensitīviem datiem, kas ģenerēti no reālās pasaules, vienlaikus samazinot izdevumus.

Salīdzinājumā ar patiesiem datiem, kas nevar precīzi atspoguļot visu faktu spektru par reālo pasauli, tas varētu palīdzēt mazināt aizspriedumus. Nodrošinot neparastus gadījumus, kas atspoguļo ticamas iespējas, bet var būt grūti iegūt no likumīgiem datiem, sintētiskie dati var piedāvāt lielāku dažādību.

Sintētiskie dati varētu būt lieliski piemēroti jūsu projektam tālāk norādīto iemeslu dēļ.

1. Modeļa robustums

Bez nepieciešamības to iegūt, piekļūstiet daudzveidīgākiem datiem par saviem modeļiem. Izmantojot sintētiskos datus, varat apmācīt savu modeli, izmantojot vienas un tās pašas personas variantus ar dažādiem matu griezumiem, sejas apmatojumu, brillēm, galvas pozām utt., kā arī ādas toni, etniskās iezīmes, kaulu struktūru, vasaras raibumus un citas īpašības, lai radītu unikālus sejas un stiprināt to.

2. Tiek ņemti vērā malu gadījumi

Saskaņots Mašīnmācība dod priekšroku datu kopai algoritmi. Padomājiet par mūsu sejas atpazīšanas piemēru. Viņu modeļu precizitāte būtu uzlabojusies (un patiesībā daži no šiem uzņēmumiem to darīja), un viņi būtu izveidojuši morālāku modeli, ja tie būtu sagatavojuši sintētiskus datus par tumšākām sejām, lai aizpildītu datu nepilnības. Ar sintētisko datu palīdzību komandas var aptvert visus lietošanas gadījumus, tostarp malas gadījumus, kad datu ir maz vai to nav.

3. To var iegūt ātrāk nekā “faktiskos” datus

Komandas spēj ātri ģenerēt milzīgu daudzumu sintētisko datu. Tas ir īpaši noderīgi, ja reālās dzīves dati ir atkarīgi no sporādiskiem notikumiem. Komandām var būt grūti iegūt pietiekami daudz reālās pasaules datu par smagiem ceļa apstākļiem, vācot datus par pašbraucošu automašīnu, piemēram, to retuma dēļ. Lai paātrinātu darbietilpīgo anotācijas procesu, datu zinātnieki var izveidot algoritmus, lai automātiski marķētu sintētiskos datus, tiklīdz tie tiek ģenerēti.

4. Tas nodrošina lietotāja privātuma informāciju

Uzņēmumiem, apstrādājot sensitīvus datus, var rasties drošības problēmas atkarībā no uzņēmējdarbības veida un datu veida. Piemēram, personas veselības informācija (PHI) veselības aprūpes nozarē bieži tiek iekļauta stacionāra datos, un tā ir jāapstrādā ar vislielāko drošību.

Tā kā sintētiskie dati neietver informāciju par reāliem cilvēkiem, privātuma problēmas ir mazākas. Apsveriet iespēju izmantot sintētiskos datus kā alternatīvu, ja jūsu komandai ir jāievēro noteikti datu privātuma likumi.

Reāli dati vs sintētiskie dati

Reālajā pasaulē tiek iegūti vai izmērīti reāli dati. Kad kāds izmanto viedtālruni, klēpjdatoru vai datoru, nēsā rokas pulksteni, piekļūst vietnei vai veic tiešsaistes darījumu, šāda veida dati tiek ģenerēti uzreiz.

Turklāt aptaujas var izmantot, lai nodrošinātu patiesus datus (tiešsaistē un bezsaistē). Digitālie iestatījumi rada sintētiskos datus. Izņemot daļu, kas nav iegūta no reāliem notikumiem, sintētiskie dati tiek izveidoti tādā veidā, kas pamatīpašību ziņā veiksmīgi atdarina faktiskos datus.

Ideja izmantot sintētiskos datus kā faktisko datu aizstājēju ir ļoti daudzsološa, jo tos var izmantot, lai nodrošinātu apmācības dati, kas nodrošina mašīnmācīšanos modeļiem ir nepieciešams. Bet tas nav droši mākslīgais intelekts var atrisināt visas problēmas, kas rodas reālajā pasaulē.

Lietošanas gadījumi

Sintētiskie dati ir noderīgi dažādiem komerciāliem mērķiem, tostarp modeļu apmācībai, modeļu validācijai un jaunu produktu testēšanai. Mēs uzskaitīsim dažas no nozarēm, kas ir kļuvušas par priekšrocību tās lietošanā mašīnmācībā:

1. Healthcare

Ņemot vērā tās datu jutīgumu, veselības aprūpes nozare ir labi piemērota sintētisko datu izmantošanai. Komandas var izmantot sintētiskos datus, lai reģistrētu visu iespējamo pacientu fizioloģiju, tādējādi palīdzot ātrāk un precīzāk diagnosticēt slimības.

Veselības aprūpe

Google melanomas noteikšanas modelis ir intriģējošs piemērs tam, jo tas ietver sintētiskus datus par cilvēkiem ar tumšākiem ādas toņiem (klīnisko datu joma, kas diemžēl ir nepietiekami pārstāvēta), lai nodrošinātu modelim spēju efektīvi darboties visu veidu ādai.

2. Automobiļi

Simulatorus bieži izmanto uzņēmumi, kas ražo pašpiedziņas automašīnas, lai novērtētu veiktspēju. Piemēram, skarbos laikapstākļos reālu ceļu datu apkopošana var būt riskanti vai sarežģīta.

Pašbraucoša automašīna

Paļauties uz testiem ar reāliem auto uz ceļiem parasti nav laba ideja, jo ir pārāk daudz mainīgo, kas jāņem vērā visās dažādās braukšanas situācijās.

3. Datu pārnesamība

Lai organizācijas varētu koplietot savus apmācību datus ar citiem, tām ir nepieciešamas uzticamas un drošas metodes. Personu identificējošas informācijas (PII) slēpšana pirms datu kopas publiskošanas ir vēl viena intriģējoša sintētisko datu lietojumprogramma. Zinātnisko pētījumu datu kopu, medicīnisko datu, socioloģisko datu un citu jomu apmaiņa, kas varētu saturēt PII, tiek dēvēta par privātumu saglabājošiem sintētiskiem datiem.

4. drošība

Organizācijas ir drošākas, pateicoties sintētiskiem datiem. Atkal runājot par mūsu sejas atpazīšanas piemēru, jūs, iespējams, esat pazīstams ar frāzi “dziļi viltojumi”, kas apraksta izdomātus fotoattēlus vai videoklipus. Uzņēmumi var izgatavot dziļus viltojumus, lai pārbaudītu savas sejas atpazīšanas un drošības sistēmas. Sintētiskie dati tiek izmantoti arī videonovērošanā, lai ātrāk un par lētāku apmācītu modeļus.

Sintētiskie dati un mašīnmācīšanās

Lai izveidotu stabilu un uzticamu modeli, mašīnmācīšanās algoritmiem ir nepieciešams ievērojams datu apjoms, kas jāapstrādā. Ja nav sintētisko datu, tik liela datu apjoma iegūšana būtu izaicinājums.

Tādās jomās kā datorredze vai attēlu apstrāde, kur modeļu izstrādi veicina agrīnu sintētisko datu izstrāde, tas var būt ārkārtīgi nozīmīgs. Jauns sasniegums attēlu atpazīšanas jomā ir ģeneratīvo pretrunīgo tīklu (Generative Adversarial Networks — GAN) izmantošana. Parasti sastāv no diviem tīkliem: ģeneratora un diskriminatora.

Lai gan diskriminācijas tīkla mērķis ir atdalīt faktiskos fotoattēlus no viltotajiem, ģeneratora tīkls darbojas, lai radītu sintētiskus attēlus, kas ir daudz līdzīgāki reālajiem attēliem.

Mašīnmācībā GAN ir neironu tīklu saimes apakškopa, kurā abi tīkli nepārtraukti mācās un attīstās, pievienojot jaunus mezglus un slāņus.

Veidojot sintētiskos datus, jums ir iespēja pēc vajadzības mainīt vidi un datu veidu, lai uzlabotu modeļa veiktspēju. Lai gan sintētisko datu precizitāti var viegli sasniegt ar spēcīgu punktu skaitu, marķētu reāllaika datu precizitāte dažkārt var būt ļoti dārga.

Kā jūs varat ģenerēt sintētiskos datus?

Sintētisko datu apkopojuma izveidei tiek izmantotas šādas pieejas:

Pamatojoties uz statistisko sadalījumu

Šajā gadījumā izmantotā stratēģija ir ņemt skaitļus no sadalījuma vai aplūkot faktiskos statistiskos sadalījumus, lai izveidotu nepatiesus datus, kas izskatās salīdzināmi. Dažos gadījumos reālu datu var nebūt.

Datu zinātnieks var ģenerēt datu kopu, kas satur jebkura sadalījuma nejaušu paraugu, ja viņam ir dziļa izpratne par faktisko datu statistisko sadalījumu. Normālais sadalījums, eksponenciālais sadalījums, hī kvadrāta sadalījums, lognormālais sadalījums un citi ir tikai daži statistikas varbūtības sadalījumu piemēri, ko var izmantot šim nolūkam.

Datu zinātnieka pieredzes līmenis situācijā būtiski ietekmēs apmācītā modeļa precizitāti.

Atkarībā no modeļa

Šī metode izveido modeli, kas ņem vērā novēroto uzvedību pirms šī modeļa izmantošanas nejaušu datu ģenerēšanai. Būtībā tas ietver reālu datu pielāgošanu datiem no zināma izplatīšanas. Pēc tam korporācijas var izmantot Montekarlo pieeju, lai izveidotu viltus datus.

Turklāt sadales var uzstādīt arī izmantojot mašīnmācīšanās modeļi kā lēmumu koki. Datu zinātnieki Tomēr ir jāpievērš uzmanība prognozei, jo lēmumu koki parasti ir pārāk piemēroti to vienkāršības un dziļuma paplašināšanās dēļ.

Ar dziļu mācīšanos

Dziļa mācīšanās modeļi, kas izmanto variācijas automātisko kodētāju (VAE) vai ģeneratīvā pretrunīgā tīkla (GAN) modeļus, ir divi veidi, kā izveidot sintētiskos datus. Nepārraudzīti mašīnmācīšanās modeļi ietver VAE.

Tie sastāv no kodētājiem, kas samazina un sablīvē sākotnējos datus, un dekodētājiem, kas rūpīgi pārbauda šos datus, lai nodrošinātu reālo datu attēlojumu. VAE pamatmērķis ir saglabāt pēc iespējas identiskus ievades un izvades datus. Divi pretēji neironu tīkli ir GAN modeļi un pretrunīgie tīkli.

Pirmais tīkls, kas pazīstams kā ģeneratoru tīkls, ir atbildīgs par viltus datu ražošanu. Diskriminācijas tīkls, otrs tīkls, darbojas, salīdzinot izveidotos sintētiskos datus ar faktiskajiem datiem, lai noteiktu, vai datu kopa ir krāpnieciska. Diskriminators brīdina ģeneratoru, kad tas atklāj viltus datu kopu.

Ģenerators pēc tam modificē šādu datu sēriju, kas tiek sniegta diskriminatoram. Rezultātā diskriminators laika gaitā kļūst labāks, atklājot viltus datu kopas. Šāda veida modelis tiek bieži izmantots finanšu sektorā krāpšanas atklāšanai, kā arī veselības aprūpes nozarē medicīniskajai attēlveidošanai.

Datu palielināšana ir atšķirīga metode, ko datu zinātnieki izmanto, lai iegūtu vairāk datu. Tomēr to nevajadzētu sajaukt ar viltotiem datiem. Vienkārši sakot, datu palielināšana ir jaunu datu pievienošana īstai datu kopai, kas jau pastāv.

Vairāku attēlu izveide no viena attēla, piemēram, pielāgojot orientāciju, spilgtumu, palielinājumu un citus. Dažreiz tiek izmantota faktiskā datu kopa, paliekot tikai personiskajai informācijai. Tas ir datu anonimizācija, un šādu datu kopa tāpat nav jāuzskata par sintētiskiem datiem.

Sintētisko datu izaicinājumi un ierobežojumi

Lai gan sintētiskajiem datiem ir dažādas priekšrocības, kas var palīdzēt uzņēmumiem veikt datu zinātnes aktivitātes, tiem ir arī daži ierobežojumi:

Datu uzticamība: Ir vispārzināms, ka katrs mašīnmācīšanās/padziļinātās mācīšanās modelis ir tik labs, cik labi tiek ievadīti dati. Sintētisko datu kvalitāte šajā kontekstā ir cieši saistīta ar ievades datu kvalitāti un datu iegūšanai izmantoto modeli. Ir ļoti svarīgi nodrošināt, lai avota datos nebūtu novirzes, jo tos var ļoti skaidri atspoguļot sintētiskajos datos. Turklāt pirms jebkādu prognožu veikšanas ir jāapstiprina un jāpārbauda datu kvalitāte.
Nepieciešamas zināšanas, pūles un laiks: lai gan sintētisko datu izveide varētu būt vienkāršāka un lētāka nekā īstu datu izveide, tomēr ir vajadzīgas zināmas zināšanas, laiks un pūles.
Anomāliju atkārtošana: reālās pasaules datu perfekta kopija nav iespējama; sintētiskie dati var to tikai tuvināt. Tāpēc sintētiskie dati var neattiekties uz dažām novirzēm, kas pastāv reālos datos. Datu anomālijas ir nozīmīgākas nekā parastie dati.
Ražošanas kontrole un kvalitātes nodrošināšana: Sintētiskie dati ir paredzēti, lai replicētu reālās pasaules datus. Datu manuāla pārbaude kļūst būtiska. Ir svarīgi pārbaudīt datu precizitāti pirms to iekļaušanas mašīnmācīšanās/dziļās mācīšanās modeļos sarežģītām datu kopām, kas izveidotas automātiski, izmantojot algoritmus.
Lietotāju atsauksmes: Tā kā sintētiskie dati ir jauns jēdziens, ne visi būs gatavi ticēt ar tiem sniegtajām prognozēm. Tas norāda, ka, lai palielinātu lietotāju pieņemamību, vispirms ir nepieciešams paaugstināt zināšanas par sintētisko datu lietderību.

Nākotne

Iepriekšējā desmitgadē ir ievērojami palielinājusies sintētisko datu izmantošana. Lai gan tas ietaupa uzņēmumu laiku un naudu, tas nav bez trūkumiem. Tam trūkst novirzes, kas dabiski rodas faktiskajos datos un ir ļoti svarīgas dažu modeļu precizitātei.

Ir arī vērts atzīmēt, ka sintētisko datu kvalitāte bieži ir atkarīga no ievades datiem, kas tiek izmantoti izveidei; Ievades datu novirzes var ātri izplatīties sintētiskajos datos, tāpēc nevajadzētu pārspīlēt, izvēloties augstas kvalitātes datus kā sākumpunktu.

Visbeidzot, tai ir nepieciešama turpmāka izvades kontrole, tostarp sintētisko datu salīdzināšana ar cilvēka anotētiem reāliem datiem, lai pārbaudītu, vai nav ieviestas neatbilstības. Neskatoties uz šiem šķēršļiem, sintētiskie dati joprojām ir daudzsološa joma.

Tas palīdz mums izveidot jaunus AI risinājumus pat tad, ja reālās pasaules dati nav pieejami. Vissvarīgākais ir tas, ka tas ļauj uzņēmumiem izveidot produktus, kas ir iekļaujošāki un liecina par galapatērētāju daudzveidību.

Tomēr uz datiem balstītā nākotnē sintētiskie dati plāno palīdzēt datu zinātniekiem veikt jaunus un radošus uzdevumus, kurus būtu grūti izpildīt, izmantojot tikai reālās pasaules datus.

Secinājumi

Dažos gadījumos sintētiskie dati var mazināt datu deficītu vai atbilstošu datu trūkumu uzņēmumā vai organizācijā. Mēs arī apskatījām, kuras stratēģijas var palīdzēt ģenerēt sintētiskos datus un kas no tā var gūt peļņu.

Mēs arī runājām par dažām grūtībām, kas rodas, strādājot ar sintētiskiem datiem. Komerciālu lēmumu pieņemšanai vienmēr priekšroka tiks dota reāliem datiem. Tomēr reālistiski dati ir nākamā labākā iespēja, ja šādi patiesi neapstrādāti dati nav pieejami analīzei.

Tomēr jāatceras, ka sintētisku datu iegūšanai ir nepieciešami datu zinātnieki, kuriem ir laba izpratne par datu modelēšanu. Būtiska ir arī pilnīga reālo datu un to apkārtnes izpratne. Tas ir būtiski, lai nodrošinātu, ka iegūtie dati ir pēc iespējas precīzāki, ja tie ir pieejami.

Sintētiskie dati izskaidroti — nākamā lielā lieta AI, ML un DL jomā

Tātad, kas ir sintētiskie dati?