Ipinaliwanag ang Synthetic Data - Ang Susunod na Malaking Bagay sa AI, ML at DL

Ang mga advanced na analytics at machine learning program ay itinutulak ng data, ngunit ang pag-access sa data na iyon ay maaaring maging mahirap para sa mga akademiko dahil sa mga hamon sa privacy at mga pamamaraan sa negosyo.

Ang sintetikong data, na maaaring ibahagi at magamit sa mga paraan na hindi magagawa ng aktwal na data, ay isang potensyal na bagong direksyon na dapat ituloy. Gayunpaman, ang bagong diskarte na ito ay walang mga panganib o disadvantages, kaya mahalaga na maingat na isaalang-alang ng mga negosyo kung saan at paano nila ginagamit ang kanilang mga mapagkukunan.

Sa kasalukuyang panahon ng AI, maaari din nating sabihin na ang data ay ang bagong langis, ngunit iilan lamang ang nakaupo sa isang gusher. Samakatuwid, maraming mga tao ang gumagawa ng kanilang sariling gasolina, na parehong abot-kaya at mahusay. Ito ay kilala bilang sintetikong data.

Sa post na ito, titingnan namin ang isang detalyadong pagtingin sa sintetikong data—bakit mo ito dapat gamitin, kung paano ito gawin, kung ano ang pinagkaiba nito sa aktwal na data, kung anong mga use case ang maihahatid nito, at marami pang iba.

Kaya, ano ang Synthetic Data?

Kapag ang mga tunay na set ng data ay hindi sapat sa mga tuntunin ng kalidad, bilang, o pagkakaiba-iba, maaaring gamitin ang synthetic na data upang sanayin ang mga modelo ng AI sa halip ng totoong makasaysayang data.

Kapag ang umiiral na data ay hindi nakakatugon sa mga kinakailangan ng negosyo o may mga panganib sa privacy kapag ginamit upang bumuo machine learning mga modelo, pansubok na software, o katulad nito, ang synthetic na data ay maaaring maging isang makabuluhang tool para sa mga pagsisikap ng corporate AI.

Sa madaling sabi, ang sintetikong data ay madalas na ginagamit bilang kapalit ng aktwal na data. Mas tiyak, ito ay data na artipisyal na na-tag at ginawa ng mga simulation o mga algorithm ng computer.

Sintetikong Data

Ang sintetikong data ay impormasyong nilikha ng isang computer program sa halip na bilang resulta ng mga aktwal na pangyayari. Maaaring magdagdag ng sintetikong data ang mga kumpanya sa kanilang data ng pagsasanay upang masakop ang lahat ng sitwasyon sa paggamit at gilid, bawasan ang gastos sa pangangalap ng data, o matugunan ang mga regulasyon sa privacy.

Mas naa-access na ngayon ang artipisyal na data kaysa dati salamat sa mga pagpapahusay sa kapangyarihan sa pagpoproseso at mga paraan ng pag-iimbak ng data tulad ng cloud. Pinapabuti ng synthetic na data ang paglikha ng mga solusyon sa AI na mas kapaki-pakinabang para sa lahat ng end-user, at walang alinlangan na magandang development iyon.

Gaano kahalaga ang synthetic data at bakit mo ito dapat gamitin?

Kapag nagsasanay ng mga modelo ng AI, ang mga developer ay madalas na nangangailangan ng malalaking dataset na may tumpak na pag-label. Kapag itinuro na may mas iba't ibang data, neural network gumanap nang mas tumpak.

Gayunpaman, ang pagkolekta at pag-label sa napakalaking dataset na ito na naglalaman ng daan-daan o kahit milyon-milyong mga item, ay maaaring hindi makatwiran na nakakaubos ng oras at pera. Ang presyo ng paggawa ng data ng pagsasanay ay maaaring lubos na mabawasan sa pamamagitan ng paggamit ng sintetikong data. Halimbawa, kung ginawang artipisyal, isang larawan ng pagsasanay na nagkakahalaga ng $5 kapag binili mula sa a provider ng pag-label ng data maaaring nagkakahalaga lamang ng $0.05.

Mapapawi ng synthetic data ang mga alalahanin sa privacy na nauugnay sa potensyal na sensitibong data na nabuo mula sa aktwal na mundo habang binabawasan din ang mga gastos.

Kung ihahambing sa tunay na data, na hindi tumpak na nagpapakita ng kumpletong spectrum ng mga katotohanan tungkol sa totoong mundo, maaari itong makatulong na bawasan ang pagtatangi. Sa pamamagitan ng pagbibigay ng mga hindi pangkaraniwang pangyayari na kumakatawan sa mga posibleng posibilidad ngunit maaaring mahirap makuha mula sa lehitimong data, ang synthetic na data ay maaaring mag-alok ng higit na pagkakaiba-iba.

Ang sintetikong data ay maaaring maging isang mahusay na akma para sa iyong proyekto para sa mga kadahilanang nakalista sa ibaba:

1. Ang tibay ng modelo

Nang hindi kinakailangang kunin ito, i-access ang mas iba't ibang data para sa iyong mga modelo. Gamit ang sintetikong data, maaari mong sanayin ang iyong modelo gamit ang mga variant ng parehong tao na may iba't ibang gupit, buhok sa mukha, salamin, pose sa ulo, atbp., pati na rin ang kulay ng balat, mga etnikong katangian, istraktura ng buto, pekas, at iba pang mga katangian upang makabuo ng kakaiba mukha at palakasin ito.

2. Ang mga kaso sa gilid ay isinasaalang-alang

Isang timbang Ang dataset ay mas gusto ng machine learning mga algorithm. Isipin muli ang aming halimbawa ng pagkilala sa mukha. Ang katumpakan ng kanilang mga modelo ay bumuti sana (at sa katunayan, ginawa ito ng ilan sa mga negosyong ito), at makakagawa sila ng mas moral na modelo kung gumawa sila ng sintetikong data ng mas matingkad na mga mukha upang punan ang kanilang mga data gaps. Maaaring sakupin ng mga koponan ang lahat ng mga kaso ng paggamit, kabilang ang mga edge case kung saan kakaunti o wala ang data, sa tulong ng synthetic na data.

3. Maaari itong makuha nang mas mabilis kaysa sa "aktwal" na datos

Mabilis na nakakagawa ang mga koponan ng napakaraming synthetic na data. Ito ay lalong kapaki-pakinabang kapag ang totoong buhay na data ay nakadepende sa kalat-kalat na mga kaganapan. Maaaring mahirapan ang mga koponan na makakuha ng sapat na data sa totoong mundo sa malalang kondisyon ng kalsada habang kumukuha ng data para sa isang self-driving na kotse, halimbawa, dahil sa kanilang pambihira. Upang mapabilis ang matrabahong proseso ng anotasyon, maaaring maglagay ang mga data scientist ng mga algorithm upang awtomatikong lagyan ng label ang synthetic na data habang ito ay nabuo.

4. Tinitiyak nito ang impormasyon sa privacy ng user

Maaaring magkaroon ng mga problema sa seguridad ang mga kumpanya habang pinangangasiwaan ang sensitibong data, depende sa negosyo at uri ng data. Ang personal na impormasyon sa kalusugan (PHI), halimbawa, ay madalas na kasama sa data ng inpatient sa industriya ng pangangalagang pangkalusugan at dapat pangasiwaan nang may lubos na seguridad.

Dahil hindi kasama sa synthetic na data ang impormasyon tungkol sa mga aktwal na tao, nababawasan ang mga isyu sa privacy. Isaalang-alang ang paggamit ng synthetic na data bilang alternatibo kung ang iyong team ay kailangang sumunod sa ilang partikular na batas sa privacy ng data.

Tunay na data vs Synthetic na data

Sa totoong mundo, ang totoong data ay nakuha o sinusukat. Kapag may gumagamit ng smartphone, laptop, o computer, nagsuot ng wristwatch, nag-access ng website, o gumawa ng online na transaksyon, ang ganitong uri ng data ay agad na nabubuo.

Bukod pa rito, maaaring gamitin ang mga survey upang magbigay ng tunay na data (online at offline). Ang mga digital na setting ay gumagawa ng synthetic na data. Maliban sa bahaging hindi hinango sa anumang kaganapan sa totoong mundo, ang synthetic na data ay ginawa sa paraang matagumpay na ginagaya ang aktwal na data sa mga tuntunin ng mga pangunahing katangian.

Ang ideya ng paggamit ng sintetikong data bilang isang kapalit para sa aktwal na data ay napaka-promising dahil maaari itong magamit upang magbigay ng data ng pagsasanay na machine learning kailangan ng mga modelo. Ngunit hindi ito tiyak artificial intelligence kayang lutasin ang bawat isyu na lumalabas sa aktwal na mundo.

Paggamit ng mga kaso

Kapaki-pakinabang ang synthetic na data para sa iba't ibang layuning pangkomersyo, kabilang ang pagsasanay sa modelo, pagpapatunay ng modelo, at pagsubok ng mga bagong produkto. Ililista namin ang ilan sa mga sektor na nanguna sa aplikasyon nito sa machine learning:

1. Pangangalaga sa Kalusugan

Dahil sa pagiging sensitibo ng data nito, ang sektor ng pangangalagang pangkalusugan ay angkop para sa paggamit ng sintetikong data. Ang sintetikong data ay maaaring gamitin ng mga koponan upang itala ang mga physiologies ng bawat uri ng pasyente na maaaring umiiral, sa gayon ay tumutulong sa mas mabilis at mas tumpak na pagsusuri ng mga sakit.

Healthcare

Ang modelo ng pagtuklas ng melanoma ng Google ay isang nakakaintriga na paglalarawan nito dahil isinasama nito ang sintetikong data ng mga taong may mas madidilim na kulay ng balat (isang bahagi ng klinikal na data na ikinalulungkot na kulang sa representasyon) upang bigyan ang modelo ng kapasidad na gumana nang epektibo para sa lahat ng uri ng balat.

2. Mga Sasakyan

Ang mga simulator ay madalas na ginagamit ng mga kumpanyang lumilikha ng mga self-driving na sasakyan upang suriin ang pagganap. Kapag ang panahon ay malupit, halimbawa, ang pangangalap ng totoong data ng kalsada ay maaaring mapanganib o mahirap.

Sariling Kotse sa Pagmamaneho

Ang umasa sa mga live na pagsubok sa mga aktwal na sasakyan sa mga kalsada ay karaniwang hindi magandang ideya dahil napakaraming mga variable na dapat isaalang-alang sa lahat ng iba't ibang sitwasyon sa pagmamaneho.

3. Portability ng Data

Upang maibahagi ang kanilang data ng pagsasanay sa iba, ang mga organisasyon ay nangangailangan ng mapagkakatiwalaan at secure na mga pamamaraan. Ang pagtatago ng personally identifiable information (PII) bago isapubliko ang dataset ay isa pang nakakaintriga na application para sa synthetic na data. Ang pagpapalitan ng mga dataset ng siyentipikong pananaliksik, medikal na data, sosyolohikal na data, at iba pang mga field na maaaring maglaman ng PII, ay tinutukoy bilang sintetikong data na nagpapanatili ng privacy.

4. Katiwasayan

Mas secure ang mga organisasyon dahil sa synthetic na data. Tungkol muli sa aming halimbawa ng pagkilala sa mukha, maaaring pamilyar ka sa pariralang "deep fakes," na naglalarawan ng mga gawa-gawang larawan o video. Ang malalalim na peke ay maaaring gawin ng mga negosyo upang subukan ang kanilang sariling pagkilala sa mukha at mga sistema ng seguridad. Ginagamit din ang synthetic data sa video surveillance para sanayin ang mga modelo nang mas mabilis at sa mas murang halaga.

Synthetic na Data at Machine Learning

Upang makabuo ng matatag at mapagkakatiwalaang modelo, ang mga algorithm ng machine learning ay nangangailangan ng malaking halaga ng data upang maproseso. Sa kawalan ng sintetikong data, ang paggawa ng ganoong kalaking dami ng data ay magiging mahirap.

Sa mga domain tulad ng computer vision o pagpoproseso ng imahe, kung saan ang pagbuo ng mga modelo ay pinadali ng pagbuo ng maagang sintetikong data, maaari itong maging lubhang makabuluhan. Ang isang bagong pag-unlad sa larangan ng pagkilala sa larawan ay ang paggamit ng Generative Adversarial Networks (GANs). Karaniwang binubuo ng dalawang network: isang generator at isang discriminator.

Habang ang network ng discriminator ay naglalayong paghiwalayin ang mga aktwal na larawan mula sa mga pekeng larawan, ang generator network ay gumagana upang makagawa ng mga sintetikong larawan na higit na katulad ng mga larawan sa totoong mundo.

Sa machine learning, ang mga GAN ay isang subset ng pamilya ng neural network, kung saan ang parehong network ay patuloy na natututo at umuunlad sa pamamagitan ng pagdaragdag ng mga bagong node at layer.

Kapag gumagawa ng sintetikong data, mayroon kang opsyon na baguhin ang kapaligiran at uri ng data kung kinakailangan upang mapahusay ang pagganap ng modelo. Bagama't ang katumpakan para sa synthetic na data ay madaling makuha nang may malakas na marka, ang katumpakan para sa may label na real-time na data ay maaaring paminsan-minsan ay napakamahal.

Paano ka makakabuo ng sintetikong data?

Ang mga diskarte na ginamit upang lumikha ng isang sintetikong pagkolekta ng data ay ang mga sumusunod:

Batay sa distribusyon ng istatistika

Ang diskarte na ginamit sa kasong ito ay ang kumuha ng mga numero mula sa pamamahagi o tingnan ang aktwal na istatistikal na distribusyon upang makalikha ng maling data na mukhang maihahambing. Maaaring ganap na wala ang tunay na data sa ilang pagkakataon.

Ang isang data scientist ay maaaring bumuo ng isang dataset na naglalaman ng isang random na sample ng anumang distribusyon kung siya ay may malalim na kaalaman sa istatistikal na pamamahagi sa aktwal na data. Ang normal na distribusyon, exponential distribution, chi-square distribution, lognormal distribution, at higit pa ay ilan lamang sa mga halimbawa ng statistical probability distribution na magagamit para gawin ito.

Ang antas ng karanasan ng data scientist sa sitwasyon ay magkakaroon ng malaking epekto sa katumpakan ng sinanay na modelo.

Depende sa modelo

Ang diskarteng ito ay bubuo ng isang modelo na isinasaalang-alang ang naobserbahang gawi bago gamitin ang modelong iyon upang bumuo ng random na data. Sa esensya, ito ay nagsasangkot ng pag-angkop ng totoong data sa data mula sa isang kilalang distribusyon. Ang Monte Carlo approach ay maaaring gamitin ng mga korporasyon upang lumikha ng pekeng data.

Bilang karagdagan, ang mga distribusyon ay maaari ding ilapat gamit mga modelo ng pag-aaral ng makina tulad ng mga puno ng desisyon. Data siyentipiko dapat bigyang-pansin ang pagtataya, gayunpaman, dahil ang mga puno ng desisyon ay karaniwang nag-overfit dahil sa kanilang pagiging simple at lalim ng pagpapalawak.

Sa malalim na pag-aaral

Malalim na pag-aaral ang mga modelong gumagamit ng Variational Autoencoder (VAE) o Generative Adversarial Network (GAN) na mga modelo ay dalawang paraan para gumawa ng synthetic na data. Kasama sa mga modelo ng hindi sinusubaybayang machine learning ang mga VAE.

Binubuo ang mga ito ng mga encoder, na nagpapaliit at nagpapadikit sa orihinal na data, at mga decoder, na nagsusuri sa data na ito upang magbigay ng representasyon ng totoong data. Ang pagpapanatiling magkapareho ang data ng input at output ay ang pangunahing layunin ng isang VAE. Dalawang magkasalungat na neural network ang mga modelo ng GAN at mga adversarial network.

Ang unang network, na kilala bilang generator network, ay namamahala sa paggawa ng pekeng data. Gumagana ang discriminator network, ang pangalawang network, sa pamamagitan ng paghahambing ng nilikhang sintetikong data sa aktwal na data sa pagsisikap na matukoy kung ang dataset ay mapanlinlang. Inaalertuhan ng discriminator ang generator kapag nakatuklas ito ng bogus na dataset.

Ang sumusunod na batch ng data na ibinigay sa discriminator ay kasunod na binago ng generator. Bilang resulta, nagiging mas mahusay ang discriminator sa paglipas ng panahon sa pagtuklas ng mga huwad na dataset. Ang ganitong uri ng modelo ay madalas na ginagamit sa sektor ng pananalapi para sa pagtuklas ng pandaraya gayundin sa sektor ng pangangalagang pangkalusugan para sa medikal na imaging.

Ang Data Augmentation ay isang ibang paraan na ginagamit ng mga data scientist upang makagawa ng mas maraming data. Hindi ito dapat magkamali sa pekeng data, bagaman. Sa madaling sabi, ang data augmentation ay ang pagkilos ng pagdaragdag ng bagong data sa isang tunay na dataset na mayroon na.

Paglikha ng ilang larawan mula sa isang larawan, halimbawa, sa pamamagitan ng pagsasaayos ng oryentasyon, liwanag, pag-magnify, at higit pa. Minsan, ang aktwal na set ng data ay ginagamit na may natitira lamang na personal na impormasyon. Ang anonymization ng data ay kung ano ito, at ang isang set ng naturang data ay hindi rin dapat ituring bilang sintetikong data.

Mga hamon at limitasyon ng Synthetic na data

Bagama't may iba't ibang benepisyo ang synthetic na data na maaaring makatulong sa mga kumpanya sa mga aktibidad ng data science, mayroon din itong ilang partikular na limitasyon:

Ang pagiging maaasahan ng data: Karaniwang kaalaman na ang bawat modelo ng machine learning/deep learning ay kasing ganda lamang ng data na ipinadala dito. Ang kalidad ng sintetikong data sa kontekstong ito ay lubos na nauugnay sa kalidad ng data ng pag-input at ang modelong ginamit upang makagawa ng data. Mahalagang matiyak na walang mga bias na umiiral sa pinagmulang data, dahil ang mga ito ay napakalinaw na maisasalamin sa sintetikong data. Higit pa rito, bago gumawa ng anumang mga pagtataya, dapat na kumpirmahin at ma-verify ang kalidad ng data.
Nangangailangan ng kaalaman, pagsisikap, at oras: Habang ang paggawa ng sintetikong data ay maaaring maging mas simple at mas mura kaysa sa paggawa ng tunay na data, ito ay nangangailangan ng ilang kaalaman, oras, at pagsisikap.
Nagrereplika ng mga anomalya: Ang perpektong replica ng real-world na data ay hindi posible; matantya lang ito ng sintetikong data. Samakatuwid, ang ilang mga outlier na umiiral sa totoong data ay maaaring hindi saklaw ng sintetikong data. Ang mga anomalya ng data ay mas makabuluhan kaysa sa karaniwang data.
Pagkontrol sa produksyon at pagtiyak ng kalidad: Ang sintetikong data ay inilaan upang kopyahin ang totoong data sa mundo. Nagiging mahalaga ang manual na pag-verify ng data. Mahalagang i-verify ang katumpakan ng data bago ito isama sa machine learning/deep learning na mga modelo para sa mga kumplikadong dataset na awtomatikong ginawa gamit ang mga algorithm.
Feedback ng user: Dahil ang synthetic na data ay isang bagong konsepto, hindi lahat ay magiging handa na maniwala sa mga pagtataya na ginawa gamit ito. Ipinapahiwatig nito na upang mapataas ang pagiging katanggap-tanggap ng user, kailangan munang itaas ang kaalaman sa utility ng synthetic data.

Hinaharap

Ang paggamit ng sintetikong data ay tumaas nang husto sa nakaraang dekada. Bagama't nakakatipid ito ng oras at pera ng mga kumpanya, wala itong mga kakulangan nito. Wala itong mga outlier, na natural na nangyayari sa aktwal na data at kritikal para sa katumpakan sa ilang modelo.

Dapat ding tandaan na ang kalidad ng synthetic na data ay madalas na umaasa sa input data na ginamit para sa paggawa; Ang mga bias sa input data ay maaaring mabilis na kumalat sa sintetikong data, kaya ang pagpili ng mataas na kalidad na data bilang panimulang punto ay hindi dapat palakihin.

Sa wakas, kailangan nito ng karagdagang kontrol sa output, kabilang ang paghahambing ng synthetic na data sa totoong data na may annotated na tao upang ma-verify na hindi ipinakilala ang mga pagkakaiba. Sa kabila ng mga hadlang na ito, ang synthetic na data ay nananatiling isang promising field.

Nakakatulong ito sa amin na lumikha ng mga bagong solusyon sa AI kahit na hindi available ang real-world na data. Higit sa lahat, binibigyang-daan nito ang mga negosyo na bumuo ng mga produkto na mas inklusibo at nagpapahiwatig ng pagkakaiba-iba ng kanilang mga end consumer.

Gayunpaman, sa hinaharap na hinihimok ng data, nilalayon ng synthetic na data na tulungan ang mga data scientist na magsagawa ng mga nobela at malikhaing gawain na mahirap kumpletuhin gamit ang real-world na data lamang.

Konklusyon

Sa ilang partikular na sitwasyon, ang synthetic na data ay maaaring magpagaan ng data deficit o kakulangan ng nauugnay na data sa loob ng isang negosyo o organisasyon. Tiningnan din namin kung aling mga diskarte ang maaaring makatulong sa pagbuo ng synthetic na data at kung sino ang maaaring kumita mula dito.

Nag-usap din kami tungkol sa ilan sa mga paghihirap na dulot ng pagharap sa sintetikong data. Para sa komersyal na paggawa ng desisyon, ang totoong data ay palaging papaboran. Gayunpaman, ang makatotohanang data ay ang susunod na pinakamahusay na opsyon kapag ang naturang totoong raw data ay hindi naa-access para sa pagsusuri.

Gayunpaman, dapat tandaan na upang makagawa ng sintetikong data, kinakailangan ang mga data scientist na may matatag na kaalaman sa pagmomodelo ng data. Mahalaga rin ang masusing pag-unawa sa totoong data at sa paligid nito. Ito ay mahalaga upang matiyak na, kung magagamit, ang ginawang data ay tumpak hangga't magagawa.

Ipinaliwanag ang Synthetic Data – Ang Susunod na Malaking Bagay sa AI, ML at DL

Kaya, ano ang Synthetic Data?