Kaundan[Itago][Ipakita]
Ang mga tigdukiduki ug data scientist kasagaran makasugat og mga kahimtang diin sila walay aktuwal nga datos o dili makagamit niini tungod sa confidentiality o privacy nga mga konsiderasyon.
Aron matubag kini nga isyu, ang paghimo sa sintetikong datos gigamit aron makahimo usa ka kapuli sa tinuud nga datos.
Ang angay nga pag-ilis sa tinuod nga datos gikinahanglan aron ang algorithm mahimo nga husto, nga kinahanglan usab nga realistiko sa kinaiya. Mahimo nimong gamiton ang ingon nga datos alang sa pagpadayon sa pribasiya, mga sistema sa pagsulay, o paghimo og datos sa pagbansay alang sa mga algorithm sa pagkat-on sa makina.
Atong susihon sa detalye ang paghimo sa sintetikong datos ug tan-awon kung ngano nga kini hinungdanon sa edad sa AI.
Unsa ang Synthetic Data?
Ang sintetikong datos kay annotated data nga namugna sa computer simulation o algorithms isip puli sa tinuod nga kalibutan nga datos. Kini usa ka replika nga hinimo sa artipisyal nga paniktik sa aktwal nga datos.
Ang usa mahimong mogamit sa mga pattern sa datos ug mga dimensyon gamit ang mga advanced AI algorithm. Makahimo sila og walay kinutuban nga gidaghanon sa sintetikong datos nga estatistika nga nagrepresentar sa orihinal nga datos sa pagbansay sa higayon nga sila nabansay na.
Adunay lainlaing mga pamaagi ug teknolohiya nga makatabang kanamo sa paghimo og sintetikong datos ug magamit nimo sa lainlaing mga aplikasyon.
Ang software sa paghimo sa datos kanunay nanginahanglan:
- Metadata sa usa ka data repository, diin ang sintetikong datos kinahanglang himoon.
- Teknik sa pagmugna og katuohan apan dili tinuod nga mga mithi. Ang mga pananglitan naglakip sa mga lista sa bili ug regular nga mga ekspresyon.
- Ang komprehensibo nga kahibalo sa tanan nga mga relasyon sa datos, kadtong gipahayag sa lebel sa database ingon man ang mga kontrolado sa lebel sa code sa aplikasyon.
Parehas nga gikinahanglan ang pag-validate sa modelo ug itandi ang mga aspeto sa pamatasan sa tinuud nga datos sa mga nahimo sa modelo.
Kining tinumotumo nga mga dataset adunay tanang bili sa tinuod nga butang, apan walay bisan usa sa sensitibo nga datos. Kini sama sa usa ka lamian, walay kaloriya nga cake. Kini tukma nga naghulagway sa aktuwal nga kalibutan.
Ingon usa ka sangputanan, magamit nimo kini aron mapulihan ang tinuod nga datos sa kalibutan.
Kamahinungdanon sa Synthetic Data
Ang sintetikong datos adunay mga kinaiya nga mohaum sa pipila ka mga panginahanglan o mga sitwasyon nga dili magamit sa tinuod nga kalibutan nga datos. Kung adunay kakulang sa datos alang sa pagsulay o kung ang pagkapribado usa ka panguna nga konsiderasyon, kini moabut sa pagluwas.
Ang mga datos nga namugna sa AI mapaangay, luwas, ug dali nga tipigan, ibaylo, ug ilabay. Ang teknik sa pag-synthesis sa datos angay alang sa pag-subset ug pagpaayo sa orihinal nga datos.
Ingon usa ka sangputanan, kini sulundon nga gamiton ingon data sa pagsulay ug datos sa pagbansay sa AI.
- Aron sa pagtudlo sa ML-based Uber ug Tesla nga nagmaneho sa kaugalingon nga mga awto.
- Sa industriya sa medikal ug pag-atiman sa panglawas, aron masusi ang piho nga mga sakit ug mga kahimtang diin wala ang tinuud nga datos.
- Ang pagtuki ug pagpanalipod sa pagpanglimbong hinungdanon sa sektor sa panalapi. Pinaagi sa paggamit niini, mahimo nimong imbestigahan ang mga bag-ong kaso sa pagpanglimbong.
- Gibansay sa Amazon ang sistema sa pinulongan ni Alexa gamit ang sintetikong datos.
- Gigamit sa American Express ang sintetikong datos sa panalapi aron mapaayo ang pagkakita sa pagpanglimbong.
Mga Matang sa Sintetikong Data
Ang sintetikong datos gihimo nga sulagma sa tuyo nga itago ang sensitibong pribadong impormasyon samtang gitipigan ang estadistika nga impormasyon bahin sa mga kinaiya sa orihinal nga datos.
Kini kasagaran sa tulo ka matang:
- Bug-os nga sintetikong datos
- Partially synthetic data
- Hybrid nga sintetikong datos
1. Bug-os nga Synthetic Data
Kini nga datos bug-os nga nahimo ug walay orihinal nga datos.
Kasagaran, ang data generator alang sa kini nga klase makaila sa mga function sa density sa mga bahin sa tinuud nga datos ug gibanabana ang ilang mga parameter. Sa ulahi, gikan sa gitagna nga mga function sa density, ang serye nga gipanalipdan sa pagkapribado gihimo nga random alang sa matag bahin.
Kung pipila lang ka mga kinaiya sa aktuwal nga datos ang pilion nga pulihan niini, ang giprotektahan nga serye niini nga mga bahin gimapa ngadto sa nahabilin nga mga bahin sa tinuod nga datos aron sa pagranggo sa giprotektahan ug tinuod nga serye sa samang han-ay.
Ang mga teknik sa bootstrap ug daghang mga imputasyon maoy duha ka tradisyonal nga mga pamaagi para sa paghimo sa hingpit nga sintetikong datos.
Tungod kay ang datos hingpit nga sintetiko ug wala’y tinuod nga datos nga naglungtad, kini nga estratehiya naghatag maayo kaayo nga proteksyon sa pagkapribado nga adunay pagsalig sa kamatuoran sa datos.
2. Partially Synthetic Data
Kini nga data naggamit lamang ug sintetikong mga bili aron ilisan ang mga bili sa pipila ka sensitibong bahin.
Niini nga sitwasyon, ang tinuod nga mga bili mausab lamang kung adunay dakong kapeligrohan sa pagkaladlad. Kini nga pagbag-o gihimo aron mapanalipdan ang pribasiya sa bag-ong nahimo nga datos.
Daghang imputation ug mga pamaagi nga nakabase sa modelo ang gigamit aron makahimo og partially synthetic nga datos. Kini nga mga pamaagi mahimo usab nga gamiton aron pun-on ang nawala nga mga kantidad sa datos sa tinuod nga kalibutan.
3. Hybrid Synthetic Data
Ang hybrid nga sintetikong datos naglakip sa aktuwal ug peke nga datos.
Ang usa ka duol nga rekord niini gipili alang sa matag random nga rekord sa tinuod nga datos, ug ang duha gidugtong aron makamugna og hybrid nga datos. Kini adunay mga benepisyo sa parehas nga hingpit nga sintetiko ug partially synthetic nga datos.
Busa nagtanyag kini lig-on nga pagpreserbar sa pribasiya nga adunay taas nga gamit kung itandi sa lain nga duha, apan sa gasto sa dugang nga memorya ug oras sa pagproseso.
Mga teknik sa Synthetic Data Generation
Sulod sa daghang mga tuig, ang konsepto sa datos nga hinimo sa makina nahimong popular. Karon nagkahinog na.
Ania ang pipila sa mga teknik nga gigamit sa pagmugna og sintetikong datos:
1. Base sa distribution
Sa kaso nga walay tinuod nga data anaa, apan ang data analyst adunay usa ka bug-os nga ideya kon sa unsang paagi ang pag-apod-apod sa dataset makita; makahimo sila og random sample sa bisan unsang distribution, lakip ang Normal, Exponential, Chi-square, t, lognormal, ug Uniform.
Ang kantidad sa sintetikong datos sa kini nga pamaagi magkalainlain depende sa lebel sa pagsabut sa analista bahin sa usa ka piho nga palibot sa datos.
2. Tinuod nga kalibutan nga datos sa nahibal-an nga pag-apod-apod
Ang mga negosyo makahimo niini pinaagi sa pag-ila sa pinakamaayo nga mga pag-apod-apod alang sa gihatag nga tinuod nga datos kung adunay tinuod nga datos.
Mahimong gamiton sa mga negosyo ang pamaagi sa Monte Carlo aron mahimo kini kung gusto nila nga ipahiangay ang tinuud nga datos sa usa ka nahibal-an nga pag-apod-apod ug mahibal-an ang mga parameter sa pag-apod-apod.
Bisan kung ang pamaagi sa Monte Carlo makatabang sa mga negosyo sa pagpangita sa labing kadaghan nga dula nga magamit, ang labing kaayo nga angay mahimo’g dili igo nga gamit alang sa mga panginahanglanon sa sintetikong datos sa kompanya.
Mahimong tukion sa mga negosyo ang paggamit sa mga modelo sa pagkat-on sa makina aron mohaum sa mga pag-apod-apod sa kini nga mga kahimtang.
Ang mga teknik sa pagkat-on sa makina, sama sa mga punoan sa desisyon, makapahimo sa mga organisasyon sa pagmodelo sa dili klasikal nga mga pag-apod-apod, nga mahimo’g multi-modal ug kulang sa kasagaran nga mga kabtangan sa giila nga mga pag-apod-apod.
Ang mga negosyo mahimo’g maghimo og sintetikong datos nga nagkonektar sa tinuud nga datos gamit kini nga pag-apod-apod nga gipaangay sa pagkat-on sa makina.
Apan, mga modelo sa pagkat-on sa makina delikado sa overfitting, nga maoy hinungdan nga mapakyas sila sa pagpares sa bag-ong datos o pagtagna sa umaabot nga mga obserbasyon.
3. Lawom nga Pagkat-on
Ang lawom nga generative nga mga modelo sama sa Variational Autoencoder (VAE) ug ang Generative Adversarial Network (GAN) makahimo og sintetikong datos.
Variational Autoencoder
Ang VAE usa ka dili bantayan nga pamaagi diin ang encoder nag-compress sa orihinal nga dataset ug nagpadala sa datos sa decoder.
Ang decoder unya nagpatunghag output nga representasyon sa orihinal nga dataset.
Ang pagtudlo sa sistema naglakip sa pagpa-maximize sa correlation tali sa input ug output data.
Generative Adversarial Network
Ang modelo sa GAN padayon nga nagbansay sa modelo gamit ang duha ka network, ang generator, ug ang discriminator.
Ang generator nagmugna og usa ka sintetikong dataset gikan sa usa ka set sa random sample data.
Ang Discriminator nagtandi sa sintetikong gibuhat nga datos ngadto sa tinuod nga dataset gamit ang gitakda nang daan nga mga kondisyon.
Sintetikong Data Provider
Gipatik nga Data
Ang mga plataporma nga gihisgutan sa ubos naghatag og sintetikong datos nga nakuha gikan sa tabular data.
Gikopya niini ang tinuod nga kalibutan nga datos nga gitipigan sa mga lamesa ug mahimong gamiton alang sa pamatasan, matagnaon, o transaksyonal nga pagtuki.
- Ibutang ang AI: Kini usa ka tighatag sa usa ka sintetikong sistema sa paghimo sa datos nga naggamit sa Generative Adversarial Networks ug differential privacy.
- Betterdata: Kini usa ka tighatag sa usa ka nagpreserbar sa pribasiya nga sintetikong solusyon sa datos alang sa AI, pagpaambit sa datos, ug pagpalambo sa produkto.
- Divepale: Kini ang tighatag sa Geminai, usa ka sistema sa paghimo og 'kambal' nga mga dataset nga adunay parehas nga istatistikal nga bahin sa orihinal nga datos.
Dili Natukod nga Data
Ang mga plataporma nga gihisgutan sa ubos naglihok uban ang wala ma-istruktura nga datos, nga naghatag og sintetikong datos nga mga butang ug mga serbisyo alang sa pagbansay sa panan-awon ug mga algorithm sa reconnaissance.
- Datagen: Naghatag kini og 3D simulated training data alang sa Visual AI learning and development.
- Mga Neurolab: Ang Neurolabs usa ka tighatag sa usa ka computer vision synthetic data platform.
- Parallel nga domain: Kini usa ka tighatag sa usa ka sintetikong plataporma sa datos alang sa pagbansay sa sistema sa awtonomiya ug mga kaso sa paggamit sa pagsulay.
- Cognata: Kini usa ka simulation supplier alang sa ADAS ug autonomous nga mga developer sa sakyanan.
- Bifrost: Naghatag kini og mga sintetikong data API alang sa paghimo og 3D nga palibot.
mga hagit
Kini adunay taas nga kasaysayan sa Artipisyal nga Intelligence, ug samtang kini adunay daghang mga bentaha, kini usab adunay hinungdanon nga mga kakulian nga kinahanglan nimong sulbaron samtang nagtrabaho uban ang sintetikong datos.
Ania ang pipila sa kanila:
- Daghang mga sayup ang mahimo didto samtang gikopya ang pagkakomplikado gikan sa aktwal nga datos hangtod sa sintetikong datos.
- Ang malleable nga kinaiya niini motultol sa mga pagpihig sa kinaiya niini.
- Mahimong adunay pipila ka mga tinago nga mga sayup sa paghimo sa mga algorithm nga gibansay gamit ang gipasimple nga mga representasyon sa sintetikong datos nga bag-o lang mitumaw samtang nag-atubang sa aktwal nga datos.
- Ang pagkopya sa tanang may kalabutan nga mga hiyas gikan sa tinuod nga kalibutan nga datos mahimong mahimong komplikado. Posible usab nga ang pipila ka hinungdanon nga mga aspeto mahimong mataligam-an sa kini nga operasyon.
Panapos
Ang paghimo sa sintetikong datos klaro nga nakapukaw sa atensyon sa mga tawo.
Kini nga pamaagi mahimong dili usa ka gidak-on nga mohaum sa tanan nga tubag alang sa tanan nga mga kaso sa paghimo og datos.
Gawas pa, ang teknik mahimong magkinahanglan og paniktik pinaagi sa AI / ML ug makahimo sa pagdumala sa tinuod nga kalibutan nga komplikado nga mga sitwasyon sa paghimo sa inter-related nga datos, labing maayo nga datos nga angay sa usa ka domain.
Bisan pa, kini usa ka bag-ong teknolohiya nga nagpuno sa usa ka kal-ang diin ang ubang mga teknolohiya nga makapaarang sa pagkapribado nahulog.
Karon, sintetiko Ang paghimo sa datos mahimo’g kinahanglan ang panagsama sa pagtago sa datos.
Sa umaabot, mahimong adunay mas dako nga panagtapok tali sa duha, nga moresulta sa usa ka mas komprehensibo nga data-generating nga solusyon.
Ipakigbahin ang imong mga panan-aw sa mga komento!
Leave sa usa ka Reply