Tabl Cynnwys[Cuddio][Dangos]
Mae rhaglenni dadansoddeg a dysgu peirianyddol uwch yn cael eu gyrru gan ddata, ond gall mynediad at y data hwnnw fod yn anodd i academyddion oherwydd heriau gyda gweithdrefnau preifatrwydd a busnes.
Mae data synthetig, y gellir ei rannu a'i ddefnyddio mewn ffyrdd na all data gwirioneddol, yn gyfeiriad newydd posibl i'w ddilyn. Fodd bynnag, nid oes gan y strategaeth newydd hon beryglon nac anfanteision, felly mae'n hollbwysig bod busnesau'n ystyried yn ofalus ble a sut y maent yn defnyddio eu hadnoddau.
Yn oes bresennol AI, gallwn hefyd nodi mai data yw'r olew newydd, ond dim ond ychydig ddethol sy'n eistedd ar gusher. Felly, mae llawer o bobl yn cynhyrchu eu tanwydd eu hunain, sy'n fforddiadwy ac yn effeithlon. Fe'i gelwir yn ddata synthetig.
Yn y swydd hon, byddwn yn edrych yn fanwl ar ddata synthetig - pam y dylech ei ddefnyddio, sut i'w gynhyrchu, beth sy'n ei wneud yn wahanol i ddata gwirioneddol, pa achosion defnydd y gall eu gwasanaethu, a llawer mwy.
Felly, beth yw Data Synthetig?
Pan fo setiau data dilys yn annigonol o ran ansawdd, nifer, neu amrywiaeth, gellir defnyddio data synthetig i hyfforddi modelau AI yn lle data hanesyddol go iawn.
Pan nad yw data presennol yn bodloni gofynion busnes neu fod ganddo risgiau preifatrwydd pan gaiff ei ddefnyddio i ddatblygu dysgu peiriant modelau, meddalwedd prawf, neu debyg, gall data synthetig fod yn arf arwyddocaol ar gyfer ymdrechion AI corfforaethol.
Yn syml, mae data synthetig yn cael ei ddefnyddio'n aml yn lle data gwirioneddol. Yn fwy manwl gywir, mae'n ddata sydd wedi'i dagio'n artiffisial a'i gynhyrchu gan efelychiadau neu algorithmau cyfrifiadurol.
Mae data synthetig yn wybodaeth sydd wedi'i chreu gan raglen gyfrifiadurol yn artiffisial yn hytrach nag o ganlyniad i ddigwyddiadau gwirioneddol. Gall cwmnïau ychwanegu data synthetig at eu data hyfforddi i gwmpasu pob sefyllfa defnydd ac ymyl, lleihau cost casglu data, neu fodloni rheoliadau preifatrwydd.
Mae data artiffisial bellach yn fwy hygyrch nag erioed diolch i welliannau mewn pŵer prosesu a dulliau storio data fel y cwmwl. Mae data synthetig yn gwella'r broses o greu datrysiadau AI sy'n fwy buddiol i bob defnyddiwr terfynol, ac mae hynny'n ddiamau yn ddatblygiad da.
Pa mor bwysig yw data synthetig a pham y dylech ei ddefnyddio?
Wrth hyfforddi modelau AI, mae datblygwyr yn aml angen setiau data enfawr gyda labelu manwl gywir. Pan gaiff ei addysgu gyda data mwy amrywiol, rhwydweithiau nefol perfformio'n fwy cywir.
Fodd bynnag, gall casglu a labelu'r setiau data enfawr hyn sy'n cynnwys cannoedd neu hyd yn oed filiynau o eitemau gymryd llawer o amser ac arian yn afresymol. Gellir lleihau pris cynhyrchu data hyfforddi yn fawr trwy ddefnyddio data synthetig. Er enghraifft, os caiff ei chreu'n artiffisial, delwedd hyfforddi sy'n costio $5 pan gaiff ei phrynu o a darparwr labelu data efallai dim ond costio $0.05.
Gall data synthetig liniaru pryderon preifatrwydd sy'n ymwneud â data a allai fod yn sensitif a gynhyrchir o'r byd go iawn tra hefyd yn lleihau costau.
O'i gymharu â data dilys, na allai adlewyrchu'n union y sbectrwm cyfan o ffeithiau am y byd go iawn, gallai helpu i leihau rhagfarn. Trwy ddarparu digwyddiadau anarferol sy'n cynrychioli posibiliadau credadwy ond a allai fod yn heriol eu cael o ddata dilys, gall data synthetig gynnig mwy o amrywiaeth.
Gallai data synthetig fod yn ffit wych ar gyfer eich prosiect am y rhesymau a restrir isod:
1. Cadernid y model
Heb orfod ei gaffael, cyrchwch ddata mwy amrywiol ar gyfer eich modelau. Gyda data synthetig, gallwch hyfforddi'ch model gan ddefnyddio amrywiadau o'r un person â gwahanol doriadau gwallt, gwallt wyneb, sbectol, ystumiau pen, ac ati, yn ogystal â thôn croen, nodweddion ethnig, strwythur esgyrn, brychni haul, a nodweddion eraill i gynhyrchu unigryw. yn ei wynebu ac yn ei gryfhau.
2. Mae achosion ymyl yn cael eu hystyried
A cytbwys Mae dysgu peirianyddol yn ffafrio set ddata algorithmau. Meddyliwch yn ôl at ein hesiampl o adnabod wynebau. Byddai cywirdeb eu modelau wedi gwella (ac mewn gwirionedd, dim ond hyn a wnaeth rhai o’r busnesau hyn), a byddent wedi cynhyrchu model mwy moesol pe baent wedi cynhyrchu data synthetig o wynebau â chroen tywyllach i lenwi eu bylchau data. Gall timau ymdrin â phob achos defnydd, gan gynnwys achosion ymylol lle mae data'n brin neu ddim yn bodoli, gyda chymorth data synthetig.
3. Gellir ei gael yn gyflymach na data “gwirioneddol”.
Mae timau'n gallu cynhyrchu llawer iawn o ddata synthetig yn gyflym. Mae hyn yn arbennig o ddefnyddiol pan fydd y data bywyd go iawn yn dibynnu ar ddigwyddiadau achlysurol. Gall timau ei chael yn anodd cael digon o ddata byd go iawn ar amodau ffyrdd difrifol wrth gasglu data ar gyfer car sy'n gyrru ei hun, er enghraifft, oherwydd eu prinder. Er mwyn cyflymu'r broses anodi lafurus, gall gwyddonwyr data osod algorithmau i labelu'r data synthetig yn awtomatig wrth iddo gael ei gynhyrchu.
4. Mae'n sicrhau gwybodaeth preifatrwydd defnyddwyr
Gall cwmnïau gael anawsterau diogelwch wrth drin data sensitif, yn dibynnu ar y busnes a'r math o ddata. Mae gwybodaeth iechyd personol (PHI), er enghraifft, yn cael ei chynnwys yn aml mewn data cleifion mewnol yn y diwydiant gofal iechyd a rhaid ei thrin yn gwbl ddiogel.
Gan nad yw data synthetig yn cynnwys gwybodaeth am bobl wirioneddol, mae materion preifatrwydd yn cael eu lleihau. Ystyriwch ddefnyddio data synthetig fel dewis arall os oes rhaid i'ch tîm gadw at rai cyfreithiau preifatrwydd data penodol.
Data go iawn Vs Data Synthetig
Yn y byd go iawn, mae data go iawn yn cael ei gasglu neu ei fesur. Pan fydd rhywun yn defnyddio ffôn clyfar, gliniadur, neu gyfrifiadur, yn gwisgo oriawr arddwrn, yn cyrchu gwefan, neu'n gwneud trafodion ar-lein, mae'r math hwn o ddata yn cael ei gynhyrchu ar unwaith.
Yn ogystal, gellir defnyddio arolygon i ddarparu data dilys (ar-lein ac all-lein). Mae gosodiadau digidol yn cynhyrchu data synthetig. Ac eithrio'r gyfran nad oedd yn deillio o unrhyw ddigwyddiadau yn y byd go iawn, mae data synthetig yn cael ei greu mewn ffordd sy'n dynwared y data gwirioneddol yn llwyddiannus o ran rhinweddau sylfaenol.
Mae'r syniad o ddefnyddio data synthetig yn lle data gwirioneddol yn addawol iawn gan y gellir ei ddefnyddio i ddarparu'r data hyfforddi sy'n dysgu peirianyddol modelau angen. Ond nid yw'n sicr hynny deallusrwydd artiffisial yn gallu datrys pob mater sy'n codi yn y byd go iawn.
Defnyddio achosion
Mae data synthetig yn ddefnyddiol ar gyfer amrywiaeth o ddibenion masnachol, gan gynnwys hyfforddiant model, dilysu modelau, a phrofi cynhyrchion newydd. Byddwn yn rhestru rhai o'r sectorau sydd wedi arwain y ffordd wrth ei gymhwyso i ddysgu peirianyddol:
1. Gofal Iechyd
O ystyried sensitifrwydd ei ddata, mae'r sector gofal iechyd yn addas iawn ar gyfer defnyddio data synthetig. Gall timau ddefnyddio data synthetig i gofnodi ffisiolegau pob math o glaf a allai fodoli, gan gynorthwyo i wneud diagnosis cyflymach a mwy cywir o salwch.
Mae model canfod melanoma Google yn enghraifft ddiddorol o hyn gan ei fod yn ymgorffori data synthetig o bobl â thonau croen tywyllach (maes o ddata clinigol sy'n anffodus wedi'i dangynrychioli) i roi'r gallu i'r model weithredu'n effeithiol ar gyfer pob math o groen.
2. Automobiles
Defnyddir efelychwyr yn aml gan gwmnïau sy'n creu ceir hunan-yrru i werthuso perfformiad. Pan fo'r tywydd yn arw, er enghraifft, gallai casglu data ffyrdd gwirioneddol fod yn beryglus neu'n anodd.
Yn gyffredinol nid yw dibynnu ar brofion byw gyda cherbydau modur go iawn ar y ffyrdd yn syniad da gan fod gormod o newidynnau i'w hystyried ym mhob un o'r gwahanol sefyllfaoedd gyrru.
3. Cludadwyedd Data
Er mwyn gallu rhannu eu data hyfforddi ag eraill, mae sefydliadau angen dulliau dibynadwy a diogel. Mae cuddio gwybodaeth bersonol adnabyddadwy (PII) cyn gwneud y set ddata yn gyhoeddus yn gymhwysiad diddorol arall ar gyfer data synthetig. Cyfeirir at gyfnewid setiau data ymchwil wyddonol, data meddygol, data cymdeithasegol, a meysydd eraill a allai gynnwys PII, fel data synthetig sy'n cadw preifatrwydd.
4. Diogelwch
Mae sefydliadau'n fwy diogel diolch i ddata synthetig. O ran ein hesiampl adnabod wynebau eto, efallai eich bod chi'n gyfarwydd â'r ymadrodd “fakes deep,” sy'n disgrifio lluniau neu fideos ffug. Gall busnesau gynhyrchu ffugiau dwfn i brofi eu systemau adnabod wynebau a diogelwch eu hunain. Defnyddir data synthetig hefyd mewn gwyliadwriaeth fideo i hyfforddi modelau yn gyflymach ac am gost rhatach.
Data Synthetig a Dysgu Peiriannau
Er mwyn adeiladu model cadarn a dibynadwy, mae angen llawer iawn o ddata ar algorithmau dysgu peirianyddol i'w prosesu. Yn absenoldeb data synthetig, byddai cynhyrchu swm mor fawr o ddata yn heriol.
Mewn meysydd fel gweledigaeth gyfrifiadurol neu brosesu delweddau, lle mae datblygiad modelau yn cael ei hwyluso gan ddatblygiad data synthetig cynnar, gall fod yn hynod arwyddocaol. Datblygiad newydd ym maes adnabod lluniau yw'r defnydd o Rwydweithiau Gwrthwynebol Cynhyrchiol (GANs). Fel arfer mae'n cynnwys dau rwydwaith: generadur a gwahaniaethwr.
Er bod y rhwydwaith gwahaniaethwyr yn anelu at wahanu'r lluniau gwirioneddol oddi wrth y rhai ffug, mae'r rhwydwaith generaduron yn gweithredu i gynhyrchu delweddau synthetig sy'n llawer mwy tebyg i ddelweddau'r byd go iawn.
Mewn dysgu peirianyddol, mae GANs yn is-set o'r teulu rhwydwaith niwral, lle mae'r ddau rwydwaith yn dysgu ac yn datblygu'n barhaus trwy ychwanegu nodau a haenau newydd.
Wrth greu data synthetig, mae gennych yr opsiwn i newid yr amgylchedd a'r math o ddata yn ôl yr angen i wella perfformiad y model. Er y gellir cyrraedd cywirdeb ar gyfer data synthetig yn hawdd gyda sgôr gref, gall cywirdeb ar gyfer data amser real wedi'i labelu fod yn ddrud iawn weithiau.
Sut allwch chi gynhyrchu data synthetig?
Mae’r dulliau a ddefnyddiwyd i greu casgliad data synthetig fel a ganlyn:
Yn seiliedig ar y dosbarthiad ystadegol
Y strategaeth a ddefnyddir yn yr achos hwn yw cymryd rhifau o ddosbarthiad neu edrych ar ddosraniadau ystadegol gwirioneddol er mwyn creu data ffug sy'n edrych yn gymaradwy. Gall data go iawn fod yn gwbl absennol o dan rai amgylchiadau.
Gall gwyddonydd data gynhyrchu set ddata sy'n cynnwys sampl ar hap o unrhyw ddosraniad os oes ganddo afael ddofn ar y dosraniad ystadegol mewn data gwirioneddol. Mae'r dosbarthiad arferol, dosbarthiad esbonyddol, dosraniad chi-sgwâr, dosbarthiad lognormal, a mwy yn ddim ond ychydig o enghreifftiau o ddosraniadau tebygolrwydd ystadegol y gellir eu defnyddio i wneud hyn.
Bydd lefel profiad y gwyddonydd data gyda'r sefyllfa yn cael effaith sylweddol ar gywirdeb y model hyfforddedig.
Yn dibynnu ar y model
Mae'r dechneg hon yn adeiladu model sy'n cyfrif am ymddygiad a arsylwyd cyn defnyddio'r model hwnnw i gynhyrchu data ar hap. Yn ei hanfod, mae hyn yn golygu gosod data go iawn i ddata o ddosbarthiad hysbys. Yna gall corfforaethau ddefnyddio dull Monte Carlo i greu data ffug.
Yn ogystal, gellir gosod dosbarthiadau hefyd gan ddefnyddio modelau dysgu peiriannau fel coed penderfyniad. Gwyddonwyr data rhaid rhoi sylw i'r rhagolwg, serch hynny, gan fod coed penderfynu fel arfer yn gorffitio oherwydd eu symlrwydd a'u dyfnder.
Gyda dysgu dwfn
Dysgu dwfn mae modelau sy'n defnyddio modelau Amrywiolyn Awto-godiwr (VAE) neu Rwydwaith Gwrthwynebol Cynhyrchiol (GAN) yn ddwy ffordd o greu data synthetig. Mae modelau dysgu peirianyddol heb oruchwyliaeth yn cynnwys VAEs.
Maent yn cynnwys amgodyddion, sy'n crebachu ac yn cywasgu'r data gwreiddiol, a datgodyddion, sy'n craffu ar y data hwn i ddarparu cynrychiolaeth o'r data go iawn. Cadw data mewnbwn ac allbwn mor union yr un fath â phosibl yw amcan sylfaenol VAE. Dau rwydwaith niwral gwrthwynebol yw modelau GAN a rhwydweithiau gwrthwynebus.
Mae'r rhwydwaith cyntaf, a elwir yn rhwydwaith generadur, yn gyfrifol am gynhyrchu data ffug. Mae'r rhwydwaith gwahaniaethwyr, yr ail rwydwaith, yn gweithio trwy gymharu data synthetig a grëwyd â data gwirioneddol mewn ymdrech i nodi a yw'r set ddata yn dwyllodrus. Mae'r gwahaniaethwr yn rhybuddio'r generadur pan fydd yn darganfod set ddata ffug.
Mae'r swp canlynol o ddata a ddarperir i'r gwahaniaethwr yn cael ei addasu wedyn gan y generadur. O ganlyniad, mae'r gwahaniaethwr yn gwella dros amser wrth weld setiau data ffug. Defnyddir y math hwn o fodel yn aml yn y sector ariannol ar gyfer canfod twyll yn ogystal ag yn y sector gofal iechyd ar gyfer delweddu meddygol.
Mae Cynyddu Data yn ddull gwahanol y mae gwyddonwyr data yn ei ddefnyddio i gynhyrchu mwy o ddata. Fodd bynnag, ni ddylid ei gamgymryd â data ffug. Wedi'i ddweud yn syml, ychwanegu data yw'r weithred o ychwanegu data newydd at set ddata wirioneddol sy'n bodoli eisoes.
Creu sawl llun o un ddelwedd, er enghraifft, trwy addasu'r cyfeiriadedd, y disgleirdeb, y chwyddhad, a mwy. Weithiau, defnyddir y set ddata wirioneddol gyda dim ond y wybodaeth bersonol ar ôl. Dienw data yw beth yw hyn, ac yn yr un modd ni ddylid ystyried set o ddata o'r fath yn ddata synthetig.
Heriau a chyfyngiadau data Synthetig
Er bod gan ddata synthetig fanteision amrywiol a all gynorthwyo cwmnïau gyda gweithgareddau gwyddor data, mae ganddo hefyd rai cyfyngiadau:
- Dibynadwyedd y data: Mae'n hysbys bod pob model dysgu peirianyddol/dysgu dwfn cystal â'r data sy'n cael ei fwydo iddo. Mae cysylltiad cryf rhwng ansawdd data synthetig yn y cyd-destun hwn ac ansawdd y data mewnbwn a’r model a ddefnyddir i gynhyrchu’r data. Mae'n hanfodol sicrhau nad oes unrhyw ragfarnau yn bodoli yn y data ffynhonnell, gan y gellir adlewyrchu'r rhain yn glir iawn yn y data synthetig. Hefyd, cyn gwneud unrhyw ragolygon, dylid cadarnhau a gwirio ansawdd y data.
- Mae angen gwybodaeth, ymdrech ac amser: Er y gallai creu data synthetig fod yn symlach ac yn rhatach na chreu data dilys, mae angen rhywfaint o wybodaeth, amser ac ymdrech.
- Anomaleddau atgynhyrchu: Nid yw'r atgynhyrchiad perffaith o ddata'r byd go iawn yn bosibl; dim ond brasamcan y gall data synthetig ei wneud. Felly, efallai na fydd rhai allgleifion sy’n bodoli mewn data real wedi’u cwmpasu gan ddata synthetig. Mae anomaleddau data yn fwy arwyddocaol na data arferol.
- Rheoli'r cynhyrchiad a sicrhau ansawdd: Bwriad data synthetig yw atgynhyrchu data byd go iawn. Daw dilysu data â llaw yn hanfodol. Mae'n hanfodol gwirio cywirdeb y data cyn ei ymgorffori mewn modelau dysgu peirianyddol/dysgu dwfn ar gyfer setiau data cymhleth sy'n cael eu creu gan ddefnyddio algorithmau yn awtomatig.
- Adborth defnyddwyr: Gan fod data synthetig yn gysyniad newydd, ni fydd pawb yn barod i gredu'r rhagolygon a wneir gydag ef. Mae hyn yn dangos, er mwyn cynyddu derbynioldeb defnyddwyr, yn gyntaf mae angen cynyddu gwybodaeth am ddefnyddioldeb data synthetig.
Dyfodol
Mae'r defnydd o ddata synthetig wedi cynyddu'n aruthrol yn y degawd blaenorol. Er ei fod yn arbed amser ac arian i gwmnïau, nid yw heb ei anfanteision. Nid oes ganddo allgleifion, sy'n digwydd yn naturiol mewn data gwirioneddol ac sy'n hanfodol ar gyfer cywirdeb mewn rhai modelau.
Mae hefyd yn werth nodi bod ansawdd y data synthetig yn aml yn dibynnu ar y data mewnbwn a ddefnyddir ar gyfer creu; gall rhagfarnau yn y data mewnbwn ledaenu'n gyflym i'r data synthetig, felly ni ddylid gorbwysleisio dewis data o ansawdd uchel fel man cychwyn.
Yn olaf, mae angen mwy o reolaeth allbwn, gan gynnwys cymharu'r data synthetig â data real anodedig dynol i wirio na chyflwynir anghysondebau. Er gwaethaf y rhwystrau hyn, mae data synthetig yn parhau i fod yn faes addawol.
Mae'n ein helpu i greu datrysiadau AI newydd hyd yn oed pan nad yw data'r byd go iawn ar gael. Yn fwyaf arwyddocaol, mae'n galluogi mentrau i adeiladu cynhyrchion sy'n fwy cynhwysol ac yn arwydd o amrywiaeth eu defnyddwyr terfynol.
Yn y dyfodol sy'n cael ei yrru gan ddata, fodd bynnag, mae data synthetig yn bwriadu helpu'r gwyddonwyr data i gyflawni tasgau newydd a chreadigol a fyddai'n heriol i'w cwblhau gyda data'r byd go iawn yn unig.
Casgliad
Mewn rhai achosion, gall data synthetig liniaru diffyg data neu ddiffyg data perthnasol o fewn busnes neu sefydliad. Edrychwyd hefyd ar ba strategaethau a all helpu i gynhyrchu data synthetig a phwy all elwa ohono.
Buom hefyd yn siarad am rai o’r anawsterau a ddaw yn sgil ymdrin â data synthetig. Ar gyfer gwneud penderfyniadau masnachol, bydd data go iawn bob amser yn cael ei ffafrio. Fodd bynnag, data realistig yw'r opsiwn gorau nesaf pan nad yw data crai o'r fath yn hygyrch i'w ddadansoddi.
Fodd bynnag, rhaid cofio, er mwyn cynhyrchu data synthetig, bod angen gwyddonwyr data sydd â gafael gadarn ar fodelu data. Mae dealltwriaeth drylwyr o'r data go iawn a'r hyn sydd o'i amgylch hefyd yn hanfodol. Mae hyn yn hanfodol er mwyn sicrhau, os yw ar gael, bod y data a gynhyrchir mor gywir â phosibl.
Gadael ymateb