Tabl Cynnwys[Cuddio][Dangos]
Mae ymchwilwyr a gwyddonwyr data yn aml yn dod ar draws amgylchiadau lle nad oes ganddynt y data gwirioneddol neu na allant ei ddefnyddio oherwydd ystyriaethau cyfrinachedd neu breifatrwydd.
Er mwyn mynd i'r afael â'r mater hwn, defnyddir cynhyrchu data synthetig i ddisodli data dilys.
Mae angen disodli data dilys yn briodol er mwyn i'r algorithm berfformio'n iawn, a ddylai hefyd fod yn realistig o ran cymeriad. Gallwch ddefnyddio data o'r fath ar gyfer cynnal preifatrwydd, profi systemau, neu gynhyrchu data hyfforddi ar gyfer algorithmau dysgu peirianyddol.
Gadewch i ni archwilio cynhyrchu data synthetig yn fanwl a gweld pam eu bod yn hanfodol yn oes AI.
Beth yw Data Synthetig?
Mae data synthetig yn ddata anodedig a gynhyrchir gan efelychiadau cyfrifiadurol neu algorithmau yn lle data byd go iawn. Mae'n atgynhyrchiad o ddata gwirioneddol a gynhyrchir gan ddeallusrwydd artiffisial.
Gellir defnyddio patrymau a dimensiynau data gan ddefnyddio algorithmau AI uwch. Gallant greu swm di-ben-draw o ddata synthetig sy'n gynrychioliadol yn ystadegol o'r data hyfforddi gwreiddiol ar ôl iddynt gael eu hyfforddi.
Mae amrywiaeth o ddulliau a thechnolegau a all ein helpu i greu data synthetig a gallwch eu defnyddio mewn amrywiaeth o gymwysiadau.
Mae meddalwedd cynhyrchu data yn aml yn gofyn am:
- Metadata ystorfa ddata, y mae'n rhaid creu data synthetig ar ei chyfer.
- Techneg ar gyfer cynhyrchu gwerthoedd credadwy ond ffuglennol. Mae enghreifftiau'n cynnwys rhestrau gwerthoedd ac ymadroddion rheolaidd.
- Ymwybyddiaeth gynhwysfawr o'r holl berthnasoedd data, y rhai a ddatganwyd ar lefel y gronfa ddata yn ogystal â'r rhai a reolir ar lefel cod y cais.
Mae'r un mor angenrheidiol dilysu'r model a chymharu agweddau ymddygiadol data real i'r rhai a gynhyrchir gan y model.
Mae gan y setiau data ffug hyn werth y peth go iawn, ond dim data sensitif. Mae fel cacen melys, heb galorïau. Mae'n darlunio'r byd go iawn yn gywir.
O ganlyniad, gallwch ei ddefnyddio i ddisodli data byd go iawn.
Pwysigrwydd Data Synthetig
Mae gan ddata synthetig nodweddion i gyd-fynd â rhai galwadau neu sefyllfaoedd na fyddai fel arall ar gael mewn data byd go iawn. Pan fo prinder data i'w brofi neu pan fo preifatrwydd yn brif ystyriaeth, daw i'r adwy.
Mae setiau data a gynhyrchir gan AI yn addasadwy, yn ddiogel, ac yn hawdd eu storio, eu cyfnewid a'u taflu. Mae'r dechneg synthesis data yn briodol ar gyfer is-osod a gwella'r data gwreiddiol.
O ganlyniad, mae'n ddelfrydol i'w ddefnyddio fel data prawf a data hyfforddi AI.
- I ddysgu Uber a Automobile hunan-yrru Tesla.
- Yn y diwydiannau meddygol a gofal iechyd, asesu salwch ac amgylchiadau penodol nad oes data dilys ar eu cyfer.
- Mae canfod ac amddiffyn twyll yn hollbwysig yn y sector ariannol. Trwy ei ddefnyddio, gallwch ymchwilio i achosion newydd o dwyll.
- Mae Amazon yn hyfforddi system iaith Alexa gan ddefnyddio data synthetig.
- Mae American Express yn defnyddio data ariannol synthetig i wella prosesau canfod twyll.
Mathau o Ddata Synthetig
Mae data synthetig yn cael ei greu ar hap gyda'r bwriad o guddio gwybodaeth breifat sensitif tra'n cadw gwybodaeth ystadegol am nodweddion yn y data gwreiddiol.
Mae'n bennaf o dri math:
- Data cwbl synthetig
- Data rhannol synthetig
- Data synthetig hybrid
1. Data Llawn Synthetig
Cynhyrchir y data hwn yn gyfan gwbl ac nid yw'n cynnwys unrhyw ddata gwreiddiol.
Yn nodweddiadol, bydd y generadur data ar gyfer y math hwn yn nodi swyddogaethau dwysedd nodweddion mewn data real ac yn amcangyfrif eu paramedrau. Yn ddiweddarach, o swyddogaethau dwysedd a ragwelir, mae cyfresi a ddiogelir gan breifatrwydd yn cael eu creu ar hap ar gyfer pob nodwedd.
Os dewisir dim ond ychydig o nodweddion data gwirioneddol i'w disodli ag ef, mae'r gyfres warchodedig o'r nodweddion hyn yn cael eu mapio i'r nodweddion sy'n weddill o'r data go iawn i raddio'r gyfres warchodedig a gwirioneddol yn yr un drefn.
Mae technegau Bootstrap a chyfrifiadau lluosog yn ddau ddull traddodiadol ar gyfer cynhyrchu data cwbl synthetig.
Gan fod y data'n gwbl synthetig ac nad oes data gwirioneddol yn bodoli, mae'r strategaeth hon yn darparu amddiffyniad preifatrwydd rhagorol gan ddibynnu ar wirionedd y data.
2. Data Rhannol Synthetig
Mae'r data hwn ond yn defnyddio gwerthoedd synthetig i ddisodli gwerthoedd ychydig o nodweddion sensitif.
Yn y sefyllfa hon, dim ond os oes perygl sylweddol o ddatguddiad y caiff gwerthoedd dilys eu newid. Gwneir y newid hwn i ddiogelu preifatrwydd data sydd newydd ei greu.
Defnyddir dulliau priodoli lluosog a seiliedig ar fodel i gynhyrchu data rhannol synthetig. Gellir defnyddio'r dulliau hyn hefyd i lenwi gwerthoedd coll mewn data byd go iawn.
3. Data Synthetig Hybrid
Mae data synthetig hybrid yn cynnwys data gwirioneddol a ffug.
Mae record agos ynddo yn cael ei ddewis ar gyfer pob cofnod ar hap o ddata go iawn, ac yna caiff y ddau eu huno i gynhyrchu data hybrid. Mae ganddo fanteision data cwbl synthetig a rhannol synthetig.
Felly mae'n cynnig cadwraeth preifatrwydd cryf gyda defnyddioldeb uchel o'i gymharu â'r ddau arall, ond ar gost mwy o gof ac amser prosesu.
Technegau Cynhyrchu Data Synthetig
Ers blynyddoedd lawer, mae'r cysyniad o ddata wedi'u crefftio â pheiriant wedi bod yn boblogaidd. Nawr mae'n aeddfedu.
Dyma rai o'r technegau a ddefnyddir i gynhyrchu data synthetig:
1. Yn seiliedig ar ddosbarthu
Rhag ofn nad oes data gwirioneddol yn bodoli, ond mae gan y dadansoddwr data syniad trylwyr o sut y byddai dosbarthiad y set ddata yn ymddangos; gallant gynhyrchu sampl ar hap o unrhyw ddosraniad, gan gynnwys Normal, Esbonyddol, Chi-sgwâr, t, lognormal, ac Unffurf.
Mae gwerth data synthetig yn y dull hwn yn amrywio yn dibynnu ar lefel dealltwriaeth y dadansoddwr am amgylchedd data penodol.
2. Data byd go iawn i'w ddosbarthu hysbys
Gall busnesau ei gynhyrchu trwy nodi'r dosraniadau ffit orau ar gyfer data real a roddir os oes data gwirioneddol.
Gall busnesau ddefnyddio dull Monte Carlo i'w gynhyrchu os ydynt yn dymuno ffitio data go iawn i ddosbarthiad hysbys a gwybod y paramedrau dosbarthu.
Er y gall dull Monte Carlo helpu busnesau i ddod o hyd i'r paru gorau sydd ar gael, efallai na fydd y ffit orau yn ddigon defnyddiol ar gyfer anghenion data synthetig y cwmni.
Gallai busnesau ymchwilio i ddefnyddio modelau dysgu peirianyddol i weddu i ddosbarthiadau o dan yr amgylchiadau hyn.
Mae technegau dysgu peirianyddol, megis coed penderfynu, yn galluogi sefydliadau i fodelu dosraniadau anglasurol, a allai fod yn aml-foddol ac nad oes ganddynt briodweddau cyffredin dosraniadau cydnabyddedig.
Gall busnesau gynhyrchu data synthetig sy'n cysylltu â data dilys gan ddefnyddio'r dosbarthiad hwn sydd wedi'i ffitio â pheiriant.
Fodd bynnag, modelau dysgu peiriannau yn agored i or-ffitio, sy'n achosi iddynt fethu â chyfateb data ffres neu ragweld arsylwadau yn y dyfodol.
3. Dysgu Dwfn
Gall modelau cynhyrchiol dwfn fel yr Amgodiwr Awtomatig Amrywiol (VAE) a'r Rhwydwaith Gwrthwynebol Cynhyrchiol (GAN) gynhyrchu data synthetig.
Amrywiad Autoencoder
Mae VAE yn ddull heb oruchwyliaeth lle mae'r amgodiwr yn cywasgu'r set ddata wreiddiol ac yn anfon data i'r datgodiwr.
Yna mae'r datgodiwr yn cynhyrchu allbwn sy'n gynrychioliad o'r set ddata wreiddiol.
Mae addysgu'r system yn golygu gwneud y mwyaf o'r gydberthynas rhwng data mewnbwn ac allbwn.
Rhwydwaith Gwrthwynebol Cenhedlol
Mae'r model GAN yn ailadroddol yn hyfforddi'r model gan ddefnyddio dau rwydwaith, y generadur, a'r gwahaniaethwr.
Mae'r generadur yn creu set ddata synthetig o set o ddata sampl ar hap.
Mae Discriminator yn cymharu data a grëwyd yn synthetig â set ddata go iawn gan ddefnyddio amodau a ddiffiniwyd ymlaen llaw.
Darparwyr Data Synthetig
Data Strwythuredig
Mae'r llwyfannau a grybwyllir isod yn darparu data synthetig sy'n deillio o ddata tabl.
Mae'n atgynhyrchu data byd go iawn a gedwir mewn tablau a gellir ei ddefnyddio ar gyfer dadansoddiad ymddygiadol, rhagfynegol neu drafodiadol.
- Gosod AI: Mae'n ddarparwr system creu data synthetig sy'n defnyddio Rhwydweithiau Gwrthwynebol Generative a phreifatrwydd gwahaniaethol.
- Gwelldata: Mae'n ddarparwr datrysiad data synthetig sy'n cadw preifatrwydd ar gyfer AI, rhannu data, a datblygu cynnyrch.
- Divepale: Mae'n ddarparwr Geminai, system ar gyfer creu setiau data 'gefeilliol' gyda'r un nodweddion ystadegol â'r data gwreiddiol.
Data anstrwythuredig
Mae'r llwyfannau a grybwyllir isod yn gweithredu gyda data anstrwythuredig, gan ddarparu nwyddau a gwasanaethau data synthetig ar gyfer hyfforddi algorithmau gweledigaeth a rhagchwilio.
- Datagen: Mae'n darparu data hyfforddi efelychiedig 3D ar gyfer dysgu a datblygu Visual AI.
- Neurolabs: Mae Neurolabs yn ddarparwr platfform data synthetig gweledigaeth gyfrifiadurol.
- Parth cyfochrog: Mae'n ddarparwr platfform data synthetig ar gyfer achosion defnydd hyfforddi a phrofi system ymreolaethol.
- Cognata: Mae'n gyflenwr efelychu ar gyfer ADAS a datblygwyr cerbydau ymreolaethol.
- Bifrost: Mae'n darparu APIs data synthetig ar gyfer creu amgylcheddau 3D.
Heriau
Mae ganddo hanes hir yn Cudd-wybodaeth Artiffisial, ac er bod ganddo lawer o fanteision, mae ganddo hefyd anfanteision sylweddol y mae angen ichi roi sylw iddynt wrth weithio gyda data synthetig.
Dyma rai ohonyn nhw:
- Efallai y bydd llawer o wallau wrth gopïo'r cymhlethdod o ddata gwirioneddol i ddata synthetig.
- Mae ei natur hydrin yn arwain at dueddiadau yn ei ymddygiad.
- Efallai y bydd rhai diffygion cudd ym mherfformiad algorithmau a hyfforddwyd gan ddefnyddio cynrychioliadau symlach o ddata synthetig sydd wedi dod i'r amlwg yn ddiweddar wrth ymdrin â data gwirioneddol.
- Gall fod yn gymhleth i ddyblygu'r holl briodoleddau perthnasol o ddata'r byd go iawn. Mae hefyd yn bosibl y bydd rhai agweddau hanfodol yn cael eu hanwybyddu trwy gydol y llawdriniaeth hon.
Casgliad
Mae cynhyrchu data synthetig yn amlwg yn pigo sylw pobl.
Mae’n bosibl nad yw’r dull hwn yn un ateb sy’n addas i bawb ar gyfer pob achos sy’n cynhyrchu data.
Yn ogystal, efallai y bydd y dechneg yn gofyn am wybodaeth trwy AI/ML ac yn gallu delio â sefyllfaoedd cymhleth yn y byd go iawn o greu data rhyng-gysylltiedig, yn ddelfrydol data sy'n addas i barth penodol.
Serch hynny, mae'n dechnoleg arloesol sy'n llenwi bwlch lle mae technolegau galluogi preifatrwydd eraill yn brin.
Heddiw, synthetig efallai y bydd angen masgio data ar y cyd i gynhyrchu data.
Yn y dyfodol, efallai y bydd mwy o gydgyfeirio rhwng y ddau, gan arwain at ddatrysiad cynhyrchu data mwy cynhwysfawr.
Rhannwch eich barn yn y sylwadau!
Gadael ymateb