Werrej[Aħbi][Uri]
Analitika avvanzata u programmi ta’ tagħlim tal-magni huma mmexxija mid-dejta, iżda l-aċċess għal dik id-dejta jista’ jkun diffiċli għall-akkademiċi minħabba sfidi bil-privatezza u l-proċeduri tan-negozju.
Id-dejta sintetika, li tista' tiġi kondiviża u utilizzata b'modi li d-dejta attwali ma tistax, hija direzzjoni ġdida potenzjali li trid tiġi segwita. Madankollu, din l-istrateġija l-ġdida mhix mingħajr perikli jew żvantaġġi, għalhekk huwa kruċjali li n-negozji jikkunsidraw bir-reqqa fejn u kif jużaw ir-riżorsi tagħhom.
Fl-era attwali tal-AI, nistgħu wkoll niddikjaraw li d-dejta hija ż-żejt il-ġdid, iżda ftit magħżula biss qed joqogħdu fuq gusher. Għalhekk, ħafna nies qed jipproduċu l-fjuwil tagħhom stess, li huwa kemm affordabbli kif ukoll effiċjenti. Huwa magħruf bħala data sintetika.
F'din il-kariga, aħna ser nagħtu ħarsa dettaljata lejn id-dejta sintetika—għaliex għandek tużaha, kif tipproduċiha, x'jagħmilha differenti mid-dejta attwali, liema każijiet ta 'użu tista' sservi, u ħafna aktar.
Allura, x'inhi Dejta Sintetika?
Meta settijiet ta' dejta ġenwini ma jkunux adegwati f'termini ta' kwalità, numru, jew diversità, dejta sintetika tista' tintuża biex jitħarrġu mudelli tal-IA minflok dejta storika reali.
Meta d-dejta eżistenti ma tissodisfax ir-rekwiżiti tan-negozju jew ikollha riskji għall-privatezza meta tintuża biex tiżviluppa tagħlim magna mudelli, softwer tat-test, jew simili, data sintetika tista 'tkun għodda sinifikanti għall-isforzi korporattivi tal-AI.
Sempliċement qal, data sintetika hija spiss utilizzata minflok data attwali. B'mod aktar preċiż, hija data li ġiet immarkata artifiċjalment u prodotta minn simulazzjonijiet jew algoritmi tal-kompjuter.
Id-dejta sintetika hija informazzjoni li ġiet maħluqa minn programm tal-kompjuter b'mod artifiċjali aktar milli bħala riżultat ta 'okkorrenzi attwali. Il-kumpaniji jistgħu jżidu dejta sintetika mad-dejta tat-taħriġ tagħhom biex ikopru s-sitwazzjonijiet kollha tal-użu u tat-tarf, inaqqsu l-ispiża tal-ġbir tad-dejta, jew jissodisfaw ir-regolamenti tal-privatezza.
Id-dejta artifiċjali issa hija aktar aċċessibbli minn qatt qabel grazzi għal titjib fil-qawwa tal-ipproċessar u l-metodi tal-ħażna tad-dejta bħall-cloud. Id-dejta sintetika ttejjeb il-ħolqien ta 'soluzzjonijiet AI li huma aktar ta' benefiċċju għall-utenti finali kollha, u li bla dubju huwa żvilupp tajjeb.
Kemm hija importanti d-dejta sintetika u għaliex għandek tużaha?
Meta jħarrġu mudelli ta' AI, l-iżviluppaturi ta' spiss jeħtieġu settijiet ta' dejta kbar b'tikkettjar preċiż. Meta jiġi mgħallem b'dejta aktar varjata, netwerks newrali twettaq b'mod aktar preċiż.
Il-ġbir u t-tikkettar ta' dawn is-settijiet ta' dejta massivi li fihom mijiet jew saħansitra miljuni ta' oġġetti, madankollu, jista' jieħu ħafna ħin u flus b'mod mhux raġonevoli. Il-prezz tal-produzzjoni ta 'data ta' taħriġ jista 'jitnaqqas ħafna bl-użu ta' data sintetika. Per eżempju, jekk maħluqa artifiċjalment, immaġni ta 'taħriġ li tiswa $5 meta mixtrija minn a fornitur tat-tikkettar tad-dejta jista 'biss jiswa $ 0.05.
Id-dejta sintetika tista’ ttaffi t-tħassib dwar il-privatezza relatat ma’ dejta potenzjalment sensittiva ġġenerata mid-dinja attwali filwaqt li tnaqqas ukoll l-ispejjeż.
Meta mqabbla ma' data ġenwina, li ma setgħetx tirrifletti b'mod preċiż l-ispettru sħiħ ta' fatti dwar id-dinja reali, tista' tgħin biex tnaqqas il-preġudizzju. Billi tipprovdi okkorrenzi mhux tas-soltu li jirrappreżentaw possibbiltajiet plawżibbli iżda li jistgħu jkunu ta’ sfida biex jinkisbu minn dejta leġittima, dejta sintetika tista’ toffri diversità akbar.
Id-dejta sintetika tista' tkun tajba meraviljuża għall-proġett tiegħek għar-raġunijiet elenkati hawn taħt:
1. Ir-robustezza tal-mudell
Mingħajr ma jkollok għalfejn takkwistaha, aċċessa dejta aktar varjata għall-mudelli tiegħek. B'dejta sintetika, tista 'tħarreġ il-mudell tiegħek billi tuża varjanti tal-istess persuna b'diversi haircuts, xagħar tal-wiċċ, nuċċalijiet, pożi tar-ras, eċċ., Kif ukoll it-ton tal-ġilda, karatteristiċi etniċi, struttura tal-għadam, freckles, u karatteristiċi oħra biex tiġġenera uniċi. tiffaċċja u ssaħħaħha.
2. Każijiet tat-tarf huma kkunsidrati
Bilanċjat dataset huwa preferut mit-tagħlim tal-magni algoritmi. Aħseb lura għall-eżempju tagħna ta 'rikonoxximent tal-wiċċ. L-eżattezza tal-mudelli tagħhom kienet titjieb (u fil-fatt, xi wħud minn dawn in-negozji għamlu dan), u kienu jipproduċu mudell aktar morali kieku pproduċew data sintetika ta 'uċuħ ta' ġilda skura biex jimlew il-lakuni tad-dejta tagħhom. It-timijiet jistgħu jkopru l-każijiet kollha tal-użu, inklużi l-każijiet tat-tarf fejn id-dejta hija skarsa jew ineżistenti, bl-għajnuna ta’ data sintetika.
3. Jista 'jinkiseb aktar malajr minn data "attwali".
It-timijiet huma kapaċi jiġġeneraw ammonti vasti ta 'dejta sintetika malajr. Dan huwa speċjalment utli meta d-dejta tal-ħajja reali tiddependi fuq avvenimenti sporadiċi. It-timijiet jistgħu jsibuha diffiċli biex jiksbu biżżejjed dejta fid-dinja reali dwar kundizzjonijiet severi tat-toroq filwaqt li jiġbru dejta għal karozza li ssuq waħedha, pereżempju, minħabba r-rarità tagħhom. Sabiex jitħaffef il-proċess ta 'annotazzjoni impenjattiv, ix-xjentisti tad-dejta jistgħu jpoġġu algoritmi biex awtomatikament jittikkettaw id-dejta sintetika hekk kif tiġi ġġenerata.
4. Tiżgura l-informazzjoni dwar il-privatezza tal-utent
Il-kumpaniji jista' jkollhom diffikultajiet ta' sigurtà waqt li jimmaniġġjaw data sensittiva, skont in-negozju u t-tip ta' data. L-informazzjoni personali dwar is-saħħa (PHI), pereżempju, spiss tiġi inkluża fid-dejta tal-pazjenti internati fl-industrija tal-kura tas-saħħa u trid tiġi ttrattata bl-akbar sigurtà.
Minħabba li d-dejta sintetika ma tinkludix informazzjoni dwar in-nies attwali, il-kwistjonijiet ta 'privatezza huma mnaqqsa. Ikkunsidra li tuża data sintetika bħala alternattiva jekk it-tim tiegħek ikollu jaderixxi ma' ċerti liġijiet dwar il-privatezza tad-data.
Data reali Vs data sintetika
Fid-dinja reali, dejta reali tinkiseb jew titkejjel. Meta xi ħadd juża smartphone, laptop, jew kompjuter, jilbes arloġġ tal-polz, jaċċessa websajt, jew jagħmel tranżazzjoni onlajn, din it-tip ta’ data tiġi ġġenerata istantanjament.
Barra minn hekk, l-istħarriġ jistgħu jintużaw biex jipprovdu data ġenwina (online u offline). Is-settings diġitali jipproduċu data sintetika. Bl-eċċezzjoni tal-parti li ma ġietx derivata minn xi avveniment tad-dinja reali, id-dejta sintetika tinħoloq b'mod li timita b'suċċess id-dejta attwali f'termini ta 'kwalitajiet fundamentali.
L-idea li tintuża data sintetika bħala sostitut għad-data attwali hija promettenti ħafna peress li tista' tintuża biex tipprovdi l- data tat-taħriġ li t-tagħlim bil-magni mudelli jeħtieġu. Imma mhux ċert li intelliġenza artifiċjali jista 'jsolvi kull kwistjoni li tqum fid-dinja attwali.
Każijiet ta 'użu
Id-dejta sintetika hija utli għal varjetà ta' skopijiet kummerċjali, inkluż taħriġ tal-mudelli, validazzjoni tal-mudelli, u ttestjar ta' prodotti ġodda. Aħna ser telenkaw ftit mis-setturi li wasslu għat-triq fl-applikazzjoni tagħha għat-tagħlim bil-magni:
1. Kura tas-saħħa
Minħabba s-sensittività tad-dejta tiegħu, is-settur tal-kura tas-saħħa huwa adattat tajjeb għall-użu ta 'dejta sintetika. Id-dejta sintetika tista’ tintuża minn timijiet biex jirreġistraw il-fiżjoloġiji ta’ kull tip ta’ pazjent li jista’ jkun hemm, u b’hekk tgħin fid-dijanjosi aktar mgħaġġla u preċiża tal-mard.
Il-mudell ta' sejbien tal-melanoma ta' Google huwa illustrazzjoni intriganti ta' dan peress li jinkorpora dejta sintetika ta' nies b'tonijiet tal-ġilda aktar skuri (qasam ta' dejta klinika li sfortunatament hija sottorappreżentata) biex jipprovdi lill-mudell bil-kapaċità li jaħdem b'mod effettiv għat-tipi kollha tal-ġilda.
2. Automobiles
Is-simulaturi huma spiss użati minn kumpaniji li joħolqu karozzi li jsuqu waħedhom biex jevalwaw il-prestazzjoni. Meta t-temp ikun iebes, pereżempju, il-ġbir ta' data reali dwar it-toroq jista' jkun riskjuż jew diffiċli.
Li tiddependi fuq testijiet ħajjin b'karozzi attwali fit-toroq ġeneralment mhix idea tajba peress li hemm wisq varjabbli biex jitqiesu fis-sitwazzjonijiet differenti kollha tas-sewqan.
3. Portabbiltà tad-Data
Biex ikunu jistgħu jaqsmu d-dejta tat-taħriġ tagħhom ma 'oħrajn, l-organizzazzjonijiet jeħtieġu metodi affidabbli u sikuri. Il-ħabi ta' informazzjoni personalment identifikabbli (PII) qabel ma jsir pubbliku s-sett tad-dejta hija applikazzjoni intriganti oħra għad-dejta sintetika. L-iskambju ta' settijiet ta' dejta ta' riċerka xjentifika, dejta medika, dejta soċjoloġika, u oqsma oħra li jista' jkun fihom PII, jissejħu dejta sintetika li tippreserva l-privatezza.
4. Sigurtà
L-organizzazzjonijiet huma aktar siguri grazzi għal data sintetika. Għal darb'oħra rigward l-eżempju tagħna ta 'rikonoxximent tal-wiċċ, tista' tkun familjari mal-frażi "deep fakes," li tiddeskrivi ritratti jew vidjows iffabbrikati. Il-prodotti foloz profondi jistgħu jiġu prodotti min-negozji biex jittestjaw is-sistemi ta' rikonoxximent u sigurtà tal-wiċċ tagħhom stess. Id-dejta sintetika tintuża wkoll fis-sorveljanza bil-vidjo biex tħarreġ mudelli aktar malajr u bi spiża orħos.
Dejta Sintetika u Tagħlim Magni
Biex jinbena mudell solidu u affidabbli, l-algoritmi tat-tagħlim tal-magni jeħtieġu ammont sinifikanti ta 'dejta biex tiġi pproċessata. Fin-nuqqas ta' data sintetika, il-produzzjoni ta' volum daqshekk kbir ta' data tkun ta' sfida.
F'oqsma bħall-viżjoni bil-kompjuter jew l-ipproċessar tal-immaġni, fejn l-iżvilupp ta 'mudelli huwa ffaċilitat mill-iżvilupp ta' data sintetika bikrija, jista 'jkun estremament sinifikanti. Żvilupp ġdid fil-qasam tar-rikonoxximent ta' l-istampa huwa l-użu ta' Netwerks Avversarji Ġenerattivi (GANs). Normalment jikkonsisti f'żewġ netwerks: ġeneratur u diskriminatur.
Filwaqt li n-netwerk diskriminatur għandu l-għan li jissepara r-ritratti attwali minn dawk foloz, in-netwerk tal-ġeneratur jiffunzjona biex jipproduċi stampi sintetiċi li huma konsiderevolment aktar simili għal immaġini tad-dinja reali.
Fit-tagħlim tal-magni, il-GANs huma subsett tal-familja tan-netwerk newrali, fejn iż-żewġ netwerks jitgħallmu u jiżviluppaw kontinwament billi jżidu nodi u saffi ġodda.
Meta toħloq data sintetika, għandek l-għażla li tibdel l-ambjent u t-tip tad-data kif meħtieġ biex ittejjeb il-prestazzjoni tal-mudell. Filwaqt li l-eżattezza għad-dejta sintetika tista' tinkiseb faċilment b'punteġġ qawwi, l-eżattezza għal dejta f'ħin reali ttikkettjata kultant tista' tkun estremament għalja.
Kif tista 'tiġġenera data sintetika?
L-approċċi użati biex jinħoloq ġbir ta’ data sintetiku huma kif ġej:
Ibbażat fuq id-distribuzzjoni statistika
L-istrateġija użata f'dan il-każ hija li tieħu n-numri mid-distribuzzjoni jew li tħares lejn distribuzzjonijiet statistiċi attwali sabiex tinħoloq dejta falza li tidher komparabbli. Data reali tista' tkun kompletament assenti f'xi ċirkostanzi.
Xjentist tad-dejta jista' jiġġenera sett ta' dejta li jkun fih kampjun każwali ta' kwalunkwe distribuzzjoni jekk ikollu ħakma profonda tad-distribuzzjoni statistika fid-dejta attwali. Id-distribuzzjoni normali, id-distribuzzjoni esponenzjali, id-distribuzzjoni chi-square, id-distribuzzjoni lognormal, u aktar huma biss ftit eżempji ta 'distribuzzjonijiet ta' probabbiltà statistiċi li jistgħu jintużaw biex jagħmlu dan.
Il-livell ta' esperjenza tax-xjenzat tad-dejta bis-sitwazzjoni se jkollu impatt sinifikanti fuq l-eżattezza tal-mudell imħarreġ.
Jiddependi fuq il-mudell
Din it-teknika tibni mudell li jagħti kont tal-imġieba osservata qabel ma tuża dak il-mudell biex tiġġenera data każwali. Essenzjalment, dan jinvolvi t-twaħħil ta' data reali ma' data minn distribuzzjoni magħrufa. L-approċċ Monte Carlo jista 'mbagħad jintuża mill-korporazzjonijiet biex joħolqu data falza.
Barra minn hekk, id-distribuzzjonijiet jistgħu wkoll jitwaħħlu bl-użu mudelli ta 'tagħlim bil-magna bħal siġar tad-deċiżjonijiet. Xjenzati tad-dejta għandhom jagħtu attenzjoni għat-tbassir, madankollu, peress li s-siġar tad-deċiżjonijiet tipikament iżżejjed minħabba s-sempliċità u l-espansjoni tal-fond tagħhom.
B'tagħlim fil-fond
Tagħlim fil-fond mudelli li jużaw mudelli ta 'Varjazzjonali Autoencoder (VAE) jew Netwerk Avversarju Ġenerattiv (GAN) huma żewġ modi kif tinħoloq data sintetika. Mudelli ta' tagħlim tal-magni mhux sorveljati jinkludu VAEs.
Huma magħmulin minn encoders, li jiċkienu u jikkompatt id-dejta oriġinali, u decoders, li jiskrutinizzaw din id-dejta biex jipprovdu rappreżentazzjoni tad-dejta reali. Iż-żamma tad-dejta tad-dħul u tal-ħruġ kemm jista' jkun identika huwa l-għan bażiku ta' VAE. Żewġ netwerks newrali opposti huma mudelli GAN u netwerks avversarji.
L-ewwel netwerk, magħruf bħala n-netwerk tal-ġeneratur, huwa inkarigat li jipproduċi data falza. In-netwerk diskriminatorju, it-tieni netwerk, jaħdem billi jqabbel data sintetika maħluqa ma 'data attwali fi sforz biex jidentifika jekk is-sett tad-data huwiex frawdolenti. Id-diskriminatur javża lill-ġeneratur meta jiskopri sett tad-dejta falz.
Il-lott ta' dejta li ġej ipprovdut lid-diskriminatur jiġi sussegwentement modifikat mill-ġeneratur. B'riżultat ta' dan, id-diskriminatur jitjieb maż-żmien meta jsib settijiet ta' dejta foloz. Dan it-tip ta' mudell jintuża ta' spiss fis-settur finanzjarju għall-iskoperta ta' frodi kif ukoll fis-settur tal-kura tas-saħħa għall-immaġini mediċi.
Żieda tad-Data hija metodu differenti li x-xjentisti tad-dejta jimpjegaw biex jipproduċu aktar dejta. Madankollu, m'għandux jiġi żbaljat b'dejta falza. Sempliċiment qal, it-tkabbir tad-dejta huwa l-att li żżid dejta ġdida ma 'sett ta' dejta ġenwin li diġà jeżisti.
Il-ħolqien ta 'diversi stampi minn immaġni waħda, pereżempju, billi taġġusta l-orjentazzjoni, il-luminożità, it-tkabbir, u aktar. Xi drabi, is-sett tad-dejta attwali jintuża bl-informazzjoni personali biss fadal. L-anonimizzazzjoni tad-dejta hija dak li hu, u sett ta' tali dejta bl-istess mod m'għandux jitqies bħala dejta sintetika.
Sfidi u limitazzjonijiet ta' data Sintetika
Għalkemm id-dejta sintetika għandha diversi benefiċċji li jistgħu jgħinu lid-ditti b'attivitajiet tax-xjenza tad-dejta, għandha wkoll ċerti limitazzjonijiet:
- L-affidabbiltà tad-dejta: Huwa għarfien komuni li kull mudell ta 'tagħlim bil-magni/tagħlim fil-fond huwa tajjeb biss daqs id-dejta li hija mitmugħa. Il-kwalità tad-dejta sintetika f'dan il-kuntest hija relatata b'mod qawwi mal-kwalità tad-dejta tal-input u l-mudell użat biex tiġi prodotta d-dejta. Huwa kritiku li jiġi żgurat li ma jeżistu l-ebda preġudizzji fid-dejta tas-sors, peress li dawn jistgħu jiġu riflessi b'mod ċar ħafna fid-dejta sintetika. Barra minn hekk, qabel ma jsir kwalunkwe tbassir, il-kwalità tad-dejta għandha tiġi kkonfermata u vverifikata.
- Jeħtieġ għarfien, sforz, u ħin: Filwaqt li l-ħolqien ta' data sintetika jista' jkun aktar sempliċi u inqas għali mill-ħolqien ta' data ġenwina, jeħtieġ xi għarfien, ħin u sforz.
- Replikazzjoni ta' anomaliji: Ir-replika perfetta tad-dejta tad-dinja reali mhix possibbli; data sintetika tista' biss tapprossimaha. Għalhekk, xi outliers li jeżistu fid-dejta reali jistgħu ma jkunux koperti minn dejta sintetika. L-anomaliji tad-dejta huma aktar sinifikanti mid-dejta tipika.
- Tikkontrolla l-produzzjoni u tiżgura l-kwalità: Data sintetika hija maħsuba biex tirreplika data tad-dinja reali. Il-verifika manwali tad-dejta ssir essenzjali. Huwa essenzjali li tiġi vverifikata l-eżattezza tad-dejta qabel ma tiġi inkorporata f'mudelli ta' tagħlim bil-magni/tagħlim fil-fond għal settijiet ta' dejta kkumplikati maħluqa awtomatikament bl-użu ta' algoritmi.
- Rispons tal-utenti: Peress li d-dejta sintetika hija kunċett ġdid, mhux kulħadd se jkun lest jemmen it-tbassir magħmul magħha. Dan jindika li sabiex tiżdied l-aċċettabilità tal-utent, huwa l-ewwel meħtieġ li jiżdied l-għarfien dwar l-utilità tad-dejta sintetika.
Futur
L-użu ta 'data sintetika żdied b'mod drammatiku fl-għaxar snin preċedenti. Filwaqt li jiffranka l-ħin u l-flus lill-kumpaniji, mhuwiex mingħajr l-iżvantaġġi tiegħu. Huwa nieqes mill-outliers, li jseħħu b'mod naturali fid-dejta attwali u huma kritiċi għall-eżattezza f'xi mudelli.
Ta 'min jinnota wkoll li l-kwalità tad-dejta sintetika spiss tiddependi fuq id-dejta tal-input użata għall-ħolqien; preġudizzji fid-dejta tal-input jistgħu jinfirxu malajr fid-dejta sintetika, u b'hekk l-għażla tad-dejta ta 'kwalità għolja bħala punt tat-tluq m'għandhiex tiġi eżaġerata.
Fl-aħħarnett, jeħtieġ aktar kontroll tal-output, inkluż it-tqabbil tad-dejta sintetika ma 'dejta reali annotata mill-bniedem biex tivverifika li d-diskrepanzi ma jiġux introdotti. Minkejja dawn l-ostakli, id-dejta sintetika għadha qasam promettenti.
Jgħinna noħolqu soluzzjonijiet AI ġodda anki meta d-dejta tad-dinja reali ma tkunx disponibbli. L-aktar sinifikanti, tippermetti lill-intrapriżi jibnu prodotti li huma aktar inklużivi u indikattivi tad-diversità tal-konsumaturi finali tagħhom.
Fil-futur immexxi mid-dejta, madankollu, id-dejta sintetika għandha l-intenzjoni li tgħin lix-xjenzati tad-dejta biex iwettqu kompiti ġodda u kreattivi li jkunu ta’ sfida biex jitlestew b’dejta tad-dinja reali biss.
konklużjoni
F'ċerti każijiet, data sintetika tista' ttaffi defiċit ta' data jew nuqqas ta' data rilevanti ġewwa negozju jew organizzazzjoni. Ħaresna wkoll lejn liema strateġiji jistgħu jgħinu fil-ġenerazzjoni ta 'dejta sintetika u min jista' japprofitta minnha.
Tkellimna wkoll dwar xi wħud mid-diffikultajiet li jiġu biex tittratta data sintetika. Għat-teħid ta' deċiżjonijiet kummerċjali, id-dejta reali dejjem tkun iffavorita. Madankollu, dejta realistika hija l-aħjar għażla li jmiss meta tali dejta mhux ipproċessata vera ma tkunx aċċessibbli għall-analiżi.
Madankollu, għandu jiġi mfakkar li sabiex tiġi prodotta data sintetika, huma meħtieġa xjentisti tad-data b'għarfien sod tal-immudellar tad-data. Fehim sħiħ tad-dejta reali u l-madwar huwa essenzjali wkoll. Dan huwa essenzjali biex jiġi żgurat li, jekk disponibbli, id-dejta prodotta tkun preċiża kemm jista' jkun.
Ħalli Irrispondi