Werrej[Aħbi][Uri]
Ir-riċerkaturi u x-xjenzati tad-dejta spiss jiltaqgħu ma' ċirkostanzi li fihom jew ma jkollhomx id-dejta attwali jew ma jkunux jistgħu jużawha minħabba kunsiderazzjonijiet ta' kunfidenzjalità jew privatezza.
Biex tiġi indirizzata din il-kwistjoni, il-produzzjoni ta' data sintetika tintuża biex tipproduċi sostituzzjoni għal data ġenwina.
Is-sostituzzjoni xierqa tad-dejta ġenwina hija meħtieġa biex l-algoritmu jaħdem sew, li għandu jkun ukoll realistiku fil-karattru. Tista' tuża tali data biex iżżomm il-privatezza, tittestja sistemi, jew tipproduċi data ta' taħriġ għal algoritmi ta' tagħlim bil-magni.
Ejja nesploraw il-ġenerazzjoni tad-dejta sintetika fid-dettall u naraw għaliex huma vitali fl-era tal-IA.
X'inhi Dejta Sintetika?
Data sintetika hija data annotata ġġenerata minn simulazzjonijiet tal-kompjuter jew algoritmi bħala sostitut għal data tad-dinja reali. Hija replika ta' data attwali ġġenerata mill-intelliġenza artifiċjali.
Wieħed jista' juża mudelli u dimensjonijiet tad-dejta billi juża algoritmi avvanzati tal-AI. Jistgħu joħolqu kwantità illimitata ta' dejta sintetika li hija statistikament rappreżentattiva tad-dejta oriġinali tat-taħriġ ladarba jkunu mħarrġa.
Hemm varjetà ta 'approċċi u teknoloġiji li jistgħu jgħinuna noħolqu data sintetika u tista' tuża f'varjetà ta 'applikazzjonijiet.
Is-softwer tal-ġenerazzjoni tad-dejta spiss jeħtieġ:
- Metadata ta' repożitorju tad-data, li għalih trid tinħoloq data sintetika.
- Teknika biex jiġu ġġenerati valuri plawżibbli iżda fittizji. Eżempji jinkludu listi ta' valuri u espressjonijiet regolari.
- Għarfien komprensiv tar-relazzjonijiet tad-dejta kollha, dawk iddikjarati fil-livell tad-database kif ukoll dawk ikkontrollati fil-livell tal-kodiċi tal-applikazzjoni.
Huwa ugwalment meħtieġ li l-mudell jiġi vvalidat u jitqabblu l-aspetti tal-imġieba tad-dejta reali ma' dawk iġġenerati mill-mudell.
Dawn is-settijiet tad-dejta fittizji għandhom il-valur kollu tal-ħaġa reali, iżda l-ebda dejta sensittiva. Huwa bħal kejk luscious, mingħajr kaloriji. Hija turi b'mod preċiż id-dinja attwali.
Bħala riżultat, tista 'tużaha biex tissostitwixxi data tad-dinja reali.
Importanza tad-Data Sintetika
Id-dejta sintetika għandha karatteristiċi li taqbel ma' ċerti talbiet jew sitwazzjonijiet li kieku ma jkunux disponibbli fid-dejta tad-dinja reali. Meta jkun hemm nuqqas ta 'dejta għall-ittestjar jew meta l-privatezza hija konsiderazzjoni ewlenija, niġu għas-salvataġġ.
Is-settijiet tad-dejta ġġenerati mill-AI huma adattabbli, sikuri u faċli biex jinħażnu, jiġu skambjati u mormija. It-teknika tas-sinteżi tad-dejta hija xierqa għas-sottosettjar u t-titjib tad-dejta oriġinali.
Bħala konsegwenza, huwa ideali għall-użu bħala data tat-test u data ta 'taħriġ AI.
- Biex tgħallem Uber ibbażat fuq ML u Karozzi Tesla li jsuqu waħedhom.
- Fl-industriji mediċi u tal-kura tas-saħħa, biex jiġu vvalutati mard u ċirkostanzi speċifiċi li għalihom ma teżistix data ġenwina.
- Is-sejbien u l-protezzjoni tal-frodi huma kruċjali fis-settur finanzjarju. Billi tużaha, tista' tinvestiga każijiet frawdolenti ġodda.
- Amazon qed tħarreġ is-sistema tal-lingwa ta' Alexa billi tuża data sintetika.
- American Express qed tuża data finanzjarja sintetika biex ittejjeb l-iskoperta tal-frodi.
Tipi ta' Data Sintetika
Id-dejta sintetika tinħoloq bl-addoċċ bl-intenzjoni li tinħeba informazzjoni privata sensittiva filwaqt li tinżamm informazzjoni statistika dwar il-karatteristiċi fid-dejta oriġinali.
Huwa prinċipalment ta 'tliet tipi:
- Dejta kompletament sintetika
- Dejta parzjalment sintetika
- Dejta sintetika ibrida
1. Dejta Kompletament Sintetika
Din id-dejta hija ġġenerata kompletament u ma fiha l-ebda dejta oriġinali.
Tipikament, il-ġeneratur tad-dejta għal dan it-tip jidentifika l-funzjonijiet tad-densità tal-karatteristiċi fid-dejta reali u jistma l-parametri tagħhom. Aktar tard, minn funzjonijiet ta 'densità mbassra, serje protetta mill-privatezza huma maħluqa bl-addoċċ għal kull karatteristika.
Jekk jintgħażlu biss ftit karatteristiċi tad-dejta attwali biex jiġu sostitwiti magħha, is-serje protetta ta 'dawn il-karatteristiċi huma mmappjati mal-karatteristiċi li jifdal tad-dejta reali biex jikklassifikaw is-serje protetta u reali fl-istess ordni.
It-tekniki bootstrap u l-imputazzjonijiet multipli huma żewġ metodi tradizzjonali għall-produzzjoni ta' data kompletament sintetika.
Minħabba li d-dejta hija kompletament sintetika u ma teżisti l-ebda dejta reali, din l-istrateġija tipprovdi protezzjoni tal-privatezza eċċellenti b'dipendenza fuq il-verità tad-dejta.
2. Dejta parzjalment Sintetika
Din id-dejta tuża biss valuri sintetiċi biex tissostitwixxi l-valuri ta’ ftit karatteristiċi sensittivi.
F'din is-sitwazzjoni, il-valuri ġenwini jinbidlu biss jekk ikun hemm periklu sostanzjali ta' espożizzjoni. Din il-bidla ssir biex tipproteġi l-privatezza tad-dejta maħluqa friska.
Imputazzjoni multipla u approċċi bbażati fuq mudell huma użati biex tiġi prodotta data parzjalment sintetika. Dawn il-metodi jistgħu jintużaw ukoll biex jimlew il-valuri neqsin fid-dejta tad-dinja reali.
3. Dejta Sintetika Ibrida
Data sintetika ibrida tinkludi kemm data attwali kif ukoll dik falza.
Qrib rekord fih jinġabar għal kull rekord każwali ta 'data reali, u t-tnejn huma mbagħad magħquda biex jiġġeneraw data ibrida. Għandu l-benefiċċji kemm ta 'dejta kompletament sintetika kif ukoll parzjalment sintetika.
Għalhekk joffri preservazzjoni qawwija tal-privatezza b'utilità għolja meta mqabbla mat-tnejn l-oħra, iżda bl-ispiża ta 'aktar memorja u ħin tal-ipproċessar.
Tekniki ta' Ġenerazzjoni ta' Data Sintetika
Għal ħafna snin, il-kunċett ta 'data maħduma bil-magni kien popolari. Issa qed jimmatura.
Hawn huma xi wħud mit-tekniki użati biex tiġġenera data sintetika:
1. Ibbażat fuq id-distribuzzjoni
F'każ li ma teżisti l-ebda dejta reali, iżda l-analista tad-dejta għandu idea bir-reqqa ta' kif tidher id-distribuzzjoni tas-sett tad-dejta; jistgħu jipproduċu kampjun każwali ta 'kwalunkwe distribuzzjoni, inklużi Normali, Esponenzjali, Chi-kwadru, t, lognormali, u Uniformi.
Il-valur tad-dejta sintetika f'dan il-metodu jvarja skont il-livell ta 'fehim tal-analista dwar ċertu ambjent tad-dejta.
2. Data tad-dinja reali f'distribuzzjoni magħrufa
In-negozji jistgħu jipproduċuh billi jidentifikaw id-distribuzzjonijiet l-aħjar tajbin għal data reali mogħtija jekk ikun hemm data reali.
In-negozji jistgħu jużaw l-approċċ Monte Carlo biex jipproduċuh jekk jixtiequ jdaħħlu data reali f'distribuzzjoni magħrufa u jkunu jafu l-parametri tad-distribuzzjoni.
Għalkemm l-approċċ ta' Monte Carlo jista' jgħin lin-negozji jillokalizzaw l-akbar tqabbil disponibbli, l-aħjar għażla tista' ma tkunx ta' użu biżżejjed għall-ħtiġijiet tad-dejta sintetika tal-kumpanija.
In-negozji jistgħu jesploraw l-użu ta' mudelli ta' tagħlim tal-magni biex ikunu adattati għad-distribuzzjonijiet f'dawn iċ-ċirkostanzi.
Tekniki ta’ tagħlim bil-magni, bħal siġar tad-deċiżjonijiet, jippermettu lill-organizzazzjonijiet jimmudellaw distribuzzjonijiet mhux klassiċi, li jistgħu jkunu multimodali u m’għandhomx proprjetajiet komuni ta’ distribuzzjonijiet rikonoxxuti.
In-negozji jistgħu jipproduċu dejta sintetika li tgħaqqad ma' dejta ġenwina billi tuża din id-distribuzzjoni mgħammra għat-tagħlim tal-magni.
Madankollu, mudelli ta 'tagħlim bil-magna huma suxxettibbli għat-twaħħil żejjed, li jġiegħelhom jonqsu milli jqabblu data ġdida jew ibassru osservazzjonijiet futuri.
3. Tagħlim Profond
Mudelli ġenerattivi profondi bħall-Varjational Autoencoder (VAE) u n-Netwerk Ġenerattiv Adversarial (GAN) jistgħu jipproduċu data sintetika.
Varjazzjonali Autoencoder
VAE huwa approċċ mhux sorveljat li fih l-encoder jikkompressa s-sett tad-dejta oriġinali u jibgħat id-dejta lid-decoder.
Id-decoder imbagħad jipproduċi output li huwa rappreżentazzjoni tas-sett tad-dejta oriġinali.
It-tagħlim tas-sistema jinvolvi l-massimizzazzjoni tal-korrelazzjoni bejn id-dejta tal-input u tal-ħruġ.
Netwerk Avversarju Ġenerattiv
Il-mudell GAN jħarreġ b'mod iterattiv il-mudell billi juża żewġ netwerks, il-ġeneratur, u d-diskriminatur.
Il-ġeneratur joħloq sett ta' dejta sintetiku minn sett ta' dejta ta' kampjuni każwali.
Diskriminatur iqabbel data maħluqa sintetikament ma' sett ta' data reali billi juża kundizzjonijiet definiti minn qabel.
Fornituri tad-Data Sintetiċi
Dejta Strutturata
Il-pjattaformi msemmija hawn taħt jipprovdu data sintetika derivata minn data tabulari.
Jirreplika data tad-dinja reali miżmuma fit-tabelli u jista 'jintuża għal analiżi tal-imġieba, ta' tbassir jew transazzjonali.
- Instill AI: Huwa fornitur ta 'sistema ta' ħolqien ta 'dejta sintetika li tuża Netwerks Avversarji Ġenerattivi u privatezza differenzjali.
- Betterdata: Hija fornitur ta' soluzzjoni ta' data sintetika li tippreserva l-privatezza għall-AI, il-kondiviżjoni tad-data, u l-iżvilupp tal-prodott.
- Divepale: Hija l-fornitur ta' Geminai, sistema għall-ħolqien ta' settijiet ta' data 'tewmin' bl-istess karatteristiċi statistiċi bħad-data oriġinali.
Data mhux strutturata
Il-pjattaformi msemmija hawn taħt joperaw b'dejta mhux strutturata, li jipprovdu oġġetti u servizzi ta' dejta sintetika għat-taħriġ ta' viżjoni u algoritmi ta' tkixxif.
- Datagen: Jipprovdi data ta' taħriġ simulata 3D għat-tagħlim u l-iżvilupp tal-AI Viżwali.
- Neurolabs: Neurolabs huwa fornitur ta' pjattaforma ta' data sintetika tal-viżjoni bil-kompjuter.
- Dominju parallel: Huwa fornitur ta 'pjattaforma ta' dejta sintetika għal każijiet ta 'użu ta' taħriġ u ttestjar ta 'sistema awtonoma.
- Cognata: Huwa fornitur ta 'simulazzjoni għal ADAS u żviluppaturi ta' vetturi awtonomi.
- Bifrost: Jipprovdi data sintetika APIs għall-ħolqien ta 'ambjenti 3D.
Sfidi
Għandha storja twila fi Intelliġenza Artifiċjali, u filwaqt li għandha ħafna vantaġġi, għandha wkoll żvantaġġi sinifikanti li għandek bżonn tindirizza waqt li taħdem b'dejta sintetika.
Hawn huma xi wħud minnhom:
- Jista 'jkun hemm ħafna żbalji waqt li tkun ikkupjata l-kumplessità minn data attwali għal data sintetika.
- In-natura malleabbli tagħha twassal għal preġudizzji fl-imġieba tagħha.
- Jista 'jkun hemm xi difetti moħbija fil-prestazzjoni tal-algoritmi mħarrġa bl-użu ta' rappreżentazzjonijiet simplifikati ta 'dejta sintetika li ħarġu reċentement waqt li jittrattaw data attwali.
- Ir-replikazzjoni tal-attributi rilevanti kollha minn data tad-dinja reali tista' ssir ikkumplikata. Huwa possibbli wkoll li xi aspetti essenzjali jistgħu jiġu injorati matul din l-operazzjoni.
konklużjoni
Il-produzzjoni ta 'dejta sintetika qed tqajjem b'mod ċar l-attenzjoni tan-nies.
Dan il-metodu jista' ma jkunx tweġiba waħda għal kulħadd għall-każijiet kollha li jiġġeneraw id-dejta.
Barra minn hekk, it-teknika tista 'teħtieġ intelliġenza permezz ta' AI/ML u tkun kapaċi timmaniġġja sitwazzjonijiet ikkumplikati fid-dinja reali ta 'ħolqien ta' data inter-relatata, idealment data adattata għal ċertu dominju.
Madankollu, hija teknoloġija innovattiva li timla lakuna fejn teknoloġiji oħra li jippermettu l-privatezza ma jaqgħux taħt.
Illum, sintetiċi il-produzzjoni tad-dejta tista' teħtieġ il-koeżistenza tal-maskra tad-dejta.
Fil-futur, jista 'jkun hemm konverġenza akbar bejn it-tnejn, li tirriżulta f'soluzzjoni aktar komprensiva li tiġġenera data.
Aqsam l-opinjonijiet tiegħek fil-kummenti!
Ħalli Irrispondi