Syntetyske gegevens útlein - It folgjende grutte ding yn AI, ML en DL

Avansearre analytyske en masine learprogramma's wurde oandreaun troch gegevens, mar tagong ta dy gegevens kin lestich wêze foar akademisy fanwegen útdagings mei privacy en saaklike prosedueres.

Syntetyske gegevens, dy't kinne wurde dield en brûkt op manieren dy't feitlike gegevens net kinne, is in potensjele nije rjochting om te folgjen. Dizze nije strategy is lykwols net sûnder gefaren of neidielen, dêrom is it krúsjaal dat bedriuwen soarchfâldich beskôgje wêr't en hoe't se har middels brûke.

Yn it hjoeddeiske tiidrek fan AI kinne wy ek sizze dat gegevens de nije oalje binne, mar mar in pear selekteare sitte op in gusher. Dêrom produsearje in protte minsken har eigen brânstof, dy't sawol betelber as effisjint is. It is bekend as syntetyske gegevens.

Yn dizze post sille wy in detaillearre blik nimme op syntetyske gegevens - wêrom jo it moatte brûke, hoe't jo it moatte produsearje, wat it oars makket fan werklike gegevens, hokker gebrûksgefallen it kin tsjinje, en folle mear.

Dus, wat is syntetyske gegevens?

As echte datasets net genôch binne yn termen fan kwaliteit, oantal of ferskaat, kinne syntetyske gegevens wurde brûkt om AI-modellen op te trenen yn plak fan echte histoaryske gegevens.

As besteande gegevens net foldogge oan saaklike easken of privacyrisiko's hawwe as se brûkt wurde om te ûntwikkeljen masine learen modellen, testsoftware, of sa, kinne syntetyske gegevens in wichtich ark wêze foar AI-ynspanningen fan bedriuwen.

Gewoan sein, syntetyske gegevens wurde faak brûkt yn plak fan werklike gegevens. Mear krekter, it binne gegevens dy't keunstmjittich tagged en produsearre binne troch simulaasjes of kompjûteralgoritmen.

Syntetyske gegevens

Syntetyske gegevens binne ynformaasje dy't troch in kompjûterprogramma keunstmjittich makke is yn stee fan as gefolch fan werklike foarfallen. Bedriuwen kinne syntetyske gegevens tafoegje oan har trainingsgegevens om alle gebrûks- en rânesituaasjes te dekken, de kosten fan it sammeljen fan gegevens te ferminderjen of privacyregeljouwing te foldwaan.

Keunstmjittige gegevens binne no tagonkliker dan ea troch ferbetteringen yn ferwurkingskrêft en metoaden foar gegevensopslach lykas de wolk. Syntetyske gegevens ferbetterje de skepping fan AI-oplossingen dy't foardieliger binne foar alle ein-brûkers, en dat is sûnder mis in goede ûntwikkeling.

Hoe syntetyske gegevens binne wichtich en wêrom moatte jo se brûke?

By it trainen fan AI-modellen hawwe ûntwikkelders faak enoarme datasets nedich mei krekte labeling. As leard mei mear farieare gegevens, neurale netwurken prestearje krekter.

It sammeljen en labeljen fan dizze massive datasets dy't hûnderten of sels miljoenen items befetsje, kin lykwols ûnferstannich tiid- en jildferbrûkt wêze. De priis foar it produsearjen fan trainingsgegevens kin sterk wurde ferlege troch syntetyske gegevens te brûken. Bygelyks, as keunstmjittich oanmakke is, is in trainingsôfbylding dy't $ 5 kostet as kocht fan in data labeling provider kin allinich $ 0.05 kostje.

Syntetyske gegevens kinne privacyproblemen ferleegje yn ferbân mei mooglik gefoelige gegevens generearre út 'e eigentlike wrâld, wylst ek útjeften ferminderje.

Yn ferliking mei echte gegevens, dy't net krekt it folsleine spektrum fan feiten oer de echte wrâld koene reflektearje, kin it helpe om foaroardielen te ferminderjen. Troch ûngewoane foarfallen te leverjen dy't plausibele mooglikheden fertsjinwurdigje, mar útdaagjend wêze kinne om fan legitime gegevens te krijen, kinne syntetyske gegevens grutter ferskaat biede.

Syntetyske gegevens kinne in fantastyske fit wêze foar jo projekt om de hjirûnder neamde redenen:

1. De robúste fan it model

Sûnder it te krijen, tagong ta mear farieare gegevens foar jo modellen. Mei syntetyske gegevens kinne jo jo model traine mei farianten fan deselde persoan mei ferskate kapsels, gesichtshier, bril, holleposysjes, ensfh., lykas hûdtoan, etnyske eigenskippen, bonkestruktuer, sproeten en oare skaaimerken om unike te generearjen gesichten en fersterkje it.

2. Edge gefallen wurde rekken holden

A balanced dataset wurdt foarkar troch masine learen algoritmen. Tink werom nei ús foarbyld fan gesichtsherkenning. De krektens fan har modellen soe ferbettere wêze (en feitlik hawwe guon fan dizze bedriuwen dit krekt dien), en se soene in moreel model hawwe produsearre as se syntetyske gegevens fan donkerdere gesichten produsearre hiene om har gegevensgaten yn te foljen. Teams kinne alle gebrûksgefallen dekke, ynklusyf rânegefallen wêr't gegevens min of net bestean binne, mei help fan syntetyske gegevens.

3. It kin wurde krigen flugger as "echte" gegevens

Teams binne yn steat om grutte hoemannichten syntetyske gegevens fluch te generearjen. Dit is foaral nuttich as de echte gegevens hinget ôf fan sporadyske barrens. Teams kinne it lestich fine om genôch echte wrâldgegevens te krijen oer swiere dykomstannichheden by it sammeljen fan gegevens foar in selsridende auto, bygelyks fanwegen har seldsumheid. Om it moeisame annotaasjeproses te fersnellen, kinne gegevenswittenskippers algoritmen opstelle om de syntetyske gegevens automatysk te markearjen sa't se wurde generearre.

4. It befeiliget brûker privacy ynformaasje

Bedriuwen kinne feiligensproblemen hawwe by it behanneljen fan gefoelige gegevens, ôfhinklik fan it bedriuw en soarte fan gegevens. Persoanlike sûnensynformaasje (PHI), bygelyks, wurdt faak opnommen yn sikehûsgegevens yn 'e sûnenssektor en moat wurde behannele mei de grutste feiligens.

Om't syntetyske gegevens gjin ynformaasje oer werklike minsken befetsje, wurde privacyproblemen fermindere. Beskôgje it brûken fan syntetyske gegevens as alternatyf as jo team har moat hâlde oan bepaalde wetten foar gegevensprivacy.

Echte gegevens Vs Syntetyske gegevens

Yn 'e echte wrâld wurde echte gegevens krigen of metten. As immen in smartphone, laptop of komputer brûkt, in polshorloazje draacht, tagong ta in webside of in online transaksje makket, wurdt dit soarte gegevens direkt generearre.

Derneist kinne enkêtes brûkt wurde om echte gegevens te leverjen (online en offline). Digitale ynstellings produsearje syntetyske gegevens. Mei útsûndering fan it diel dat net is ôflaat fan eveneminten yn 'e echte wrâld, wurde syntetyske gegevens makke op in manier dy't de eigentlike gegevens mei súkses mimike yn termen fan fûnemintele kwaliteiten.

It idee om syntetyske gegevens te brûken as ferfanging foar feitlike gegevens is heul kânsryk, om't it kin wurde brûkt om de training gegevens dy't masine learen modellen nedich. Mar dat is net wis keunstmjittige yntelliginsje kin elk probleem oplosse dat opkomt yn 'e eigentlike wrâld.

Gebrûk fan gefallen

Syntetyske gegevens binne nuttich foar in ferskaat oan kommersjele doelen, ynklusyf modeltraining, modelvalidaasje en testen fan nije produkten. Wy sille in pear fan 'e sektoaren listje dy't it paad hawwe liede yn har tapassing foar masine learen:

1. Sûnenssoarch

Sjoen de gefoelichheid fan har gegevens is de sûnenssektor goed geskikt foar it brûken fan syntetyske gegevens. Syntetyske gegevens kinne wurde brûkt troch teams om de fysiologyen op te nimmen fan elke soart pasjint dy't kin bestean, en sa helpe by de flugger en krekter diagnoaze fan sykten.

Sûnenssoarch

Google's melanoma-deteksjemodel is in yntrigearjende yllustraasje hjirfan, om't it syntetyske gegevens omfettet fan minsken mei donkere hûdtoanen (in gebiet fan klinyske gegevens dat spitigernôch ûnderfertsjintwurdige is) om it model de kapasiteit te jaan om effektyf te funksjonearjen foar alle hûdsoarten.

2. Auto's

Simulators wurde faak brûkt troch bedriuwen dy't selsridende auto's meitsje om prestaasjes te evaluearjen. As it waar hurd is, kin bygelyks it sammeljen fan echte dykgegevens riskant of lestich wêze.

Selsridende auto

Fertrouwe op live tests mei werklike auto's op 'e diken is oer it algemien gjin goed idee, om't d'r gewoan te folle fariabelen binne om rekken te hâlden yn alle ferskillende rydsituaasjes.

3. Portabiliteit fan gegevens

Om har trainingsgegevens mei oaren te dielen, hawwe organisaasjes betroubere en feilige metoaden nedich. Persoanlik identifisearjende ynformaasje (PII) ferbergje foardat de dataset iepenbier wurdt makke is in oare yntrigearjende applikaasje foar syntetyske gegevens. It útwikseljen fan gegevenssets foar wittenskiplik ûndersyk, medyske gegevens, sosjologyske gegevens, en oare fjilden dy't PII kinne befetsje, wurde oantsjutten as syntetyske gegevens dy't privacy behâlde.

4. Feiligens

Organisaasjes binne feiliger troch syntetyske gegevens. Wat ús foarbyld wer oangeande gesichtsherkenning oanbelanget, kinne jo bekend wêze mei de útdrukking "djippe fakes", dy't makke foto's of fideo's beskriuwt. Djippe fakes kinne wurde produsearre troch bedriuwen om har eigen gesichtsherkenning en feiligenssystemen te testen. Syntetyske gegevens wurde ek brûkt yn fideotafersjoch om modellen rapper en goedkeaper te trenen.

Syntetyske gegevens en masine learen

Om in solide en betrouber model te bouwen, hawwe algoritmen foar masine-learen in signifikante hoemannichte gegevens nedich om te ferwurkjen. By it ûntbrekken fan syntetyske gegevens soe it produsearjen fan sa'n grut folume fan gegevens útdaagjend wêze.

Yn domeinen lykas kompjûterfisy of byldferwurking, wêr't de ûntwikkeling fan modellen wurdt fasilitearre troch de ûntwikkeling fan iere syntetyske gegevens, kin it ekstreem wichtich wêze. In nije ûntwikkeling op it mêd fan bylderkenning is it brûken fan Generative Adversarial Networks (GAN's). Gewoanlik bestiet út twa netwurken: in generator en in diskriminator.

Wylst it diskriminatornetwurk fan doel is de eigentlike foto's te skieden fan 'e falske, funksjonearret it generatornetwurk om syntetyske ôfbyldings te produsearjen dy't folle mear fergelykber binne mei ôfbyldings yn 'e echte wrâld.

Yn masine learen binne GAN's in subset fan 'e neurale netwurkfamylje, wêr't beide netwurken kontinu leare en ûntwikkelje troch nije knopen en lagen ta te foegjen.

By it meitsjen fan syntetyske gegevens hawwe jo de opsje om de omjouwing en it type fan 'e gegevens te feroarjen as nedich om de prestaasjes fan it model te ferbetterjen. Wylst krektens foar syntetyske gegevens maklik kinne wurde berikt mei in sterke skoare, kin krektens foar markearre real-time gegevens soms ekstreem djoer wêze.

Hoe kinne jo syntetyske gegevens generearje?

De oanpak dy't brûkt wurde om in syntetyske datasammeling te meitsjen binne as folget:

Op grûn fan de statistyske ferdieling

De strategy dy't yn dit gefal brûkt wurdt is om nûmers te nimmen fan 'e distribúsje of om te sjen nei aktuele statistyske distribúsjes om falske gegevens te meitsjen dy't fergelykber lykje. Echte gegevens kinne yn guon omstannichheden folslein ôfwêzich wêze.

In gegevenswittenskipper kin in dataset generearje mei in willekeurige stekproef fan elke ferdieling as hy in djip begryp hat fan 'e statistyske ferdieling yn werklike gegevens. De normale ferdieling, eksponinsjele ferdieling, chi-kwadraatferdieling, lognormale ferdieling, en mear binne mar in pear foarbylden fan statistyske kânsferdielingen dy't brûkt wurde kinne om dit te dwaan.

It nivo fan ûnderfining fan de gegevenswittenskipper mei de situaasje sil in wichtige ynfloed hawwe op de krektens fan it oplaat model.

Ofhinklik fan it model

Dizze technyk bout in model dat ferantwurdet waarnommen gedrach foardat jo dat model brûke om willekeurige gegevens te generearjen. Yn essinsje giet dit om it oanpassen fan echte gegevens oan gegevens fan in bekende distribúsje. De Monte Carlo-oanpak kin dan brûkt wurde troch bedriuwen om falske gegevens te meitsjen.

Dêrneist kinne distribúsjes ek wurde ynrjochte mei help fan masine learmodellen lykas beslút beammen. Data wittenskippers moatte lykwols omtinken jaan oan de prognose, om't beslútbeammen typysk oerfit binne fanwegen har ienfâld en djipteútwreiding.

Mei djip learen

Djippe learen modellen dy't brûke in Variational Autoencoder (VAE) of Generative Adversarial Network (GAN) modellen binne twa manieren om te meitsjen syntetyske gegevens. Modellen foar net tafersjoch masine learen omfetsje VAE's.

Se besteane út encoders, dy't de orizjinele gegevens krimp en kompaktearje, en decoders, dy't dizze gegevens ûndersiikje om in foarstelling te jaan fan 'e echte gegevens. It hâlden fan ynput- en útfiergegevens sa identyk mooglik is it basisdoel fan in VAE. Twa tsjinoerstelde neurale netwurken binne GAN-modellen en adversariale netwurken.

It earste netwurk, bekend as it generatornetwurk, is ferantwurdlik foar it produsearjen fan falske gegevens. It diskriminatornetwurk, it twadde netwurk, wurket troch oanmakke syntetyske gegevens te fergelykjen mei feitlike gegevens yn in poging om te identifisearjen oft de dataset frauduleus is. De diskriminator warskôget de generator as it in falske dataset ûntdekt.

De folgjende batch fan gegevens levere oan de diskriminator wurdt dêrnei wizige troch de generator. As resultaat wurdt de diskriminator mei de tiid better by it opspoaren fan falske datasets. Dit soarte model wurdt faak brûkt yn 'e finansjele sektor foar fraudedeteksje, lykas yn' e sûnenssektor foar medyske ôfbylding.

Data Augmentation is in oare metoade dy't gegevenswittenskippers brûke om mear gegevens te produsearjen. It moat lykwols net fersinne wurde mei falske gegevens. Gewoan sein, gegevensfergrutting is de handeling fan it tafoegjen fan nije gegevens oan in echte dataset dy't al bestiet.

It meitsjen fan ferskate ôfbyldings fan ien ôfbylding, bygelyks troch de oriïntaasje, helderheid, fergrutting en mear oan te passen. Soms wurdt de eigentlike gegevensset brûkt mei allinich de persoanlike ynformaasje oer. Dataanonymisaasje is wat dit is, en in set fan sokke gegevens is ek net te beskôgjen as syntetyske gegevens.

Útdagings en beheiningen fan syntetyske gegevens

Hoewol syntetyske gegevens ferskate foardielen hawwe dy't bedriuwen kinne helpe mei aktiviteiten foar gegevenswittenskip, hat it ek bepaalde beheiningen:

De betrouberens fan de gegevens: It is algemien bekend dat elk model foar masine learen / djip learen allinich sa goed is as de gegevens dy't it wurdt fied. De kwaliteit fan syntetyske gegevens yn dit ferbân is sterk besibbe oan de kwaliteit fan 'e ynfiergegevens en it model dat brûkt wurdt om de gegevens te produsearjen. It is kritysk om te soargjen dat der gjin foaroardielen bestean yn 'e boarnegegevens, om't dizze heul dúdlik kinne wurde spegele yn' e syntetyske gegevens. Fierder, foardat jo prognoazes meitsje, moat de gegevenskwaliteit wurde befêstige en ferifiearre.
Fereasket kennis, ynspanning en tiid: Wylst it meitsjen fan syntetyske gegevens ienfâldiger en minder djoer kin wêze dan it meitsjen fan echte gegevens, hat it wat kennis, tiid en muoite nedich.
Replikearjen fan anomalies: De perfekte replika fan real-world data is net mooglik; syntetyske gegevens kinne it allinich benaderje. Dêrom kinne guon útfallers dy't besteane yn echte gegevens net wurde dekt troch syntetyske gegevens. Data-anomalies binne wichtiger dan typyske gegevens.
Kontrolearje de produksje en garandearje kwaliteit: Syntetyske gegevens binne bedoeld om echte gegevens te replikearjen. Hânlieding fan gegevens wurdt essensjeel. It is essensjeel om de krektens fan 'e gegevens te ferifiearjen foardat se it opnimme yn modellen foar masine learen / djippe learen foar yngewikkelde datasets dy't automatysk makke wurde mei algoritmen.
Feedback fan brûkers: As syntetyske gegevens in nij konsept is, sil net elkenien ree wêze om prognoazes te leauwen dy't dermei makke binne. Dit jout oan dat om de akseptabiliteit fan brûkers te fergrutsjen, it earst needsaaklik is om kennis te ferheegjen oer it nut fan syntetyske gegevens.

Takomst

It gebrûk fan syntetyske gegevens is yn 'e foargeande desennia dramatysk tanommen. Wylst it bedriuwen tiid en jild besparret, is it net sûnder syn neidielen. It mist outliers, dy't natuerlik foarkomme yn werklike gegevens en binne kritysk foar krektens yn guon modellen.

It is ek de muoite wurdich op te merken dat de kwaliteit fan 'e syntetyske gegevens faak ôfhinklik is fan 'e ynfiergegevens dy't brûkt wurde foar skepping; foaroardielen yn 'e ynfiergegevens kinne fluch ferspriede yn' e syntetyske gegevens, dus it kiezen fan gegevens fan hege kwaliteit as útgongspunt moat net oerskatte wurde.

Uteinlik hat it fierdere útfierkontrôle nedich, ynklusyf it fergelykjen fan de syntetyske gegevens mei minsklike annotearre echte gegevens om te kontrolearjen dat ôfwikingen net yntrodusearre wurde. Nettsjinsteande dizze obstakels bliuwt syntetyske gegevens in kânsryk fjild.

It helpt ús om nije AI-oplossingen te meitsjen, sels as echte gegevens net beskikber binne. It wichtichste makket it bedriuwen yn steat om produkten te bouwen dy't mear ynklusive binne en yndikatyf binne foar it ferskaat fan har einkonsuminten.

Yn 'e gegevens-oandreaune takomst binne syntetyske gegevens lykwols fan doel de gegevenswittenskippers te helpen om nije en kreative taken út te fieren dy't útdaagjend wêze soene om te foltôgjen mei gegevens yn 'e echte wrâld allinich.

Konklúzje

Yn bepaalde gefallen kinne syntetyske gegevens in gegevenstekoart of in tekoart oan relevante gegevens binnen in bedriuw of organisaasje ferminderje. Wy hawwe ek sjoen nei hokker strategyen kinne helpe by it generearjen fan syntetyske gegevens en wa kin der profitearje fan.

Wy hawwe ek praat oer guon fan 'e swierrichheden dy't komme mei it omgean mei syntetyske gegevens. Foar kommersjele beslútfoarming sille echte gegevens altyd favorisearre wurde. Realistyske gegevens binne lykwols de folgjende bêste opsje as sokke wiere rauwe gegevens net tagonklik binne foar analyse.

It moat lykwols wurde betocht dat om syntetyske gegevens te produsearjen, gegevenswittenskippers nedich binne mei in solide begryp fan gegevensmodellering. In goed begryp fan 'e echte gegevens en har omjouwing is ek essinsjeel. Dit is essensjeel om te soargjen dat, as beskikber, de produsearre gegevens sa krekt as mooglik binne.

Syntetyske gegevens útlein - It folgjende grutte ding yn AI, ML en DL

Dus, wat is syntetyske gegevens?