Sünteetilised andmed selgitatud – järgmine suur asi AI-s, ML-is ja DL-is

Täiustatud analüütika ja masinõppeprogrammid käivad edasi andmetest, kuid juurdepääs neile andmetele võib privaatsusega ja äriprotseduuridega seotud väljakutsete tõttu akadeemiliste ringkondade jaoks olla keeruline.

Sünteetilised andmed, mida saab jagada ja kasutada viisil, mida tegelikud andmed ei saa, on potentsiaalne uus suund. Kuid see uus strateegia ei ole ilma ohtude ja puudusteta, seetõttu on oluline, et ettevõtted kaaluksid hoolikalt, kus ja kuidas nad oma ressursse kasutavad.

Praegusel tehisintellekti ajastul võime ka väita, et andmed on uus õli, kuid ainult vähesed väljavalitud istuvad gusheril. Seetõttu toodavad paljud inimesed ise kütust, mis on nii taskukohane kui ka tõhus. Seda tuntakse sünteetiliste andmetena.

Selles postituses vaatleme üksikasjalikult sünteetilisi andmeid – miks peaksite neid kasutama, kuidas neid toota, mille poolest need tegelikest andmetest erinevad, millistel kasutusjuhtudel need võivad toimida ja palju muud.

Niisiis, mis on sünteetilised andmed?

Kui ehtsate andmekogumite kvaliteet, arv või mitmekesisus on ebapiisavad, saab tehisintellekti mudelite koolitamiseks kasutada tegelike ajalooliste andmete asemel sünteetilisi andmeid.

Kui olemasolevad andmed ei vasta ärinõuetele või kui nende arendamiseks kasutatakse privaatsusriske masinõpe mudelid, testtarkvara või muu sarnane, võivad sünteetilised andmed olla ettevõtte tehisintellekti jõupingutuste jaoks oluliseks tööriistaks.

Lihtsamalt öeldes kasutatakse tegelike andmete asemel sageli sünteetilisi andmeid. Täpsemalt on tegemist andmetega, mis on kunstlikult märgistatud ja simulatsioonide või arvutialgoritmide abil toodetud.

Sünteetilised andmed

Sünteetilised andmed on teave, mis on loodud arvutiprogrammiga kunstlikult, mitte tegelike sündmuste tulemusena. Ettevõtted saavad lisada oma koolitusandmetele sünteetilisi andmeid, et katta kõik kasutus- ja eelisolukorrad, vähendada andmete kogumise kulusid või täita privaatsusnorme.

Tänu töötlemisvõimsuse ja andmesalvestusmeetodite (nt pilve) täiustamisele on tehisandmed nüüd kättesaadavamad kui kunagi varem. Sünteetilised andmed parandavad kõikidele lõppkasutajatele kasulikumate AI-lahenduste loomist ja see on kahtlemata hea areng.

Kui olulised on sünteetilised andmed ja miks peaksite neid kasutama?

AI mudelite koolitamisel vajavad arendajad sageli tohutuid andmekogumeid, millel on täpne märgistus. Kui õpetada mitmekesisemate andmetega, närvivõrgud täpsemalt sooritada.

Nende massiivsete sadu või isegi miljoneid üksusi sisaldavate andmekogumite kogumine ja märgistamine võib aga olla ebamõistlikult aega- ja rahakulukas. Treeningandmete tootmise hinda saab sünteetilisi andmeid kasutades kõvasti alandada. Näiteks kui see on kunstlikult loodud, siis treeningpilt, mis maksab 5 dollarit, ostes a andmete märgistamise pakkuja võib maksta ainult 0.05 dollarit.

Sünteetilised andmed võivad leevendada tegelikust maailmast genereeritud potentsiaalselt tundlike andmetega seotud privaatsusprobleeme, vähendades samal ajal kulusid.

Võrreldes ehtsate andmetega, mis ei suuda täpselt kajastada tegelikku maailma puudutavate faktide kogu spektrit, võib see aidata eelarvamusi vähendada. Sünteetilised andmed võivad pakkuda suuremat mitmekesisust, pakkudes ebatavalisi juhtumeid, mis kujutavad endast usutavaid võimalusi, kuid võivad olla keerulised saada seaduslikest andmetest.

Sünteetilised andmed võivad teie projekti jaoks suurepäraselt sobida järgmistel põhjustel.

1. Mudeli vastupidavus

Ilma seda hankimata pääsete juurde oma mudelite mitmekesisematele andmetele. Sünteetiliste andmete abil saate oma modelli treenida, kasutades ühe ja sama inimese variante, kellel on erinevad soengud, näokarvad, prillid, peapoosid jne, aga ka nahatooni, etnilisi tunnuseid, luu struktuuri, tedretähne ja muid omadusi, et luua kordumatuid omadusi. nägu ja tugevdada seda.

2. Arvesse võetakse äärejuhtumeid

Tasakaalustatud andmestikku eelistab masinõpe algoritmid. Mõelge tagasi meie näotuvastuse näitele. Nende mudelite täpsus oleks paranenud (ja tegelikult tegid mõned neist ettevõtetest just seda) ja nad oleksid loonud moraalsema mudeli, kui nad oleksid tootnud sünteetilisi andmeid tumedama nahaga nägude kohta, et täita oma andmelünki. Meeskonnad saavad sünteetiliste andmete abil katta kõik kasutusjuhtumid, sealhulgas äärejuhtumid, kus andmeid on vähe või neid pole üldse.

3. Neid on võimalik hankida kiiremini kui "tegelikke" andmeid

Meeskonnad suudavad kiiresti genereerida tohutul hulgal sünteetilisi andmeid. See on eriti kasulik, kui tegelikud andmed sõltuvad juhuslikest sündmustest. Võistkondadel võib nende harulduse tõttu olla raske saada piisavalt reaalseid andmeid raskete teeolude kohta, kogudes andmeid näiteks isejuhtivate autode kohta. Töömahuka annotatsiooniprotsessi kiirendamiseks saavad andmeteadlased koostada algoritme, mis märgistavad sünteetilised andmed automaatselt nende loomise ajal.

4. See tagab kasutaja privaatsusteabe

Ettevõtetel võib olla tundlike andmete käitlemisel turvaprobleeme, olenevalt ettevõttest ja andmete liigist. Näiteks isiklik terviseteave (PHI) sisaldub tervishoiutööstuses sageli statsionaarsetes andmetes ja seda tuleb käsitleda ülima turvalisusega.

Kuna sünteetilised andmed ei sisalda teavet tegelike inimeste kohta, on privaatsusprobleemid väiksemad. Kui teie meeskond peab järgima teatud andmekaitseseadusi, kaaluge alternatiivina sünteetiliste andmete kasutamist.

Tegelikud andmed vs sünteetilised andmed

Reaalses maailmas saadakse või mõõdetakse tegelikke andmeid. Kui keegi kasutab nutitelefoni, sülearvutit või arvutit, kannab käekella, külastab veebisaiti või teeb võrgus tehingu, genereeritakse seda tüüpi andmed koheselt.

Lisaks saab küsitlusi kasutada ehtsate andmete esitamiseks (online ja offline). Digitaalsed seaded toodavad sünteetilisi andmeid. Sünteetilised andmed luuakse viisil, mis jäljendab põhiomaduste poolest edukalt tegelikke andmeid, välja arvatud see osa, mida ei tuletatud ühestki reaalse maailma sündmusest.

Idee kasutada sünteetilisi andmeid tegelike andmete asendajana on väga paljutõotav, kuna neid saab kasutada koolitusandmed, mis võimaldavad masinõpet mudelid nõuavad. Kuid see pole kindel tehisintellekti suudab lahendada kõik tegelikus maailmas esilekerkivad probleemid.

Kasuta juhtudel

Sünteetilised andmed on kasulikud erinevatel ärilistel eesmärkidel, sealhulgas mudelikoolituseks, mudelite valideerimiseks ja uute toodete testimiseks. Loetleme mõned sektorid, mis on selle masinõppes rakendamisel teed juhtinud:

1. Tervishoid

Arvestades andmete tundlikkust, sobib tervishoiusektor sünteetiliste andmete kasutamiseks hästi. Töörühmad saavad kasutada sünteetilisi andmeid, et registreerida igat tüüpi patsientide füsioloogia, mis aitab haigusi kiiremini ja täpsemini diagnoosida.

Tervishoid

Google'i melanoomi tuvastamise mudel on selle intrigeeriv näide, kuna see sisaldab sünteetilisi andmeid tumedama nahatooniga inimeste kohta (kliiniliste andmete valdkond, mis on kahjuks alaesindatud), et pakkuda mudelile võimet tõhusalt toimida kõikide nahatüüpide puhul.

2. Autod

Isejuhtivaid autosid loovad ettevõtted kasutavad jõudluse hindamiseks sageli simulaatoreid. Näiteks kui ilm on karm, võib tegelike teeandmete kogumine olla riskantne või keeruline.

Isejuhtiv auto

Tegelike autodega reaalajas testidele lootmine teedel ei ole üldiselt hea mõte, kuna on lihtsalt liiga palju muutujaid, mida kõigis erinevates sõiduolukordades arvesse võtta.

3. Andmete teisaldatavus

Oma koolitusandmete teistega jagamiseks vajavad organisatsioonid usaldusväärseid ja turvalisi meetodeid. Veel üks sünteetiliste andmete intrigeeriv rakendus on isikut tuvastava teabe (PII) peitmine enne andmekogumi avalikustamist. Teadusuuringute andmestike, meditsiiniliste andmete, sotsioloogiliste andmete ja muude valdkondade, mis võivad sisaldada isikut tuvastavat teavet, vahetamist nimetatakse privaatsust säilitavateks sünteetilisteks andmeteks.

4. Turvalisus

Organisatsioonid on tänu sünteetilistele andmetele turvalisemad. Seoses taas meie näotuvastuse näitega, võite olla tuttav fraasiga „sügavad võltsingud”, mis kirjeldab fabritseeritud fotosid või videoid. Ettevõtted saavad toota sügavaid võltsinguid, et testida oma näotuvastus- ja turvasüsteeme. Sünteetilisi andmeid kasutatakse ka videovalves modellide kiiremaks ja odavamaks koolitamiseks.

Sünteetilised andmed ja masinõpe

Tugeva ja usaldusväärse mudeli loomiseks vajavad masinõppe algoritmid töötlemiseks märkimisväärsel hulgal andmeid. Sünteetiliste andmete puudumisel oleks nii suure andmemahu tootmine keeruline.

Sellistes valdkondades nagu arvutinägemine või pilditöötlus, kus mudelite väljatöötamist soodustab varaste sünteetiliste andmete väljatöötamine, võib see olla äärmiselt oluline. Uus areng pildituvastuse vallas on generatiivsete võistlevate võrkude (GAN) kasutamine. Tavaliselt koosneb see kahest võrgust: generaatorist ja diskriminaatorist.

Kui diskrimineerimisvõrgu eesmärk on eraldada tegelikud fotod võltsitud fotodest, siis generaatorivõrgu ülesanne on toota sünteetilisi pilte, mis on palju sarnasemad tegelike piltidega.

Masinõppes on GAN-id närvivõrkude perekonna alamhulk, kus mõlemad võrgud õpivad ja arenevad pidevalt, lisades uusi sõlmi ja kihte.

Sünteetiliste andmete loomisel on teil võimalus mudeli jõudluse parandamiseks vajadusel muuta keskkonda ja andmete tüüpi. Kuigi sünteetiliste andmete täpsust saab hõlpsasti saavutada tugeva skooriga, võib märgistatud reaalajas andmete täpsus mõnikord olla väga kulukas.

Kuidas saate sünteetilisi andmeid genereerida?

Sünteetilise andmekogu loomiseks kasutatavad lähenemisviisid on järgmised:

Statistilise jaotuse alusel

Sel juhul kasutatav strateegia on võtta jaotusest arvud või vaadata tegelikke statistilisi jaotusi, et luua võrreldavaid valeandmeid. Teatud juhtudel võivad tegelikud andmed täielikult puududa.

Andmeteadlane saab luua andmekogumi, mis sisaldab mis tahes jaotuse juhuslikku valimit, kui tal on tegelike andmete statistilisest jaotusest sügav arusaam. Normaaljaotus, eksponentsiaalne jaotus, hii-ruutjaotus, lognormaaljaotus ja palju muud on vaid mõned näited statistiliste tõenäosusjaotuste kohta, mida saab selleks kasutada.

Andmeteadlase kogemuste tase olukorraga mõjutab oluliselt koolitatud mudeli täpsust.

Olenevalt mudelist

See meetod loob mudeli, mis võtab arvesse täheldatud käitumist enne selle mudeli kasutamist juhuslike andmete genereerimiseks. Sisuliselt hõlmab see reaalsete andmete sobitamist teadaoleva jaotuse andmetega. Monte Carlo lähenemisviisi saavad seejärel ettevõtted kasutada võltsandmete loomiseks.

Lisaks saab jaotusi paigaldada ka kasutades masinõppe mudelid nagu otsustuspuud. Andmeteadlased Peab siiski prognoosile tähelepanu pöörama, kuna otsustuspuud sobivad nende lihtsuse ja sügavuse laienemise tõttu tavaliselt üle.

Sügava õppimisega

Sügav õppimine mudelid, mis kasutavad variatsioonilise automaatkodeerija (VAE) või generatiivse vastastikuse võrgu (GAN) mudeleid, on kaks võimalust sünteetiliste andmete loomiseks. Järelevalveta masinõppe mudelid hõlmavad VAE-sid.

Need koosnevad kodeerijatest, mis kahandavad ja tihendavad algandmeid, ja dekoodritest, mis kontrollivad neid andmeid, et esitada tegelikud andmed. VAE põhieesmärk on hoida sisend- ja väljundandmed võimalikult identsetena. Kaks vastandlikku närvivõrku on GAN-mudelid ja võistlevad võrgud.

Esimene võrk, mida tuntakse generaatorivõrguna, vastutab võltsandmete loomise eest. Diskriminaatorivõrk, teine võrk, võrdleb loodud sünteetilisi andmeid tegelike andmetega, et teha kindlaks, kas andmestik on petturlik. Diskriminaator hoiatab generaatorit, kui ta avastab võltsandmestiku.

Generaator muudab järgnevalt järgmist eristajale edastatud andmete kogumit. Selle tulemusena muutub diskrimineerija võltsandmekogude tuvastamisel aja jooksul paremaks. Seda tüüpi mudelit kasutatakse sageli finantssektoris pettuste tuvastamiseks ja tervishoiusektoris meditsiinilise pildistamise jaoks.

Andmete suurendamine on erinev meetod, mida andmeteadlased kasutavad rohkemate andmete saamiseks. Seda ei tohiks siiski segi ajada võltsandmetega. Lihtsamalt öeldes on andmete suurendamine uute andmete lisamine juba olemasolevasse ehtsasse andmekogumisse.

Mitme pildi loomine ühest pildist, näiteks suuna, heleduse, suurenduse ja muu reguleerimise teel. Mõnikord kasutatakse tegelikku andmekogumit, alles jääb ainult isiklik teave. See on andmete anonüümseks muutmine ja selliste andmete kogumit ei saa samuti pidada sünteetilisteks andmeteks.

Sünteetiliste andmete väljakutsed ja piirangud

Kuigi sünteetilistel andmetel on mitmeid eeliseid, mis võivad aidata ettevõtteid andmetealase tegevusega tegelemisel, on neil ka teatud piirangud:

Andmete usaldusväärsus: On üldteada, et iga masinõppe-/sügavõppemudel on täpselt nii hea, kui palju on talle sisestatud andmed. Sünteetiliste andmete kvaliteet on selles kontekstis tugevalt seotud sisendandmete kvaliteediga ja andmete tootmiseks kasutatava mudeliga. Oluline on tagada, et lähteandmetes ei esineks eelarvamusi, kuna need võivad sünteetilistes andmetes väga selgelt peegelduda. Lisaks tuleks enne prognooside tegemist andmete kvaliteeti kinnitada ja kontrollida.
Nõuab teadmisi, pingutust ja aega: Kuigi sünteetiliste andmete loomine võib olla lihtsam ja odavam kui ehtsate andmete loomine, vajab see siiski teadmisi, aega ja vaeva.
Anomaaliate kordamine: reaalmaailma andmete täiuslik koopia pole võimalik; sünteetilised andmed suudavad seda vaid ligikaudselt hinnata. Seetõttu ei pruugi mõned tegelikes andmetes esinevad kõrvalekalded olla sünteetiliste andmetega kaetud. Andmeanomaaliad on olulisemad kui tüüpilised andmed.
Tootmise kontroll ja kvaliteedi tagamine: sünteetilised andmed on mõeldud reaalmaailma andmete kopeerimiseks. Andmete käsitsi kontrollimine muutub oluliseks. Oluline on kontrollida andmete täpsust enne nende lisamist masinõppe/sügavõppe mudelitesse keerukate andmekogumite jaoks, mis luuakse automaatselt algoritme kasutades.
Kasutaja tagasiside: Kuna sünteetilised andmed on uudne mõiste, ei ole kõik valmis nendega tehtud prognoose uskuma. See viitab sellele, et kasutaja vastuvõetavuse suurendamiseks on esmalt vaja tõsta teadmisi sünteetiliste andmete kasulikkusest.

Tulevik

Sünteetiliste andmete kasutamine on eelmisel kümnendil järsult kasvanud. Kuigi see säästab ettevõtete aega ja raha, pole sellel ka puudusi. Sellel puuduvad kõrvalekalded, mis esinevad loomulikes tegelikes andmetes ja on mõne mudeli puhul täpsuse jaoks kriitilised.

Samuti väärib märkimist, et sünteetiliste andmete kvaliteet sõltub sageli loomiseks kasutatud sisendandmetest; sisendandmete eelarvamused võivad kiiresti levida sünteetilistesse andmetesse, seega ei tohiks lähtepunktiks kvaliteetsete andmete valimist üle tähtsustada.

Lõpuks vajab see täiendavat väljundi juhtimist, sealhulgas sünteetiliste andmete võrdlemist inimese annoteeritud tegelike andmetega, et kontrollida, kas lahknevusi ei esine. Nendest takistustest hoolimata on sünteetilised andmed endiselt paljulubavad valdkonnad.

See aitab meil luua uudseid AI-lahendusi isegi siis, kui tegelikud andmed pole saadaval. Kõige olulisem on see, et see võimaldab ettevõtetel luua tooteid, mis on kaasavamad ja näitavad nende lõpptarbijate mitmekesisust.

Andmepõhises tulevikus kavatsevad sünteetilised andmed siiski aidata andmeteadlastel täita uudseid ja loomingulisi ülesandeid, mida oleks keeruline täita ainult reaalmaailma andmetega.

Järeldus

Teatud juhtudel võivad sünteetilised andmed leevendada andmepuudust või asjakohaste andmete puudumist ettevõttes või organisatsioonis. Samuti uurisime, millised strateegiad võivad aidata sünteetiliste andmete genereerimisel ja kes saavad sellest kasu.

Rääkisime ka sünteetiliste andmete käsitlemisega kaasnevatest raskustest. Äriliste otsuste tegemisel eelistatakse alati tegelikke andmeid. Kuid realistlikud andmed on paremuselt järgmine valik, kui sellised tõesed algandmed pole analüüsimiseks kättesaadavad.

Siiski tuleb meeles pidada, et sünteetiliste andmete tootmiseks on vaja andmeteadlasi, kellel on andmete modelleerimisest kindel arusaam. Samuti on oluline tegelike andmete ja nende ümbruse põhjalik mõistmine. See on oluline tagamaks, et toodetud andmed on võimaluse korral võimalikult täpsed.

Sünteetilised andmed selgitatud – järgmine suur asi AI-s, ML-is ja DL-is

Niisiis, mis on sünteetilised andmed?