Kazalo[Skrij][Pokaži]
Raziskovalci in podatkovni znanstveniki se pogosto srečujejo z okoliščinami, v katerih bodisi nimajo dejanskih podatkov bodisi jih zaradi zaupnosti ali zasebnosti ne morejo uporabiti.
Za reševanje te težave se sintetična proizvodnja podatkov uporablja za izdelavo zamenjave za pristne podatke.
Za pravilno delovanje algoritma je potrebna ustrezna zamenjava pristnih podatkov, ki morajo biti tudi realistične narave. Takšne podatke lahko uporabite za vzdrževanje zasebnosti, testiranje sistemov ali izdelavo podatkov o usposabljanju za algoritme strojnega učenja.
Podrobno raziščimo sintetično generiranje podatkov in poglejmo, zakaj so ključnega pomena v dobi AI.
Kaj so sintetični podatki?
Sintetični podatki so označeni podatki, ustvarjeni z računalniškimi simulacijami ali algoritmi kot nadomestek za podatke iz resničnega sveta. Je replika dejanskih podatkov, ki jo ustvari umetna inteligenca.
Uporabite lahko podatkovne vzorce in dimenzije z uporabo naprednih algoritmov AI. Ustvarijo lahko neomejeno količino sintetičnih podatkov, ki so statistično reprezentativni za izvirne podatke o usposabljanju, ko so usposobljeni.
Obstajajo različni pristopi in tehnologije, ki nam lahko pomagajo ustvariti sintetične podatke in jih lahko uporabite v različnih aplikacijah.
Programska oprema za ustvarjanje podatkov pogosto zahteva:
- Metapodatki podatkovnega repozitorija, za katerega je treba ustvariti sintetične podatke.
- Tehnika ustvarjanja verjetnih, a izmišljenih vrednosti. Primeri vključujejo sezname vrednosti in regularne izraze.
- Celovito zavedanje vseh podatkovnih odnosov, tistih, ki so deklarirani na ravni baze podatkov, kot tudi tistih, ki so nadzorovani na ravni kode aplikacije.
Prav tako je treba validirati model in primerjati vedenjske vidike resničnih podatkov s tistimi, ki jih ustvari model.
Ti izmišljeni nabori podatkov imajo vso vrednost resnične stvari, vendar nobenega od občutljivih podatkov. Je kot slastna torta brez kalorij. Natančno prikazuje dejanski svet.
Posledično ga lahko uporabite za zamenjavo podatkov iz resničnega sveta.
Pomen sintetičnih podatkov
Sintetični podatki imajo lastnosti, ki ustrezajo določenim zahtevam ali situacijam, ki sicer ne bi bile na voljo v resničnih podatkih. Kadar je premalo podatkov za testiranje ali ko je zasebnost najpomembnejša, pride na pomoč.
Nabori podatkov, ustvarjeni z umetno inteligenco, so prilagodljivi, varni in jih je enostavno shraniti, izmenjati in zavreči. Tehnika sinteze podatkov je primerna za podnabor in izboljšanje izvirnih podatkov.
Posledično je idealen za uporabo kot testni podatki in podatki za usposabljanje AI.
- Za poučevanje Uberja, ki temelji na ML in Samovozeči avtomobili Tesla.
- V medicinski in zdravstveni industriji za oceno posebnih bolezni in okoliščin, za katere ne obstajajo pravi podatki.
- Odkrivanje in zaščita goljufij sta ključnega pomena v finančnem sektorju. Z njegovo uporabo lahko raziščete nove primere goljufije.
- Amazon usposablja Alexin jezikovni sistem z uporabo sintetičnih podatkov.
- American Express uporablja sintetične finančne podatke za izboljšanje odkrivanja goljufij.
Vrste sintetičnih podatkov
Sintetični podatki so ustvarjeni naključno z namenom prikriti občutljive zasebne podatke, hkrati pa ohraniti statistične podatke o značilnostih v izvirnih podatkih.
V glavnem je treh vrst:
- Popolnoma sintetični podatki
- Delno sintetični podatki
- Hibridni sintetični podatki
1. Popolnoma sintetični podatki
Ti podatki so v celoti ustvarjeni in ne vsebujejo izvirnih podatkov.
Običajno bo generator podatkov za to vrsto identificiral funkcije gostote lastnosti v resničnih podatkih in ocenil njihove parametre. Kasneje se iz predvidenih funkcij gostote za vsako funkcijo naključno ustvarijo zasebnostno zaščitene serije.
Če je izbranih le nekaj značilnosti dejanskih podatkov, ki jih je treba zamenjati z njimi, se zaščitena serija teh lastnosti preslika na preostale značilnosti resničnih podatkov, da se zaščitena in realna serija razvrstijo v enakem vrstnem redu.
Tehnike zagona in večkratne imputacije sta dve tradicionalni metodi za izdelavo popolnoma sintetičnih podatkov.
Ker so podatki v celoti sintetični in ne obstajajo pravi podatki, ta strategija zagotavlja odlično zaščito zasebnosti z zanašanjem na resničnost podatkov.
2. Delno sintetični podatki
Ti podatki uporabljajo samo sintetične vrednosti za zamenjavo vrednosti nekaj občutljivih funkcij.
V tem primeru se pristne vrednosti spremenijo le, če obstaja velika nevarnost izpostavljenosti. Ta sprememba je narejena za zaščito zasebnosti sveže ustvarjenih podatkov.
Za izdelavo delno sintetičnih podatkov se uporablja več imputacij in pristopov, ki temeljijo na modelu. Te metode je mogoče uporabiti tudi za zapolnitev manjkajočih vrednosti v resničnih podatkih.
3. Hibridni sintetični podatki
Hibridni sintetični podatki vključujejo tako dejanske kot ponarejene podatke.
Za vsak naključni zapis resničnih podatkov se izbere skoraj zapis v njem, nato pa se oba združita, da ustvarita hibridne podatke. Ima prednosti tako popolnoma sintetičnih kot delno sintetičnih podatkov.
Zato ponuja močno ohranjanje zasebnosti z visoko uporabnostjo v primerjavi z ostalima dvema, vendar za ceno več pomnilnika in časa obdelave.
Tehnike generiranja sintetičnih podatkov
Že vrsto let je bil koncept strojno izdelanih podatkov priljubljen. Zdaj zori.
Tukaj je nekaj tehnik, ki se uporabljajo za ustvarjanje sintetičnih podatkov:
1. Na podlagi distribucije
V primeru, da resničnih podatkov ni, vendar ima analitik podatkov temeljito predstavo o tem, kako bi izgledala porazdelitev nabora podatkov; lahko ustvarijo naključni vzorec katere koli porazdelitve, vključno z normalno, eksponentno, hi-kvadratom, t, lognormalno in enotno.
Vrednost sintetičnih podatkov pri tej metodi se razlikuje glede na raven analitikovega razumevanja določenega podatkovnega okolja.
2. Podatki iz resničnega sveta v znano distribucijo
Podjetja ga lahko izdelajo tako, da določijo najbolj primerne distribucije za dane resnične podatke, če obstajajo resnični podatki.
Podjetja lahko uporabijo pristop Monte Carlo, da ga izdelajo, če želijo dejanske podatke umestiti v znano distribucijo in poznajo distribucijske parametre.
Čeprav lahko pristop Monte Carlo pomaga podjetjem pri iskanju najboljšega ujemanja, ki je na voljo, najboljša možnost morda ne bo dovolj uporabna za potrebe podjetja po sintetičnih podatkih.
Podjetja bi lahko v teh okoliščinah raziskala uporabo modelov strojnega učenja, ki bi ustrezali distribucijam.
Tehnike strojnega učenja, kot so drevesa odločitev, omogočajo organizacijam modeliranje neklasičnih distribucij, ki so lahko multimodalne in nimajo skupnih lastnosti priznanih distribucij.
Podjetja lahko proizvajajo sintetične podatke, ki se povezujejo s pristnimi podatki s to distribucijo, ki je opremljena s strojnim učenjem.
Vendar pa modeli strojnega učenja so dovzetni za prekomerno opremljanje, zaradi česar se ne morejo ujemati s svežimi podatki ali napovedati prihodnjih opazovanj.
3. Globoko učenje
Globoki generativni modeli, kot sta variacijski samodejni kodirnik (VAE) in generativno nasprotno omrežje (GAN), lahko proizvajajo sintetične podatke.
Variacijski samodejni kodirnik
VAE je nenadzorovan pristop, pri katerem kodirnik stisne izvirni nabor podatkov in pošlje podatke dekoderju.
Dekoder nato proizvede izhod, ki je predstavitev izvirnega nabora podatkov.
Poučevanje sistema vključuje maksimiranje korelacije med vhodnimi in izhodnimi podatki.
Generacijska svetovalna mreža
Model GAN iterativno trenira model z uporabo dveh omrežij, generatorja in diskriminatorja.
Generator ustvari sintetični nabor podatkov iz niza naključnih vzorčnih podatkov.
Discriminator primerja sintetično ustvarjene podatke z resničnim naborom podatkov z uporabo vnaprej določenih pogojev.
Ponudniki sintetičnih podatkov
Strukturirani podatki
Spodaj omenjene platforme zagotavljajo sintetične podatke, ki izhajajo iz tabeličnih podatkov.
Podvaja podatke iz resničnega sveta, shranjene v tabelah, in se lahko uporablja za vedenjsko, napovedno ali transakcijsko analizo.
- Vzemite AI: Je ponudnik sistema za ustvarjanje sintetičnih podatkov, ki uporablja generativna nasprotovalna omrežja in diferencialno zasebnost.
- Boljši podatki: Je ponudnik sintetičnih podatkovnih rešitev za ohranjanje zasebnosti za umetno inteligenco, skupno rabo podatkov in razvoj izdelkov.
- Divepale: Je ponudnik Geminai, sistema za ustvarjanje "dvojnih" podatkovnih nizov z enakimi statističnimi značilnostmi kot izvirni podatki.
Nestrukturirani podatki
Spodaj omenjene platforme delujejo z nestrukturiranimi podatki in zagotavljajo sintetične podatkovne izdelke in storitve za usposabljanje algoritmov za vid in izvidništvo.
- Datagen: Zagotavlja 3D simulirane podatke o usposabljanju za učenje in razvoj vizualne umetne inteligence.
- Nevrološki laboratoriji: Neurolabs je ponudnik sintetične podatkovne platforme za računalniški vid.
- Vzporedna domena: Je ponudnik sintetične podatkovne platforme za primere uporabe za usposabljanje in testiranje avtonomnega sistema.
- Cognata: Je dobavitelj simulacij za ADAS in razvijalce avtonomnih vozil.
- Bifrost: Ponuja sintetične podatkovne API-je za ustvarjanje 3D okolij.
Izzivi
Ima dolgo zgodovino v Umetna inteligenca, in čeprav ima številne prednosti, ima tudi pomembne pomanjkljivosti, ki jih morate obravnavati pri delu s sintetičnimi podatki.
Tu so nekatere od njih:
- Med kopiranjem kompleksnosti iz dejanskih podatkov v sintetične podatke je lahko veliko napak.
- Njegova prilagodljiva narava vodi do pristranskosti v njegovem vedenju.
- Obstajajo lahko nekatere skrite pomanjkljivosti v delovanju algoritmov, usposobljenih z uporabo poenostavljenih predstavitev sintetičnih podatkov, ki so se nedavno pojavile med obravnavo dejanskih podatkov.
- Podvajanje vseh ustreznih atributov iz resničnih podatkov lahko postane zapleteno. Možno je tudi, da se med tem postopkom spregledajo nekateri bistveni vidiki.
zaključek
Proizvodnja sintetičnih podatkov očitno pritegne pozornost ljudi.
Ta metoda morda ni enoten odgovor za vse primere, ki ustvarjajo podatke.
Poleg tega lahko tehnika zahteva inteligenco prek AI/ML in je sposobna obravnavati zapletene situacije v resničnem svetu ustvarjanja medsebojno povezanih podatkov, v idealnem primeru podatkov, primernih za določeno domeno.
Kljub temu gre za inovativno tehnologijo, ki zapolnjuje vrzel, kjer druge tehnologije, ki omogočajo zasebnost, zaostajajo.
Danes sintetika proizvodnja podatkov bo morda potrebovala soobstoj maskiranja podatkov.
V prihodnosti bo morda prišlo do večje konvergence med obema, kar bo povzročilo bolj celovito rešitev za ustvarjanje podatkov.
Delite svoje poglede v komentarjih!
Pustite Odgovori