Razloženi sintetični podatki – naslednja velika stvar v AI, ML in DL

Programi za napredno analitiko in strojno učenje poganjajo podatki, vendar je dostop do teh podatkov lahko za akademike težaven zaradi izzivov z zasebnostjo in poslovnimi postopki.

Sintetični podatki, ki jih je mogoče deliti in uporabljati na načine, ki jih dejanski podatki ne morejo, so potencialna nova smer. Vendar pa ta nova strategija ni brez nevarnosti ali slabosti, zato je ključnega pomena, da podjetja natančno premislijo, kje in kako uporabljajo svoje vire.

V trenutni dobi umetne inteligence lahko tudi trdimo, da so podatki novo olje, vendar le nekaj izbranih sedi na curku. Zato veliko ljudi proizvaja svoje gorivo, ki je cenovno ugodno in učinkovito. Znano je kot sintetični podatki.

V tej objavi si bomo podrobno ogledali sintetične podatke – zakaj bi jih morali uporabiti, kako jih izdelati, kaj se razlikujejo od dejanskih podatkov, kakšne primere uporabe lahko služijo in še veliko več.

Torej, kaj so sintetični podatki?

Kadar so pristni nabori podatkov neustrezni v smislu kakovosti, števila ali raznolikosti, se lahko sintetični podatki uporabijo za usposabljanje modelov AI namesto resničnih zgodovinskih podatkov.

Ko obstoječi podatki ne izpolnjujejo poslovnih zahtev ali imajo tveganje za zasebnost, ko se uporabljajo za razvoj strojno učenje modeli, testna programska oprema ali podobno, sintetični podatki so lahko pomembno orodje za korporativna prizadevanja AI.

Preprosto povedano, sintetični podatki se pogosto uporabljajo namesto dejanskih podatkov. Natančneje, to so podatki, ki so bili umetno označeni in proizvedeni s simulacijami ali računalniškimi algoritmi.

Sintetični podatki

Sintetični podatki so informacije, ki jih je računalniški program ustvaril umetno in ne kot posledica dejanskih dogodkov. Podjetja lahko svojim podatkom o usposabljanju dodajo sintetične podatke, da pokrijejo vse situacije uporabe in robov, zmanjšajo stroške zbiranja podatkov ali izpolnijo predpise o zasebnosti.

Umetni podatki so zdaj bolj dostopni kot kdaj koli prej, zahvaljujoč izboljšavam procesne moči in načinov shranjevanja podatkov, kot je oblak. Sintetični podatki izboljšujejo ustvarjanje rešitev umetne inteligence, ki so bolj koristne za vse končne uporabnike, kar je nedvomno dober razvoj.

Kako pomembni so sintetični podatki in zakaj bi jih morali uporabljati?

Pri usposabljanju modelov AI razvijalci pogosto potrebujejo ogromne nabore podatkov z natančnimi oznakami. Ko se poučuje z bolj raznolikimi podatki, nevronske mreže izvajati natančneje.

Zbiranje in označevanje teh ogromnih podatkovnih nizov, ki vsebujejo na stotine ali celo milijone elementov, pa je lahko nerazumno zamudno in dolgotrajno. Ceno izdelave podatkov o usposabljanju se lahko močno zniža z uporabo sintetičnih podatkov. Na primer, če je umetno ustvarjena slika za usposabljanje, ki stane 5 $, ko jo kupite pri a ponudnik označevanja podatkov lahko stane samo 0.05 $.

Sintetični podatki lahko ublažijo pomisleke glede zasebnosti, povezane s potencialno občutljivimi podatki, ustvarjenimi iz dejanskega sveta, hkrati pa zmanjšajo stroške.

V primerjavi z resničnimi podatki, ki ne bi mogli natančno odražati celotnega spektra dejstev o resničnem svetu, bi lahko pomagali zmanjšati predsodke. Z zagotavljanjem nenavadnih pojavov, ki predstavljajo verjetne možnosti, vendar jih je morda težko pridobiti iz zakonitih podatkov, lahko sintetični podatki ponudijo večjo raznolikost.

Sintetični podatki bi lahko bili fantastično primerni za vaš projekt iz spodaj navedenih razlogov:

1. Robustnost modela

Ne da bi ga morali pridobiti, dostopajte do bolj raznolikih podatkov za svoje modele. S sintetičnimi podatki lahko trenirate svojega modela z uporabo različic iste osebe z različnimi odbitki, dlakami na obrazu, očali, položaji glave itd., pa tudi s tenom kože, etničnimi lastnostmi, strukturo kosti, pegami in drugimi značilnostmi, da ustvarite edinstvene obraze in ga okrepiti.

2. Upoštevajo se robni primeri

Uravnoteženo nabor podatkov ima prednost pri strojnem učenju algoritmov. Pomislite na naš primer prepoznavanja obrazov. Natančnost njihovih modelov bi se izboljšala (in dejansko so nekatera od teh podjetij naredila prav to) in ustvarili bi bolj moralen model, če bi izdelali sintetične podatke o temnejših obrazih, da bi zapolnili vrzeli v podatkih. Ekipe lahko s pomočjo sintetičnih podatkov pokrijejo vse primere uporabe, vključno z robnimi primeri, kjer je podatkov malo ali jih sploh ni.

3. Pridobiti jih je mogoče hitreje kot »dejanske« podatke

Ekipe lahko hitro ustvarijo ogromne količine sintetičnih podatkov. To je še posebej uporabno, če so podatki iz resničnega življenja odvisni od občasnih dogodkov. Ekipe bodo morda težko pridobile dovolj resničnih podatkov o težkih razmerah na cesti med zbiranjem podatkov za samovozeči avtomobil, na primer zaradi njihove redkosti. Da bi pospešili naporen postopek označevanja, lahko podatkovni znanstveniki postavijo algoritme za samodejno označevanje sintetičnih podatkov, ko so ustvarjeni.

4. Varuje podatke o zasebnosti uporabnikov

Podjetja imajo lahko pri ravnanju z občutljivimi podatki težave z varnostjo, odvisno od poslovanja in vrste podatkov. Osebni zdravstveni podatki (PHI), na primer, so pogosto vključeni v bolnišnične podatke v zdravstveni industriji in jih je treba ravnati z največjo varnostjo.

Ker sintetični podatki ne vključujejo informacij o dejanskih ljudeh, so težave z zasebnostjo manjše. Razmislite o uporabi sintetičnih podatkov kot alternative, če mora vaša ekipa upoštevati določene zakone o zasebnosti podatkov.

Resnični podatki v primerjavi s sintetičnimi podatki

V resničnem svetu se pridobijo ali merijo resnični podatki. Ko nekdo uporablja pametni telefon, prenosnik ali računalnik, nosi zapestno uro, dostopa do spletnega mesta ali opravi spletno transakcijo, se ta vrsta podatkov ustvari takoj.

Poleg tega se lahko uporabijo ankete za zagotavljanje pristnih podatkov (spletnih in nespletnih). Digitalne nastavitve proizvajajo sintetične podatke. Z izjemo dela, ki ni izpeljan iz nobenih dogodkov v resničnem svetu, so sintetični podatki ustvarjeni na način, ki uspešno posnema dejanske podatke v smislu temeljnih lastnosti.

Zamisel o uporabi sintetičnih podatkov kot nadomestka za dejanske podatke je zelo obetavna, saj jih je mogoče uporabiti za zagotavljanje podatke o usposabljanju, ki strojno učenje zahtevajo modeli. Ampak to ni gotovo Umetna inteligenca lahko reši vsak problem, ki se pojavi v dejanskem svetu.

Uporabite primeri

Sintetični podatki so uporabni za različne komercialne namene, vključno z usposabljanjem modelov, validacijo modela in testiranjem novih izdelkov. Našteli bomo nekaj sektorjev, ki so vodili pot pri uporabi strojnega učenja:

1. Zdravstvo

Glede na občutljivost njegovih podatkov je zdravstveni sektor zelo primeren za uporabo sintetičnih podatkov. Ekipe lahko uporabijo sintetične podatke za beleženje fiziologije vseh vrst bolnikov, ki bi lahko obstajale, in tako pomagajo pri hitrejši in natančnejši diagnozi bolezni.

Zdravstveno varstvo

Googlov model odkrivanja melanoma je zanimiva ilustracija tega, saj vključuje sintetične podatke ljudi s temnejšimi toni kože (področje kliničnih podatkov, ki je na žalost premalo zastopano), da bi modelu zagotovil zmogljivost za učinkovito delovanje za vse vrste kože.

2. Avtomobili

Simulatorje pogosto uporabljajo podjetja, ki ustvarjajo samovozeče avtomobile za ocenjevanje učinkovitosti. Ko je vreme na primer hudo, je lahko zbiranje resničnih podatkov o cestah tvegano ali težavno.

Samovozeči avto

Zanašati se na teste v živo z dejanskimi avtomobili na cestah na splošno ni dobra ideja, saj je preveč spremenljivk, ki bi jih bilo treba upoštevati v vseh različnih voznih situacijah.

3. Prenosljivost podatkov

Da bi organizacije lahko delile svoje podatke o usposabljanju z drugimi, potrebujejo zaupanja vredne in varne metode. Skrivanje osebno prepoznavnih podatkov (PII), preden se nabor podatkov objavi, je še ena zanimiva aplikacija za sintetične podatke. Izmenjava nizov podatkov o znanstvenih raziskavah, medicinskih podatkov, socioloških podatkov in drugih področij, ki bi lahko vsebovali osebno identiteto, se imenujejo sintetični podatki, ki ohranjajo zasebnost.

4. Varnost

Organizacije so bolj varne zaradi sintetičnih podatkov. Glede našega primera za prepoznavanje obrazov spet, morda poznate frazo »globoki ponaredki«, ki opisuje izmišljene fotografije ali videoposnetke. Podjetja lahko izdelajo globoke ponaredke, da preizkusijo svoje lastne sisteme za prepoznavanje obrazov in varnostne sisteme. Sintetični podatki se uporabljajo tudi v videonadzoru za hitrejše in cenejše usposabljanje modelov.

Sintetični podatki in strojno učenje

Za izgradnjo trdnega in zaupanja vrednega modela algoritmi strojnega učenja potrebujejo za obdelavo veliko količino podatkov. V odsotnosti sintetičnih podatkov bi bila priprava tako velike količine podatkov izziv.

Na področjih, kot sta računalniški vid ali obdelava slik, kjer je razvoj modelov olajšan z razvojem zgodnjih sintetičnih podatkov, je lahko izjemno pomemben. Nov razvoj na področju prepoznavanja slik je uporaba generativnih nasprotniških omrežij (GAN). Običajno je sestavljen iz dveh omrežij: generatorja in diskriminatorja.

Medtem ko je cilj omrežja diskriminatorja ločiti dejanske fotografije od ponarejenih, generatorsko omrežje deluje tako, da proizvaja sintetične slike, ki so bistveno bolj podobne slikam iz resničnega sveta.

Pri strojnem učenju so GAN podmnožica družine nevronskih omrežij, kjer se obe mreži nenehno učita in razvijata z dodajanjem novih vozlišč in plasti.

Pri ustvarjanju sintetičnih podatkov imate možnost, da spremenite okolje in vrsto podatkov, kot je potrebno, da izboljšate zmogljivost modela. Medtem ko je natančnost sintetičnih podatkov mogoče zlahka doseči z močnim rezultatom, je lahko natančnost označenih podatkov v realnem času občasno izjemno draga.

Kako lahko ustvarite sintetične podatke?

Pristopi, ki se uporabljajo za ustvarjanje sintetične zbirke podatkov, so naslednji:

Na podlagi statistične porazdelitve

Strategija, uporabljena v tem primeru, je vzeti številke iz distribucije ali pogledati dejanske statistične porazdelitve, da bi ustvarili napačne podatke, ki so videti primerljivi. V nekaterih okoliščinah so resnični podatki lahko popolnoma odsotni.

Podatkovni znanstvenik lahko ustvari nabor podatkov, ki vsebuje naključni vzorec katere koli porazdelitve, če ima poglobljeno razumevanje statistične porazdelitve v dejanskih podatkih. Normalna porazdelitev, eksponentna porazdelitev, porazdelitev hi-kvadrat, lognormalna porazdelitev in drugo je le nekaj primerov statističnih porazdelitev verjetnosti, ki jih je mogoče uporabiti za to.

Raven izkušenj podatkovnega znanstvenika s situacijo bo pomembno vplivala na natančnost izurjenega modela.

Odvisno od modela

Ta tehnika zgradi model, ki upošteva opaženo vedenje, preden uporabi ta model za ustvarjanje naključnih podatkov. V bistvu to vključuje prilagajanje resničnih podatkov podatkom iz znane distribucije. Korporacije lahko nato uporabijo pristop Monte Carlo za ustvarjanje lažnih podatkov.

Poleg tega je mogoče distribucije namestiti tudi z uporabo modeli strojnega učenja kot drevesa odločanja. Podatkovni strokovnjaki vendar je treba biti pozoren na napoved, saj drevesa odločitev običajno preobremenjena zaradi svoje preprostosti in širitve globine.

Z globokim učenjem

Globoko učenje modeli, ki uporabljajo variacijski samodejni kodirnik (VAE) ali modele Generative Adversarial Network (GAN), sta dva načina za ustvarjanje sintetičnih podatkov. Nenadzorovani modeli strojnega učenja vključujejo VAE.

Sestavljeni so iz kodirnikov, ki skrčijo in stisnejo izvirne podatke, in dekoderjev, ki te podatke pregledajo, da zagotovijo predstavitev resničnih podatkov. Osnovni cilj VAE je ohranjanje čim enakih vhodnih in izhodnih podatkov. Dve nasprotujoči si nevronski mreži sta GAN modeli in konkurenčna omrežja.

Prvo omrežje, znano kot generatorsko omrežje, je zadolženo za proizvodnjo lažnih podatkov. Diskriminatorsko omrežje, drugo omrežje, deluje tako, da ustvarjene sintetične podatke primerja z dejanskimi podatki, da bi ugotovilo, ali je nabor podatkov goljufiv. Diskriminator opozori generator, ko odkrije lažni nabor podatkov.

Generator nato spremeni naslednjo serijo podatkov, posredovanih diskriminatorju. Posledično se diskriminator sčasoma izboljša pri odkrivanju lažnih podatkovnih nizov. Ta vrsta modela se pogosto uporablja v finančnem sektorju za odkrivanje goljufij, pa tudi v zdravstvenem sektorju za medicinsko slikanje.

Povečanje podatkov je druga metoda, ki jo podatkovni znanstveniki uporabljajo za izdelavo več podatkov. Vendar se ne sme zamenjati z lažnimi podatki. Preprosto povedano, povečanje podatkov je dejanje dodajanja novih podatkov v pristen nabor podatkov, ki že obstaja.

Ustvarjanje več slik iz ene slike, na primer s prilagajanjem orientacije, svetlosti, povečave in drugega. Včasih se uporabi dejanski nabor podatkov, pri čemer ostanejo samo osebni podatki. Anonimizacija podatkov je to, kar je in nabor takih podatkov prav tako ne velja za sintetične podatke.

Izzivi in omejitve sintetičnih podatkov

Čeprav imajo sintetični podatki različne prednosti, ki lahko pomagajo podjetjem pri dejavnostih podatkovne znanosti, imajo tudi določene omejitve:

Zanesljivost podatkov: Splošno znano je, da je vsak model strojnega učenja/globokoga učenja dober le toliko, kolikor so podatki, ki jih prejme. Kakovost sintetičnih podatkov je v tem kontekstu močno povezana s kakovostjo vhodnih podatkov in modelom, ki se uporablja za izdelavo podatkov. Ključnega pomena je zagotoviti, da v izvornih podatkih ne obstajajo pristranskosti, saj se te lahko zelo jasno odražajo v sintetičnih podatkih. Poleg tega je treba pred kakršnimi koli napovedmi potrditi in preveriti kakovost podatkov.
Zahteva znanje, trud in čas: Čeprav bi bilo ustvarjanje sintetičnih podatkov lahko enostavnejše in cenejše od ustvarjanja pristnih podatkov, je za to potrebno nekaj znanja, časa in truda.
Repliciranje anomalij: Popolna replika podatkov iz resničnega sveta ni mogoča; sintetični podatki ga lahko le približajo. Zato nekateri izstopi, ki obstajajo v resničnih podatkih, morda niso zajeti s sintetičnimi podatki. Podatkovne anomalije so pomembnejše od tipičnih podatkov.
Nadzor nad proizvodnjo in zagotavljanje kakovosti: Sintetični podatki so namenjeni podvajanju podatkov iz resničnega sveta. Ročno preverjanje podatkov postane nujno. Bistveno je preveriti točnost podatkov, preden jih vključimo v modele strojnega učenja/globokoga učenja za zapletene nabore podatkov, ustvarjene samodejno z uporabo algoritmov.
Odziv uporabnikov: Ker so sintetični podatki nov koncept, vsi ne bodo pripravljeni verjeti napovedim, narejenim z njimi. To kaže, da je za povečanje sprejemljivosti za uporabnike treba najprej dvigniti znanje o uporabnosti sintetičnih podatkov.

Prihodnost

Uporaba sintetičnih podatkov se je v prejšnjem desetletju močno povečala. Čeprav podjetjem prihrani čas in denar, ni brez pomanjkljivosti. Manjka izstopajočih, ki se naravno pojavljajo v dejanskih podatkih in so v nekaterih modelih ključnega pomena za natančnost.

Omeniti velja tudi, da je kakovost sintetičnih podatkov pogosto odvisna od vhodnih podatkov, uporabljenih za ustvarjanje; pristranskosti v vhodnih podatkih se lahko hitro razširijo v sintetične podatke, zato izbire visokokakovostnih podatkov za izhodišče ne smemo pretiravati.

Nazadnje, potrebuje nadaljnji nadzor izhoda, vključno s primerjavo sintetičnih podatkov z resničnimi podatki, ki jih je označil človek, da se preveri, da niso uvedena odstopanja. Kljub tem oviram sintetični podatki ostajajo obetavno področje.

Pomaga nam ustvariti nove rešitve umetne inteligence, tudi ko podatki iz resničnega sveta niso na voljo. Najpomembneje je, da podjetjem omogoča izdelavo izdelkov, ki so bolj vključujoči in kažejo na raznolikost njihovih končnih potrošnikov.

V prihodnosti, ki temelji na podatkih, pa nameravajo sintetični podatki pomagati podatkovnim znanstvenikom pri izvajanju novih in ustvarjalnih nalog, ki bi jih bilo težko dokončati samo s podatki iz resničnega sveta.

zaključek

V določenih primerih lahko sintetični podatki ublažijo primanjkljaj podatkov ali pomanjkanje ustreznih podatkov v podjetju ali organizaciji. Preučili smo tudi, katere strategije lahko pomagajo pri ustvarjanju sintetičnih podatkov in kdo lahko od tega dobi koristi.

Govorili smo tudi o nekaterih težavah, ki jih prinaša ravnanje s sintetičnimi podatki. Za komercialno odločanje bodo vedno naklonjeni resnični podatki. Vendar so realistični podatki naslednja najboljša možnost, ko takšni resnični neobdelani podatki niso dostopni za analizo.

Vendar se je treba spomniti, da so za izdelavo sintetičnih podatkov potrebni podatkovni znanstveniki, ki dobro obvladajo modeliranje podatkov. Pomembno je tudi temeljito razumevanje resničnih podatkov in okolice. To je bistveno za zagotovitev, da so proizvedeni podatki, če so na voljo, čim bolj točni.

Razloženi sintetični podatki – naslednja velika stvar v AI, ML in DL

Torej, kaj so sintetični podatki?