Generiranje sintetičkih podataka: vrste, tehnike i više

Pregled sadržaja[Sakriti][Pokazati]

Što su sintetički podaci?
Važnost sintetičkih podataka
Vrste sintetičkih podataka+-
Tehnike generiranja sintetičkih podataka+-
Davatelji sintetičkih podataka+-
- Strukturirani podaci
- Nestrukturirani podaci
Izazovi
Zaključak

Istraživači i znanstvenici podataka često se susreću s okolnostima u kojima ili nemaju stvarne podatke ili ih ne mogu koristiti zbog povjerljivosti ili privatnosti.

Za rješavanje ovog problema, sintetička proizvodnja podataka koristi se za proizvodnju zamjene za originalne podatke.

Za ispravan rad algoritma potrebna je odgovarajuća zamjena originalnih podataka, koji bi također trebali biti realistični. Takve podatke možete koristiti za održavanje privatnosti, testiranje sustava ili proizvodnju podataka o obuci za algoritme strojnog učenja.

Istražimo detaljno generiranje sintetičkih podataka i vidimo zašto su oni vitalni u doba umjetne inteligencije.

Što su sintetički podaci?

Sintetski podaci su označeni podaci generirani računalnim simulacijama ili algoritmima kao zamjena za podatke iz stvarnog svijeta. To je replika stvarnih podataka generirana umjetnom inteligencijom.

Može se koristiti uzorke podataka i dimenzije pomoću naprednih AI algoritama. Oni mogu stvoriti neograničenu količinu sintetičkih podataka koji su statistički reprezentativni za izvorne podatke o treningu nakon što su obučeni.

Postoji niz pristupa i tehnologija koje nam mogu pomoći u stvaranju sintetičkih podataka i koje možete koristiti u raznim aplikacijama.

Softver za generiranje podataka često zahtijeva:

Metapodaci spremišta podataka za koje se moraju izraditi sintetski podaci.
Tehnika generiranja uvjerljivih, ali izmišljenih vrijednosti. Primjeri uključuju popise vrijednosti i regularne izraze.
Sveobuhvatna svjesnost svih odnosa podataka, onih deklariranih na razini baze podataka kao i onih kontroliranih na razini koda aplikacije.

Jednako je potrebno validirati model i usporediti aspekte ponašanja stvarnih podataka s onima koje je generirao model.

Ovi fiktivni skupovi podataka imaju svu vrijednost stvarne stvari, ali ne i osjetljive podatke. Kao slatka torta bez kalorija. Točno prikazuje stvarni svijet.

Kao rezultat toga, možete ga koristiti za zamjenu podataka iz stvarnog svijeta.

Važnost sintetičkih podataka

Sintetski podaci imaju karakteristike koje odgovaraju određenim zahtjevima ili situacijama koje inače ne bi bile dostupne u podacima iz stvarnog svijeta. Kada je malo podataka za testiranje ili kada je privatnost glavna briga, dolazi u pomoć.

Skupovi podataka generirani umjetnom inteligencijom prilagodljivi su, sigurni i jednostavni za pohranu, razmjenu i odbacivanje. Tehnika sinteze podataka prikladna je za podskupinu i poboljšanje izvornih podataka.

Kao posljedica toga, idealan je za korištenje kao test podataka i podataka za AI trening.

Za podučavanje Ubera i Tesla samovozeći automobili.
U medicinskoj i zdravstvenoj industriji, za procjenu specifičnih bolesti i okolnosti za koje ne postoje pravi podaci.
Otkrivanje i zaštita od prijevare ključni su u financijskom sektoru. Koristeći ga, možete istražiti nove slučajeve prijevare.
Amazon trenira Alexin jezični sustav koristeći sintetičke podatke.
American Express koristi sintetičke financijske podatke za poboljšanje otkrivanja prijevara.

Vrste sintetičkih podataka

Sintetski podaci kreiraju se nasumično s namjerom prikrivanja osjetljivih privatnih informacija uz zadržavanje statističkih podataka o karakteristikama u izvornim podacima.

Uglavnom je tri vrste:

Potpuno sintetički podaci
Djelomično sintetički podaci
Hibridni sintetički podaci

1. Potpuno sintetički podaci

Ovi su podaci u cijelosti generirani i ne sadrže izvorne podatke.

Obično će generator podataka za ovu vrstu identificirati funkcije gustoće značajki u stvarnim podacima i procijeniti njihove parametre. Kasnije, iz predviđenih funkcija gustoće, serije zaštićene privatnosti kreiraju se nasumično za svaku značajku.

Ako se odabere samo nekoliko karakteristika stvarnih podataka koje će se zamijeniti njima, zaštićeni niz ovih značajki preslikava se na preostale značajke stvarnih podataka kako bi se zaštićeni i stvarni nizovi rangirali istim redoslijedom.

Bootstrap tehnike i višestruke imputacije dvije su tradicionalne metode za proizvodnju potpuno sintetičkih podataka.

Budući da su podaci u potpunosti sintetički i ne postoje pravi podaci, ova strategija pruža izvrsnu zaštitu privatnosti uz oslanjanje na istinitost podataka.

2. Djelomično sintetički podaci

Ovi podaci koriste samo sintetičke vrijednosti za zamjenu vrijednosti nekoliko osjetljivih značajki.

U ovoj situaciji, prave vrijednosti se mijenjaju samo ako postoji značajna opasnost od izlaganja. Ova promjena je napravljena radi zaštite privatnosti svježe stvorenih podataka.

Višestruka imputacija i pristupi temeljeni na modelu koriste se za proizvodnju djelomično sintetskih podataka. Ove se metode također mogu koristiti za popunjavanje vrijednosti koje nedostaju u podacima iz stvarnog svijeta.

3. Hibridni sintetički podaci

Hibridni sintetički podaci uključuju i stvarne i lažne podatke.

Za svaki slučajni zapis stvarnih podataka odabire se skoro rekord u njemu, a zatim se ta dva spajaju kako bi se generirali hibridni podaci. Ima prednosti i potpuno sintetskih i djelomično sintetskih podataka.

Stoga nudi snažno očuvanje privatnosti s velikom korisnošću u usporedbi s druga dva, ali po cijenu više memorije i vremena obrade.

Tehnike generiranja sintetičkih podataka

Dugi niz godina popularan je koncept podataka izrađenih strojem. Sada sazrijeva.

Ovdje su neke od tehnika koje se koriste za generiranje sintetičkih podataka:

1. Na temelju distribucije

U slučaju da ne postoje pravi podaci, ali analitičar podataka ima temeljitu ideju o tome kako bi izgledala distribucija skupa podataka; mogu proizvesti nasumični uzorak bilo koje distribucije, uključujući normalnu, eksponencijalnu, hi-kvadrat, t, lognormalnu i jednoličnu.

Vrijednost sintetičkih podataka u ovoj metodi varira ovisno o analitičarevoj razini razumijevanja određenog podatkovnog okruženja.

2. Podaci iz stvarnog svijeta u poznatu distribuciju

Poduzeća ga mogu proizvesti identificiranjem distribucija koje najbolje odgovaraju za dane stvarne podatke ako postoje stvarni podaci.

Poduzeća mogu koristiti Monte Carlo pristup da ga proizvedu ako žele stvarne podatke uklopiti u poznatu distribuciju i znati parametre distribucije.

Iako Monte Carlo pristup može pomoći tvrtkama u lociranju najboljeg dostupnog podudaranja, ono što najbolje odgovara možda neće biti dovoljno korisno za potrebe tvrtke za sintetičkim podacima.

Tvrtke bi mogle istražiti korištenje modela strojnog učenja kako bi odgovarale distribucijama u tim okolnostima.

Tehnike strojnog učenja, kao što su stabla odlučivanja, omogućuju organizacijama modeliranje neklasičnih distribucija, koje mogu biti multimodalne i nemaju zajednička svojstva priznatih distribucija.

Tvrtke mogu proizvoditi sintetičke podatke koji se povezuju s pravim podacima pomoću ove distribucije opremljene strojnim učenjem.

Međutim, modeli strojnog učenja osjetljivi su na prekomjerno opremanje, što uzrokuje neuspjeh uparivanja svježih podataka ili predviđanja budućih promatranja.

3. Duboko učenje

Duboki generativni modeli poput Variacijskog autokodera (VAE) i Generativne adversarijske mreže (GAN) mogu proizvesti sintetičke podatke.

Varijacijski autoenkoder

VAE je pristup bez nadzora u kojem enkoder komprimira izvorni skup podataka i šalje podatke dekoderu.

Dekoder tada proizvodi izlaz koji je prikaz izvornog skupa podataka.

Podučavanje sustava uključuje maksimaliziranje korelacije između ulaznih i izlaznih podataka.

Vae

Generativna savjetodavna mreža

GAN model iterativno trenira model koristeći dvije mreže, generator i diskriminator.

Generator stvara sintetički skup podataka iz skupa nasumičnih uzoraka podataka.

Discriminator uspoređuje sintetički stvorene podatke sa stvarnim skupom podataka koristeći unaprijed definirane uvjete.

Gan

Davatelji sintetičkih podataka

Strukturirani podaci

Platforme navedene u nastavku pružaju sintetičke podatke izvedene iz tabličnih podataka.

Replicira podatke iz stvarnog svijeta koji se čuvaju u tablicama i može se koristiti za bihevioralne, prediktivne ili transakcijske analize.

Usaditi AI: Pružatelj je sintetičkog sustava za stvaranje podataka koji koristi Generativne Adversarial Networks i diferencijalnu privatnost.
Bolji podaci: To je pružatelj rješenja za sintetičke podatke za umjetnu inteligenciju, dijeljenje podataka i razvoj proizvoda za očuvanje privatnosti.
Divepale: Pružatelj je Geminai, sustava za stvaranje 'blizanačkih' skupova podataka s istim statističkim značajkama kao i izvorni podaci.

Nestrukturirani podaci

Platforme navedene u nastavku rade s nestrukturiranim podacima, pružajući sintetičke podatke i usluge za obuku algoritama za vid i izviđanje.

Datagen: Pruža 3D simulirane podatke o obuci za učenje i razvoj vizualne umjetne inteligencije.
Neurolabs: Neurolabs je dobavljač sintetičke podatkovne platforme za računalni vid.
Paralelna domena: Pružatelj je sintetičke podatkovne platforme za obuku i testiranje autonomnog sustava.
Šogorica: Dobavljač je simulacija za ADAS i programere autonomnih vozila.
Bifrost: Pruža sintetičke podatkovne API-je za stvaranje 3D okruženja.

3 2

Izazovi

Ima dugu povijest u Umjetna inteligencija, i iako ima mnoge prednosti, ima i značajne nedostatke koje morate riješiti dok radite sa sintetičkim podacima.

Evo nekih od njih:

Pri kopiranju složenosti iz stvarnih podataka u sintetičke podatke može biti puno pogrešaka.
Njegova savitljiva priroda dovodi do pristranosti u njegovom ponašanju.
Možda postoje neki skriveni nedostaci u izvedbi algoritama obučenih korištenjem pojednostavljenih prikaza sintetičkih podataka koji su se nedavno pojavili dok su se bavili stvarnim podacima.
Repliciranje svih relevantnih atributa iz podataka iz stvarnog svijeta može postati komplicirano. Također je moguće da se neki bitni aspekti mogu previdjeti tijekom ove operacije.

Zaključak

Proizvodnja sintetičkih podataka očito privlači pozornost ljudi.

Ova metoda možda nije jedinstven odgovor za sve slučajeve generiranja podataka.

Osim toga, tehnika može zahtijevati inteligenciju putem AI/ML-a i biti sposobna nositi se sa kompliciranim situacijama u stvarnom svijetu stvaranja međusobno povezanih podataka, idealno podataka prikladnih za određenu domenu.

Ipak, radi se o inovativnoj tehnologiji koja ispunjava prazninu u kojoj druge tehnologije koje omogućuju privatnost ne uspijevaju.

Danas, sintetika proizvodnja podataka može zahtijevati koegzistenciju maskiranja podataka.

U budućnosti bi moglo doći do veće konvergencije između njih, što će rezultirati sveobuhvatnijim rješenjem za generiranje podataka.

Podijelite svoje stavove u komentarima!

Generiranje sintetičkih podataka: vrste, tehnike i više

Što su sintetički podaci?

Važnost sintetičkih podataka