Sadržaj[Sakrij][Prikaži]
Istraživači i naučnici podataka često se susreću sa okolnostima u kojima ili nemaju stvarne podatke ili ih ne mogu koristiti zbog povjerljivosti ili privatnosti.
Za rješavanje ovog problema, sintetička proizvodnja podataka se koristi za proizvodnju zamjene za originalne podatke.
Za pravilno funkcioniranje algoritma potrebna je odgovarajuća zamjena originalnih podataka, koji bi također trebali biti realističnog karaktera. Takve podatke možete koristiti za održavanje privatnosti, testiranje sistema ili proizvodnju podataka o obuci za algoritme mašinskog učenja.
Hajde da detaljno istražimo generisanje sintetičkih podataka i vidimo zašto su oni vitalni u doba AI.
Šta su sintetički podaci?
Sintetički podaci su označeni podaci generirani kompjuterskim simulacijama ili algoritmima kao zamjena za podatke iz stvarnog svijeta. To je replika stvarnih podataka generisana umjetnom inteligencijom.
Može se koristiti uzorke podataka i dimenzije koristeći napredne AI algoritame. Oni mogu stvoriti neograničenu količinu sintetičkih podataka koji su statistički reprezentativni za originalne podatke o obuci nakon što su obučeni.
Postoji niz pristupa i tehnologija koje nam mogu pomoći u stvaranju sintetičkih podataka i koje možete koristiti u raznim aplikacijama.
Softver za generiranje podataka često zahtijeva:
- Metapodaci spremišta podataka, za koje se moraju kreirati sintetički podaci.
- Tehnika generisanja uvjerljivih, ali izmišljenih vrijednosti. Primjeri uključuju liste vrijednosti i regularne izraze.
- Sveobuhvatna svjesnost svih odnosa podataka, onih deklariranih na razini baze podataka, kao i onih kontroliranih na razini koda aplikacije.
Jednako je potrebno validirati model i uporediti aspekte ponašanja stvarnih podataka sa onima koje je generisao model.
Ovi fiktivni skupovi podataka imaju svu vrijednost stvarne stvari, ali nijedan od osjetljivih podataka. To je poput ukusnog kolača bez kalorija. Točno oslikava stvarni svijet.
Kao rezultat toga, možete ga koristiti za zamjenu podataka iz stvarnog svijeta.
Važnost sintetičkih podataka
Sintetički podaci imaju karakteristike koje odgovaraju određenim zahtjevima ili situacijama koje bi inače bile nedostupne u podacima iz stvarnog svijeta. Kada postoji mali broj podataka za testiranje ili kada je privatnost glavna tema, to dolazi u pomoć.
Skupovi podataka generirani od umjetne inteligencije su prilagodljivi, sigurni i laki za pohranu, razmjenu i odbacivanje. Tehnika sinteze podataka je prikladna za podskupinu i poboljšanje originalnih podataka.
Kao posljedica toga, idealan je za korištenje kao test podataka i podataka za AI trening.
- Za podučavanje Ubera i Tesla samovozeći automobili.
- U medicinskoj i zdravstvenoj industriji, za procjenu specifičnih bolesti i okolnosti za koje ne postoje pravi podaci.
- Otkrivanje i zaštita od prevara su ključni u finansijskom sektoru. Koristeći ga, možete istražiti nove slučajeve prijevare.
- Amazon obučava Alexin jezički sistem koristeći sintetičke podatke.
- American Express koristi sintetičke finansijske podatke za poboljšanje otkrivanja prijevara.
Vrste sintetičkih podataka
Sintetički podaci se kreiraju nasumično s namjerom da se prikriju osjetljive privatne informacije uz zadržavanje statističkih informacija o karakteristikama u originalnim podacima.
Uglavnom je tri vrste:
- Potpuno sintetički podaci
- Djelomično sintetički podaci
- Hibridni sintetički podaci
1. Potpuno sintetički podaci
Ovi podaci su u potpunosti generirani i ne sadrže originalne podatke.
Tipično, generator podataka za ovu vrstu će identificirati funkcije gustoće karakteristika u stvarnim podacima i procijeniti njihove parametre. Kasnije, od predviđenih funkcija gustoće, serije zaštićene privatnosti kreiraju se nasumično za svaku karakteristiku.
Ako se odabere samo nekoliko karakteristika stvarnih podataka koje će biti zamijenjene njima, zaštićeni niz ovih karakteristika se preslikava na preostale karakteristike stvarnih podataka kako bi se zaštićeni i stvarni nizovi rangirali istim redoslijedom.
Bootstrap tehnike i višestruke imputacije su dvije tradicionalne metode za proizvodnju potpuno sintetičkih podataka.
Budući da su podaci u potpunosti sintetički i ne postoje pravi podaci, ova strategija pruža odličnu zaštitu privatnosti uz oslanjanje na istinitost podataka.
2. Djelomično sintetički podaci
Ovi podaci koriste samo sintetičke vrijednosti za zamjenu vrijednosti nekoliko osjetljivih karakteristika.
U ovoj situaciji, prave vrijednosti se mijenjaju samo ako postoji značajna opasnost od izlaganja. Ova promjena je urađena radi zaštite privatnosti svježe kreiranih podataka.
Višestruka imputacija i pristupi zasnovani na modelu koriste se za proizvodnju djelomično sintetičkih podataka. Ove metode se također mogu koristiti za popunjavanje vrijednosti koje nedostaju u podacima iz stvarnog svijeta.
3. Hibridni sintetički podaci
Hibridni sintetički podaci uključuju i stvarne i lažne podatke.
Za svaki nasumični zapis stvarnih podataka bira se skoro rekord u njemu, a zatim se ta dva spajaju da bi se generisali hibridni podaci. Ima prednosti i potpuno sintetičkih i djelomično sintetičkih podataka.
Stoga nudi snažno očuvanje privatnosti uz veliku korisnost u poređenju s druga dva, ali po cijenu više memorije i vremena obrade.
Tehnike generisanja sintetičkih podataka
Dugi niz godina, koncept mašinski izrađenih podataka bio je popularan. Sada sazrijeva.
Evo nekih tehnika koje se koriste za generiranje sintetičkih podataka:
1. Na osnovu distribucije
U slučaju da ne postoje pravi podaci, ali analitičar podataka ima detaljnu ideju o tome kako bi se distribucija skupa podataka pojavila; oni mogu proizvesti nasumični uzorak bilo koje distribucije, uključujući normalnu, eksponencijalnu, hi-kvadrat, t, lognormalnu i uniformnu.
Vrijednost sintetičkih podataka u ovoj metodi varira u zavisnosti od nivoa razumijevanja analitičara o određenom okruženju podataka.
2. Podaci iz stvarnog svijeta u poznatu distribuciju
Poduzeća ga mogu proizvesti identificiranjem distribucija koje najbolje odgovaraju za date stvarne podatke ako postoje stvarni podaci.
Kompanije mogu koristiti Monte Carlo pristup da ga proizvedu ako žele da uklope stvarne podatke u poznatu distribuciju i znaju parametre distribucije.
Iako Monte Carlo pristup može pomoći preduzećima u lociranju najboljeg dostupnog podudaranja, ono što najbolje odgovara možda neće biti dovoljno korisno za potrebe kompanije za sintetičkim podacima.
Preduzeća bi mogla istražiti korištenje modela strojnog učenja kako bi odgovarali distribucijama u ovim okolnostima.
Tehnike mašinskog učenja, kao što su stabla odlučivanja, omogućavaju organizacijama da modeliraju neklasične distribucije, koje mogu biti multimodalne i nemaju zajednička svojstva priznatih distribucija.
Preduzeća mogu proizvoditi sintetičke podatke koji se povezuju sa pravim podacima koristeći ovu distribuciju prilagođenu mašinskom učenju.
Kako god, Modeli mašinskog učenja podložni su prenamjenjivanju, što uzrokuje da ne odgovaraju svježim podacima ili predviđaju buduća zapažanja.
3. Duboko učenje
Duboki generativni modeli kao što su Variacijski Autoencoder (VAE) i Generative Adversarial Network (GAN) mogu proizvesti sintetičke podatke.
Variacijski autoencoder
VAE je pristup bez nadzora u kojem enkoder kompresuje originalni skup podataka i šalje podatke dekoderu.
Dekoder tada proizvodi izlaz koji je reprezentacija originalnog skupa podataka.
Podučavanje sistema uključuje maksimiziranje korelacije između ulaznih i izlaznih podataka.
Generativna Adversarial Network
GAN model iterativno trenira model koristeći dvije mreže, generator i diskriminator.
Generator kreira sintetički skup podataka iz skupa nasumičnih uzoraka podataka.
Discriminator uspoređuje sintetički kreirane podatke sa stvarnim skupom podataka koristeći unaprijed definirane uvjete.
Provajderi sintetičkih podataka
Strukturirani podaci
Platforme navedene u nastavku pružaju sintetičke podatke izvedene iz tabelarnih podataka.
On replicira podatke iz stvarnog svijeta koji se čuvaju u tabelama i može se koristiti za bihevioralne, prediktivne ili transakcijske analize.
- Instill AI: To je provajder sintetičkog sistema za kreiranje podataka koji koristi Generativne Adversarial Networks i diferencijalnu privatnost.
- Betterdata: To je dobavljač rješenja za sintetičke podatke koji čuvaju privatnost za AI, dijeljenje podataka i razvoj proizvoda.
- Divepale: On je dobavljač Geminai-a, sistema za kreiranje 'dvostrukih' skupova podataka sa istim statističkim karakteristikama kao i originalni podaci.
Nestrukturirani podaci
Platforme navedene u nastavku rade sa nestrukturiranim podacima, obezbeđujući sintetičke podatke i usluge za obuku algoritama za vid i izviđanje.
- Datagen: Pruža 3D simulirane podatke o obuci za učenje i razvoj vizualne umjetne inteligencije.
- Neurolabs: Neurolabs je dobavljač sintetičke platforme za kompjuterski vid.
- Paralelni domen: To je dobavljač sintetičke platforme podataka za obuku i testiranje autonomnog sistema u slučajevima upotrebe.
- Cognata: To je dobavljač simulacija za ADAS i programere autonomnih vozila.
- Bifrost: Pruža sintetičke API-je podataka za kreiranje 3D okruženja.
Izazovi
Ima dugu istoriju u Umjetna inteligencija, i iako ima mnoge prednosti, ima i značajne nedostatke koje morate riješiti dok radite sa sintetičkim podacima.
Evo nekih od njih:
- Mnogo grešaka može biti tu prilikom kopiranja složenosti sa stvarnih podataka na sintetičke podatke.
- Njegova savitljiva priroda dovodi do predrasuda u njegovom ponašanju.
- Možda postoje neki skriveni nedostaci u performansama algoritama obučenih korištenjem pojednostavljenih reprezentacija sintetičkih podataka koji su se nedavno pojavili dok su se bavili stvarnim podacima.
- Repliciranje svih relevantnih atributa iz podataka iz stvarnog svijeta može postati komplikovano. Također je moguće da se neki bitni aspekti mogu previdjeti tokom ove operacije.
zaključak
Proizvodnja sintetičkih podataka očigledno privlači pažnju ljudi.
Ova metoda možda nije jedinstven odgovor za sve slučajeve generiranja podataka.
Osim toga, tehnika može zahtijevati inteligenciju putem AI/ML-a i biti u stanju da se nosi sa komplikovanim situacijama u stvarnom svijetu stvaranja međusobno povezanih podataka, idealno podataka koji su pogodni za određeni domen.
Ipak, radi se o inovativnoj tehnologiji koja popunjava prazninu u kojoj druge tehnologije koje omogućavaju privatnost zaostaju.
Danas sintetički proizvodnja podataka može zahtijevati koegzistenciju maskiranja podataka.
U budućnosti može doći do veće konvergencije između ova dva, što će rezultirati sveobuhvatnijim rješenjem za generiranje podataka.
Podijelite svoje stavove u komentarima!
Ostavite odgovor