Objašnjenje sintetičkih podataka - sljedeća velika stvar u AI, ML i DL

Napredna analitika i programi mašinskog učenja pokreću se podacima, ali pristup tim podacima može biti težak za akademike zbog izazova s privatnošću i poslovnim procedurama.

Sintetički podaci, koji se mogu dijeliti i koristiti na načine na koje stvarni podaci ne mogu, potencijalni su novi smjer za praćenje. Međutim, ova nova strategija nije bez opasnosti i nedostataka, stoga je ključno da preduzeća pažljivo razmotre gdje i kako koriste svoje resurse.

U sadašnjoj eri umjetne inteligencije, također možemo reći da su podaci nova nafta, ali samo nekolicina odabranih sjedi na šikaru. Stoga mnogi ljudi proizvode vlastito gorivo, koje je i pristupačno i efikasno. Poznat je kao sintetički podaci.

U ovom postu ćemo detaljno pogledati sintetičke podatke – zašto biste ih trebali koristiti, kako ih proizvesti, po čemu se razlikuju od stvarnih podataka, u kojim slučajevima upotrebe mogu poslužiti i još mnogo toga.

Dakle, šta su sintetički podaci?

Kada su pravi skupovi podataka neadekvatni u smislu kvaliteta, broja ili raznolikosti, sintetički podaci se mogu koristiti za obuku AI modela umjesto stvarnih istorijskih podataka.

Kada postojeći podaci ne zadovoljavaju poslovne zahtjeve ili imaju rizike po privatnost kada se koriste za razvoj mašinsko učenje modeli, softver za testiranje ili slično, sintetički podaci mogu biti značajan alat za korporativne napore AI.

Jednostavno rečeno, sintetički podaci se često koriste umjesto stvarnih podataka. Tačnije, to su podaci koji su umjetno označeni i proizvedeni simulacijama ili kompjuterskim algoritmima.

Sintetički podaci

Sintetički podaci su informacije koje je kompjuterski program stvorio umjetno, a ne kao rezultat stvarnih događaja. Kompanije mogu dodati sintetičke podatke u svoje podatke o obuci kako bi pokrile sve situacije upotrebe i rubne situacije, smanjile troškove prikupljanja podataka ili zadovoljile propise o privatnosti.

Umjetni podaci sada su dostupniji nego ikad zahvaljujući poboljšanju procesorske snage i metodama skladištenja podataka poput oblaka. Sintetički podaci poboljšavaju kreiranje AI rješenja koja su korisnija za sve krajnje korisnike, a to je nesumnjivo dobar razvoj.

Koliko su sintetički podaci važni i zašto biste ih trebali koristiti?

Kada obučavaju AI modele, programeri često trebaju ogromne skupove podataka s preciznim označavanjem. Kada se podučava sa raznovrsnijim podacima, neuronske mreže izvesti tačnije.

Međutim, prikupljanje i označavanje ovih masivnih skupova podataka koji sadrže stotine ili čak milione stavki može oduzeti neopravdano vrijeme i novac. Cijena proizvodnje podataka o obuci može se znatno smanjiti korištenjem sintetičkih podataka. Na primjer, ako je stvorena umjetno, slika treninga koja košta 5 dolara kada se kupi od a dobavljač označavanja podataka može koštati samo 0.05 dolara.

Sintetički podaci mogu ublažiti brige o privatnosti koje se odnose na potencijalno osjetljive podatke generirane iz stvarnog svijeta, a istovremeno smanjuju troškove.

U poređenju sa pravim podacima, koji ne mogu precizno odražavati kompletan spektar činjenica o stvarnom svijetu, to bi moglo pomoći u smanjenju predrasuda. Pružajući neobične pojave koje predstavljaju uvjerljive mogućnosti, ali ih je teško dobiti od legitimnih podataka, sintetički podaci mogu ponuditi veću raznolikost.

Sintetički podaci bi mogli biti fantastično prikladni za vaš projekat iz razloga navedenih u nastavku:

1. Robusnost modela

Bez potrebe da ga nabavite, pristupite raznovrsnijim podacima za svoje modele. Sa sintetičkim podacima, možete trenirati svog modela koristeći varijante iste osobe s različitim frizurama, dlakama na licu, naočalama, pozama glave itd., kao i ton kože, etničke osobine, strukturu kostiju, pjege i druge karakteristike kako biste stvorili jedinstvene lica i ojačati ga.

2. Rubni slučajevi se uzimaju u obzir

Uravnotežen skup podataka preferira mašinsko učenje algoritmi. Sjetite se našeg primjera prepoznavanja lica. Preciznost njihovih modela bi se poboljšala (a zapravo, neke od ovih kompanija su učinile upravo to), i proizveli bi moralniji model da su proizveli sintetičke podatke tamnoputih lica kako bi popunili svoje praznine u podacima. Timovi mogu pokriti sve slučajeve upotrebe, uključujući rubne slučajeve u kojima su podaci oskudni ili nepostojeći, uz pomoć sintetičkih podataka.

3. Može se dobiti brže od „stvarnih“ podataka

Timovi su u stanju brzo generirati ogromne količine sintetičkih podataka. Ovo je posebno korisno kada podaci iz stvarnog života zavise od sporadičnih događaja. Timovima će možda biti teško da dobiju dovoljno podataka iz stvarnog svijeta o teškim uvjetima na cesti dok prikupljaju podatke za samovozeći automobil, na primjer, zbog njihove rijetkosti. Kako bi ubrzali naporan proces označavanja, naučnici podataka mogu postaviti algoritme za automatsko označavanje sintetičkih podataka kako se generiraju.

4. Osigurava informacije o privatnosti korisnika

Kompanije mogu imati sigurnosnih poteškoća prilikom rukovanja osjetljivim podacima, ovisno o poslovanju i vrsti podataka. Lične zdravstvene informacije (PHI), na primjer, često se uključuju u podatke o stacionarima u zdravstvenoj industriji i s njima se mora postupati s najvećom sigurnošću.

Budući da sintetički podaci ne uključuju informacije o stvarnim ljudima, problemi privatnosti su smanjeni. Razmislite o korištenju sintetičkih podataka kao alternative ako se vaš tim mora pridržavati određenih zakona o privatnosti podataka.

Pravi podaci naspram sintetičkih podataka

U stvarnom svijetu, stvarni podaci se dobijaju ili mjere. Kada neko koristi pametni telefon, laptop ili računar, nosi ručni sat, pristupi web stranici ili obavi online transakciju, ova vrsta podataka se generiše trenutno.

Osim toga, ankete se mogu koristiti za pružanje pravih podataka (online i offline). Digitalne postavke proizvode sintetičke podatke. Sa izuzetkom dijela koji nije izveden iz bilo kakvih događaja u stvarnom svijetu, sintetički podaci se kreiraju na način koji uspješno oponaša stvarne podatke u smislu osnovnih kvaliteta.

Ideja korištenja sintetičkih podataka kao zamjene za stvarne podatke je vrlo obećavajuća jer se mogu koristiti za pružanje podatke o obuci koji mašinsko učenje modeli zahtevaju. Ali to nije sigurno umjetne inteligencije može riješiti svaki problem koji se pojavi u stvarnom svijetu.

Koristite slučajeve

Sintetički podaci korisni su za razne komercijalne svrhe, uključujući obuku modela, validaciju modela i testiranje novih proizvoda. Navešćemo nekoliko sektora koji su vodili put u njegovoj primeni na mašinsko učenje:

1. Zdravstvo

S obzirom na osjetljivost svojih podataka, zdravstveni sektor je vrlo pogodan za korištenje sintetičkih podataka. Timovi mogu koristiti sintetičke podatke za snimanje fiziologije svake vrste pacijenata koji mogu postojati, pomažući na taj način u bržoj i preciznijoj dijagnozi bolesti.

Zdravstvo

Googleov model otkrivanja melanoma je intrigantna ilustracija ovoga jer uključuje sintetičke podatke ljudi s tamnijim tonovima kože (područje kliničkih podataka koje je nažalost nedovoljno zastupljeno) kako bi modelu pružio kapacitet da efikasno funkcionira za sve vrste kože.

2. Automobili

Simulatore često koriste kompanije koje proizvode samovozeće automobile za procjenu performansi. Kada je vrijeme teško, na primjer, prikupljanje stvarnih podataka o cestama može biti rizično ili teško.

Samovozeći automobil

Osloniti se na testove uživo sa stvarnim automobilima na cestama općenito nije dobra ideja jer postoji previše varijabli koje treba uzeti u obzir u svim različitim situacijama vožnje.

3. Prenosivost podataka

Da bi mogle dijeliti svoje podatke o obuci s drugima, organizacije zahtijevaju pouzdane i sigurne metode. Skrivanje ličnih podataka (PII) prije objavljivanja skupa podataka je još jedna intrigantna aplikacija za sintetičke podatke. Razmjena skupova naučno-istraživačkih podataka, medicinskih podataka, socioloških podataka i drugih polja koja bi mogla sadržavati PII, nazivaju se sintetičkim podacima koji čuvaju privatnost.

4. bezbjednost

Organizacije su sigurnije zahvaljujući sintetičkim podacima. Što se tiče našeg primjera prepoznavanja lica ponovo, možda vam je poznata fraza "duboki lažni", koja opisuje izmišljene fotografije ili video zapise. Poduzeća mogu proizvesti duboke lažnjake kako bi testirala svoje vlastito prepoznavanje lica i sigurnosne sisteme. Sintetički podaci se također koriste u video nadzoru kako bi se modeli obučili brže i po jeftinijoj cijeni.

Sintetički podaci i mašinsko učenje

Da bi se izgradio čvrst i pouzdan model, algoritmi mašinskog učenja trebaju značajnu količinu podataka za obradu. U nedostatku sintetičkih podataka, stvaranje tako velike količine podataka bilo bi izazovno.

U domenima poput kompjuterskog vida ili obrade slike, gdje je razvoj modela olakšan razvojem ranih sintetičkih podataka, to može biti izuzetno značajno. Novi razvoj u oblasti prepoznavanja slika je upotreba Generativnih Adversarial Networks (GAN). Obično se sastoji od dvije mreže: generatora i diskriminatora.

Dok mreža diskriminatora ima za cilj da odvoji stvarne fotografije od lažnih, mreža generatora funkcionira za proizvodnju sintetičkih slika koje su znatno sličnije slikama iz stvarnog svijeta.

U mašinskom učenju, GAN-ovi su podskup porodice neuronskih mreža, gde obe mreže kontinuirano uče i razvijaju se dodavanjem novih čvorova i slojeva.

Prilikom kreiranja sintetičkih podataka, imate opciju da promijenite okruženje i tip podataka prema potrebi kako biste poboljšali performanse modela. Dok se tačnost za sintetičke podatke može lako postići uz jak rezultat, tačnost za označene podatke u realnom vremenu može povremeno biti izuzetno skupa.

Kako možete generirati sintetičke podatke?

Pristupi koji se koriste za stvaranje sintetičke zbirke podataka su sljedeći:

Na osnovu statističke distribucije

Strategija koja se koristi u ovom slučaju je uzimati brojeve iz distribucije ili gledati stvarne statističke distribucije kako bi se stvorili lažni podaci koji izgledaju uporedivo. U nekim okolnostima stvarni podaci mogu potpuno izostati.

Naučnik podataka može generirati skup podataka koji sadrži nasumični uzorak bilo koje distribucije ako ima duboko razumijevanje statističke distribucije u stvarnim podacima. Normalna distribucija, eksponencijalna distribucija, hi-kvadrat distribucija, lognormalna distribucija i još mnogo toga su samo nekoliko primjera statističkih distribucija vjerovatnoće koje se mogu koristiti za ovo.

Nivo iskustva naučnika podataka sa situacijom će imati značajan uticaj na tačnost obučenog modela.

Ovisno o modelu

Ova tehnika gradi model koji uzima u obzir uočeno ponašanje prije korištenja tog modela za generiranje slučajnih podataka. U suštini, ovo uključuje prilagođavanje stvarnih podataka podacima iz poznate distribucije. Korporacije tada mogu koristiti Monte Carlo pristup za kreiranje lažnih podataka.

Osim toga, razvode se također mogu montirati pomoću Modeli mašinskog učenja poput stabala odluka. Naučnici podataka međutim, treba obratiti pažnju na prognozu, jer stabla odluka obično preklapaju zbog svoje jednostavnosti i proširenja dubine.

Sa dubokim učenjem

Duboko učenje modeli koji koriste varijacioni automatski koder (VAE) ili modeli generativne adversarijske mreže (GAN) su dva načina za kreiranje sintetičkih podataka. Modeli mašinskog učenja bez nadzora uključuju VAE.

Sastoje se od enkodera, koji skupljaju i sažimaju originalne podatke, i dekodera, koji te podatke analiziraju kako bi pružili reprezentaciju stvarnih podataka. Održavanje ulaznih i izlaznih podataka što je moguće identičnim je osnovni cilj VAE. Dvije suprotstavljene neuronske mreže su GAN modeli i suparničke mreže.

Prva mreža, poznata kao mreža generatora, zadužena je za proizvodnju lažnih podataka. Diskriminatorska mreža, druga mreža, radi tako što upoređuje stvorene sintetičke podatke sa stvarnim podacima u nastojanju da se utvrdi da li je skup podataka lažan. Diskriminator upozorava generator kada otkrije lažni skup podataka.

Generator naknadno mijenja sljedeću grupu podataka koja se dostavlja diskriminatoru. Kao rezultat toga, diskriminator vremenom postaje sve bolji u uočavanju lažnih skupova podataka. Ova vrsta modela se često koristi u finansijskom sektoru za otkrivanje prevara, kao iu zdravstvenom sektoru za medicinsko snimanje.

Povećanje podataka je drugačija metoda koju naučnici podataka koriste za proizvodnju više podataka. Ipak, ne treba ga zamijeniti s lažnim podacima. Jednostavno rečeno, povećanje podataka je čin dodavanja novih podataka u pravi skup podataka koji već postoji.

Kreiranje nekoliko slika od jedne slike, na primjer, podešavanjem orijentacije, svjetline, uvećanja i još mnogo toga. Ponekad se koristi stvarni skup podataka sa preostalim ličnim podacima. Anonimizacija podataka je ono što je, a skup takvih podataka se isto tako ne smatra sintetičkim podacima.

Izazovi i ograničenja sintetičkih podataka

Iako sintetički podaci imaju različite prednosti koje mogu pomoći firmama u aktivnostima nauke o podacima, oni također imaju određena ograničenja:

Pouzdanost podataka: Opšte je poznato da je svaki model mašinskog učenja/dubinskog učenja dobar onoliko koliko su dobri podaci kojima se unose. Kvalitet sintetičkih podataka u ovom kontekstu je snažno povezan s kvalitetom ulaznih podataka i modela koji se koristi za proizvodnju podataka. Od ključne je važnosti osigurati da nema predrasuda u izvornim podacima, jer se one mogu vrlo jasno ogledati u sintetičkim podacima. Nadalje, prije bilo kakvog predviđanja, kvalitet podataka treba potvrditi i provjeriti.
Zahteva znanje, trud i vreme: Iako bi stvaranje sintetičkih podataka moglo biti jednostavnije i jeftinije od stvaranja pravih podataka, potrebno je određeno znanje, vrijeme i trud.
Repliciranje anomalija: Savršena replika podataka iz stvarnog svijeta nije moguća; sintetički podaci to mogu samo približno. Stoga, neki odstupanja koji postoje u stvarnim podacima možda nisu pokriveni sintetičkim podacima. Anomalije podataka su značajnije od tipičnih podataka.
Kontrola proizvodnje i osiguranje kvaliteta: Sintetički podaci su namijenjeni za repliciranje podataka iz stvarnog svijeta. Ručna verifikacija podataka postaje neophodna. Bitno je provjeriti točnost podataka prije nego što ih ugradite u modele strojnog učenja/dubinskog učenja za komplikovane skupove podataka kreirane automatski korištenjem algoritama.
Korisničke povratne informacije: Kako su sintetički podaci novi koncept, neće svi biti spremni vjerovati prognozama napravljenim s njima. Ovo ukazuje na to da je za povećanje prihvatljivosti korisnika prvo potrebno podići znanje o korisnosti sintetičkih podataka.

budućnost

Upotreba sintetičkih podataka dramatično se povećala u prethodnoj deceniji. Iako kompanijama štedi vrijeme i novac, nije bez svojih nedostataka. Nedostaju mu odstupnici, koji se prirodno javljaju u stvarnim podacima i koji su kritični za tačnost u nekim modelima.

Takođe je vredno napomenuti da se kvalitet sintetičkih podataka često oslanja na ulazne podatke koji se koriste za kreiranje; pristranosti u ulaznim podacima mogu se brzo proširiti na sintetičke podatke, tako da odabir visokokvalitetnih podataka kao polaznu tačku ne treba precijeniti.

Konačno, potrebna mu je dodatna kontrola izlaza, uključujući poređenje sintetičkih podataka sa stvarnim podacima označenim ljudima kako bi se potvrdilo da ne postoje razlike. Uprkos ovim preprekama, sintetički podaci ostaju polje koje obećava.

Pomaže nam da kreiramo nova AI rješenja čak i kada podaci iz stvarnog svijeta nisu dostupni. Ono što je najvažnije, omogućava preduzećima da grade proizvode koji su inkluzivniji i koji ukazuju na raznolikost njihovih krajnjih potrošača.

Međutim, u budućnosti vođenoj podacima, sintetički podaci imaju za cilj da pomognu naučnicima podataka da obavljaju nove i kreativne zadatke koje bi bilo teško izvršiti samo sa podacima iz stvarnog sveta.

zaključak

U određenim slučajevima, sintetički podaci mogu ublažiti nedostatak podataka ili nedostatak relevantnih podataka unutar poduzeća ili organizacije. Također smo pogledali koje strategije mogu pomoći u generiranju sintetičkih podataka i ko može profitirati od toga.

Govorili smo i o nekim poteškoćama koje se javljaju u radu sa sintetičkim podacima. Za komercijalno donošenje odluka, stvarni podaci će uvijek biti favorizirani. Međutim, realistični podaci su sljedeća najbolja opcija kada takvi istinski neobrađeni podaci nisu dostupni za analizu.

Međutim, mora se imati na umu da su za proizvodnju sintetičkih podataka potrebni naučnici podataka koji dobro poznaju modeliranje podataka. Temeljno razumijevanje stvarnih podataka i njihovog okruženja je također bitno. Ovo je neophodno kako bi se osiguralo da, ako su dostupni, proizvedeni podaci budu što je moguće precizniji.

Objašnjeni sintetički podaci – sljedeća velika stvar u AI, ML i DL

Dakle, šta su sintetički podaci?