Objašnjenje sintetičkih podataka - Sljedeća velika stvar u AI, ML i DL

Napredne programe analitike i strojnog učenja pokreću podaci, ali pristup tim podacima može biti težak za akademike zbog izazova s privatnošću i poslovnim procedurama.

Sintetički podaci, koji se mogu dijeliti i koristiti na načine na koje stvarni podaci ne mogu, potencijalni su novi smjer kojim treba ići. Međutim, ova nova strategija nije bez opasnosti ili nedostataka, stoga je ključno da poduzeća pažljivo razmotre gdje i kako koriste svoje resurse.

U trenutnoj eri umjetne inteligencije možemo također reći da su podaci nova nafta, ali samo nekolicina odabranih sjedi na udaru. Stoga mnogi ljudi proizvode vlastito gorivo, koje je i pristupačno i učinkovito. Poznati su kao sintetički podaci.

U ovom ćemo postu detaljno pogledati sintetičke podatke — zašto biste ih trebali koristiti, kako ih proizvesti, što ih čini drugačijima od stvarnih podataka, za koje slučajeve upotrebe mogu poslužiti i još mnogo toga.

Dakle, što su sintetički podaci?

Kada su izvorni skupovi podataka neadekvatni u smislu kvalitete, broja ili raznolikosti, sintetički podaci mogu se koristiti za obuku AI modela umjesto stvarnih povijesnih podataka.

Kada postojeći podaci ne zadovoljavaju poslovne zahtjeve ili imaju rizike po privatnost kada se koriste za razvoj stroj za učenje modela, softvera za testiranje ili slično, sintetički podaci mogu biti značajan alat za korporativne napore umjetne inteligencije.

Jednostavno rečeno, sintetički podaci često se koriste umjesto stvarnih podataka. Točnije, radi se o podacima koji su umjetno označeni i proizvedeni simulacijama ili računalnim algoritmima.

Sintetički podaci

Sintetički podaci su informacije koje je računalni program stvorio umjetno, a ne kao rezultat stvarnih događaja. Tvrtke mogu dodati sintetičke podatke svojim podacima o obuci kako bi pokrile sve situacije korištenja i ruba, smanjile troškove prikupljanja podataka ili zadovoljile propise o privatnosti.

Umjetni podaci sada su dostupniji nego ikad zahvaljujući poboljšanjima u procesorskoj snazi i metodama pohrane podataka poput oblaka. Sintetički podaci poboljšavaju stvaranje AI rješenja koja su korisnija za sve krajnje korisnike, a to je nedvojbeno dobar razvoj.

Koliko su sintetički podaci važni i zašto bi ih trebali koristiti?

Kada obučavaju AI modele, programeri često trebaju ogromne skupove podataka s preciznim označavanjem. Kada se uči s više različitih podataka, neuronske mreže izvesti točnije.

Prikupljanje i označavanje ovih golemih skupova podataka koji sadrže stotine ili čak milijune stavki, međutim, može oduzimati nerazumno mnogo vremena i novca. Cijena proizvodnje podataka o obuci može se znatno smanjiti korištenjem sintetičkih podataka. Na primjer, ako je stvorena umjetno, slika za obuku koja košta 5 dolara kada se kupi od a pružatelj označavanja podataka može koštati samo 0.05 dolara.

Sintetički podaci mogu ublažiti brigu o privatnosti koja se odnosi na potencijalno osjetljive podatke generirane iz stvarnog svijeta, a istovremeno smanjuju troškove.

U usporedbi s pravim podacima, koji ne mogu precizno odražavati cijeli spektar činjenica o stvarnom svijetu, to bi moglo pomoći u smanjenju predrasuda. Omogućavajući neobične pojave koje predstavljaju vjerojatne mogućnosti, ali ih je možda teško dobiti iz legitimnih podataka, sintetički podaci mogu ponuditi veću raznolikost.

Sintetički podaci mogli bi biti fantastični za vaš projekt iz dolje navedenih razloga:

1. Robusnost modela

Bez potrebe za nabavom pristupite raznolikijim podacima za svoje modele. Sa sintetičkim podacima možete trenirati svoj model koristeći varijante iste osobe s različitim frizurama, dlakama na licu, naočalama, položajima glave itd., kao i ton kože, etničke osobine, strukturu kostiju, pjegice i druge karakteristike za generiranje jedinstvenih lica i ojačati ga.

2. U obzir se uzimaju rubni slučajevi

Uravnotežen skup podataka preferira strojno učenje algoritmi. Prisjetite se našeg primjera prepoznavanja lica. Točnost njihovih modela bi se poboljšala (i zapravo, neke od tih tvrtki su učinile upravo to), i proizveli bi moralniji model da su proizveli sintetičke podatke lica tamnije puti kako bi popunili svoje praznine u podacima. Timovi mogu pokriti sve slučajeve upotrebe, uključujući rubne slučajeve u kojima su podaci rijetki ili nepostojeći, uz pomoć sintetičkih podataka.

3. Može se dobiti brže od "stvarnih" podataka

Timovi mogu brzo generirati ogromne količine sintetičkih podataka. Ovo je posebno korisno kada podaci iz stvarnog života ovise o sporadičnim događajima. Timovima može biti teško dobiti dovoljno podataka iz stvarnog svijeta o teškim uvjetima na cestama dok prikupljaju podatke za, na primjer, samovozeći automobil, zbog njihove rijetkosti. Kako bi se ubrzao mukotrpan proces označavanja, znanstvenici podataka mogu postaviti algoritme za automatsko označavanje sintetičkih podataka dok se generiraju.

4. Štiti podatke o privatnosti korisnika

Tvrtke mogu imati sigurnosnih poteškoća pri rukovanju osjetljivim podacima, ovisno o poslovanju i vrsti podataka. Podaci o osobnom zdravlju (PHI), na primjer, često su uključeni u bolničke podatke u zdravstvenoj industriji i s njima se mora postupati s najvećom sigurnošću.

Budući da sintetički podaci ne uključuju informacije o stvarnim ljudima, problemi s privatnošću su smanjeni. Razmotrite korištenje sintetičkih podataka kao alternativu ako se vaš tim mora pridržavati određenih zakona o privatnosti podataka.

Stvarni podaci naspram sintetičkih podataka

U stvarnom svijetu dobivaju se ili mjere stvarni podaci. Kada netko koristi pametni telefon, prijenosno računalo ili računalo, nosi ručni sat, pristupi web stranici ili izvrši online transakciju, ova vrsta podataka generira se trenutno.

Osim toga, ankete se mogu koristiti za pružanje pravih podataka (online i offline). Digitalne postavke proizvode sintetičke podatke. S iznimkom dijela koji nije izveden iz događaja u stvarnom svijetu, sintetički podaci stvoreni su na način koji uspješno oponaša stvarne podatke u smislu temeljnih kvaliteta.

Ideja korištenja sintetičkih podataka kao zamjene za stvarne podatke vrlo je obećavajuća jer se može koristiti za pružanje podaci o obuci koji strojno učenje modeli zahtijevaju. Ali to nije sigurno umjetna inteligencija može riješiti svaki problem koji se pojavi u stvarnom svijetu.

Koristite slučajevi

Sintetički podaci korisni su za razne komercijalne svrhe, uključujući obuku modela, provjeru valjanosti modela i testiranje novih proizvoda. Navest ćemo nekoliko sektora koji su prednjačili u njegovoj primjeni na strojno učenje:

1. Zdravstvo

S obzirom na osjetljivost svojih podataka, sektor zdravstva je vrlo prikladan za korištenje sintetičkih podataka. Timovi mogu koristiti sintetičke podatke za bilježenje fiziologije svake vrste pacijenata koji bi mogli postojati, čime se pomaže u bržem i točnijem dijagnosticiranju bolesti.

Zdravstvo

Googleov model otkrivanja melanoma intrigantna je ilustracija toga budući da uključuje sintetičke podatke ljudi s tamnijim tonovima kože (područje kliničkih podataka koje je nažalost nedovoljno zastupljeno) kako bi modelu omogućio učinkovito funkcioniranje za sve vrste kože.

2. Automobili

Tvrtke koje stvaraju samovozeće automobile često koriste simulatore za procjenu performansi. Na primjer, kada je loše vrijeme, prikupljanje stvarnih podataka o cestama može biti rizično ili teško.

Samovozeći automobil

Oslanjati se na testove uživo sa stvarnim automobilima na cestama općenito nije dobra ideja budući da postoji previše varijabli koje treba uzeti u obzir u svim različitim situacijama u vožnji.

3. Prenosivost podataka

Da bi mogle dijeliti svoje podatke o obuci s drugima, organizacije trebaju pouzdane i sigurne metode. Skrivanje osobnih podataka (PII) prije objave skupa podataka još je jedna intrigantna aplikacija za sintetičke podatke. Razmjena skupova podataka znanstvenog istraživanja, medicinskih podataka, socioloških podataka i drugih polja koja bi mogla sadržavati PII nazivaju se sintetičkim podacima koji čuvaju privatnost.

4. Sigurnost

Organizacije su sigurnije zahvaljujući sintetičkim podacima. Ponovno u vezi s našim primjerom prepoznavanja lica, možda ste upoznati s izrazom "deep fakes", koji opisuje izmišljene fotografije ili videozapise. Duboke krivotvorine mogu proizvesti tvrtke kako bi testirale vlastite sustave prepoznavanja lica i sigurnosti. Sintetički podaci također se koriste u videonadzoru za brže i jeftinije treniranje modela.

Sintetički podaci i strojno učenje

Za izgradnju čvrstog i pouzdanog modela, algoritmi strojnog učenja trebaju značajnu količinu podataka za obradu. U nedostatku sintetičkih podataka, proizvodnja tako velike količine podataka bila bi izazovna.

U domenama poput računalnog vida ili obrade slike, gdje je razvoj modela olakšan razvojem ranih sintetičkih podataka, može biti izuzetno značajan. Novi razvoj u području prepoznavanja slika je korištenje Generative Adversarial Networks (GANs). Obično se sastoji od dvije mreže: generatora i diskriminatora.

Dok mreža diskriminatora ima za cilj odvojiti stvarne fotografije od lažnih, mreža generatora radi na stvaranju sintetičkih slika koje su znatno sličnije slikama iz stvarnog svijeta.

U strojnom učenju, GAN-ovi su podskup obitelji neuronskih mreža, gdje obje mreže kontinuirano uče i razvijaju se dodavanjem novih čvorova i slojeva.

Kada stvarate sintetičke podatke, imate mogućnost promijeniti okruženje i vrstu podataka prema potrebi kako biste poboljšali izvedbu modela. Dok se točnost za sintetičke podatke može lako postići s visokim rezultatom, točnost za označene podatke u stvarnom vremenu ponekad može biti izuzetno skupa.

Kako možete generirati sintetičke podatke?

Pristupi koji se koriste za stvaranje zbirke sintetičkih podataka su sljedeći:

Na temelju statističke distribucije

Strategija koja se koristi u ovom slučaju je uzeti brojeve iz distribucije ili pogledati stvarne statističke distribucije kako bi se stvorili lažni podaci koji izgledaju usporedivo. U nekim okolnostima stvarni podaci mogu biti potpuno odsutni.

Znanstvenik za podatke može generirati skup podataka koji sadrži nasumični uzorak bilo koje distribucije ako duboko razumije statističku distribuciju u stvarnim podacima. Normalna distribucija, eksponencijalna distribucija, hi-kvadrat distribucija, logaritamska normalna distribucija i druge samo su neki od primjera statističkih distribucija vjerojatnosti koje se mogu koristiti za to.

Razina iskustva podatkovnog znanstvenika sa situacijom imat će značajan utjecaj na točnost obučenog modela.

Ovisno o modelu

Ova tehnika gradi model koji uzima u obzir promatrano ponašanje prije upotrebe tog modela za generiranje nasumičnih podataka. U biti, ovo uključuje uklapanje stvarnih podataka u podatke iz poznate distribucije. Pristup Monte Carlo zatim mogu koristiti korporacije za stvaranje lažnih podataka.

Osim toga, distribucije se također mogu ugraditi pomoću modeli strojnog učenja poput stabala odlučivanja. Znanstvenici podataka ipak treba obratiti pozornost na prognozu jer se stabla odlučivanja obično pretjerano uklapaju zbog svoje jednostavnosti i dubinskog širenja.

Uz duboko učenje

Duboko učenje modeli koji koriste model Variation Autoencoder (VAE) ili Generative Adversarial Network (GAN) dva su načina za stvaranje sintetičkih podataka. Modeli strojnog učenja bez nadzora uključuju VAE.

Sastoje se od kodera, koji skupljaju i zbijaju izvorne podatke, i dekodera, koji pomno ispituju te podatke kako bi pružili prikaz stvarnih podataka. Održavanje ulaznih i izlaznih podataka što je moguće identičnijim osnovni je cilj VAE. Dvije suprotstavljene neuronske mreže su GAN modeli i kontradiktorne mreže.

Prva mreža, poznata kao mreža generatora, zadužena je za proizvodnju lažnih podataka. Mreža diskriminatora, druga mreža, funkcionira uspoređujući stvorene sintetičke podatke sa stvarnim podacima u nastojanju da utvrdi je li skup podataka lažan. Diskriminator upozorava generator kada otkrije lažni skup podataka.

Generator naknadno modificira sljedeću skupinu podataka koja se daje diskriminatoru. Kao rezultat toga, diskriminator s vremenom postaje bolji u uočavanju lažnih skupova podataka. Ova vrsta modela često se koristi u financijskom sektoru za otkrivanje prijevara, kao iu sektoru zdravstva za medicinsko snimanje.

Povećanje podataka je drugačija metoda koju znanstvenici koriste za proizvodnju više podataka. Ipak, ne treba ga zamijeniti s lažnim podacima. Jednostavno rečeno, povećanje podataka je čin dodavanja novih podataka izvornom skupu podataka koji već postoji.

Stvaranje nekoliko slika iz jedne slike, na primjer, podešavanjem orijentacije, svjetline, povećanja itd. Ponekad se koristi stvarni skup podataka, a ostaju samo osobni podaci. To je anonimizacija podataka, a skup takvih podataka također se ne smije smatrati sintetičkim podacima.

Izazovi i ograničenja sintetičkih podataka

Iako sintetički podaci imaju razne prednosti koje mogu pomoći tvrtkama u aktivnostima znanosti o podacima, oni također imaju određena ograničenja:

Pouzdanost podataka: Opće je poznato da je svaki model strojnog učenja/modela dubokog učenja dobar onoliko koliko su dobri podaci kojima se unosi. Kvaliteta sintetičkih podataka u ovom je kontekstu snažno povezana s kvalitetom ulaznih podataka i modelom koji se koristi za proizvodnju podataka. Ključno je osigurati da nema pristranosti u izvornim podacima jer se one mogu vrlo jasno odraziti na sintetičke podatke. Nadalje, prije izrade bilo kakvih prognoza kvalitetu podataka treba potvrditi i provjeriti.
Zahtijeva znanje, trud i vrijeme: Iako bi stvaranje sintetičkih podataka moglo biti jednostavnije i jeftinije od stvaranja originalnih podataka, potrebno je malo znanja, vremena i truda.
Repliciranje anomalija: Savršena replika podataka iz stvarnog svijeta nije moguća; sintetički podaci to mogu samo približno odrediti. Stoga, neki outlieri koji postoje u stvarnim podacima možda neće biti pokriveni sintetičkim podacima. Anomalije podataka značajnije su od tipičnih podataka.
Kontrola proizvodnje i osiguranje kvalitete: Sintetički podaci namijenjeni su repliciranju podataka iz stvarnog svijeta. Ručna provjera podataka postaje neophodna. Bitno je provjeriti točnost podataka prije nego što ih uključite u modele strojnog učenja/dubinskog učenja za komplicirane skupove podataka stvorene automatski korištenjem algoritama.
Korisnik povratne informacije: Budući da su sintetički podaci nov koncept, neće svi biti spremni povjerovati predviđanjima napravljenim pomoću njih. To ukazuje da je za povećanje korisničke prihvatljivosti prvo potrebno podići znanje o korisnosti sintetičkih podataka.

Budućnost

Upotreba sintetičkih podataka dramatično se povećala u prethodnom desetljeću. Iako tvrtkama štedi vrijeme i novac, nije bez nedostataka. Nedostaju mu odstupanja, koja se prirodno pojavljuju u stvarnim podacima i kritična su za točnost u nekim modelima.

Također je vrijedno napomenuti da se kvaliteta sintetičkih podataka često oslanja na ulazne podatke korištene za stvaranje; pristranosti u ulaznim podacima mogu se brzo proširiti na sintetičke podatke, stoga odabir podataka visoke kvalitete kao početne točke ne bi trebao biti pretjeran.

Naposljetku, potrebna mu je daljnja kontrola izlaza, uključujući usporedbu sintetičkih podataka sa stvarnim podacima koje su označili ljudi kako bi se potvrdilo da nisu uvedena odstupanja. Unatoč ovim preprekama, sintetički podaci ostaju polje koje obećava.

Pomaže nam u stvaranju novih AI rješenja čak i kada podaci iz stvarnog svijeta nisu dostupni. Što je najvažnije, omogućuje tvrtkama da izgrade proizvode koji su inkluzivniji i indikativni za raznolikost njihovih krajnjih potrošača.

Međutim, u budućnosti vođenoj podacima, sintetički podaci namjeravaju pomoći znanstvenicima koji se bave podacima u obavljanju novih i kreativnih zadataka koje bi bilo teško izvršiti samo s podacima iz stvarnog svijeta.

Zaključak

U određenim slučajevima sintetički podaci mogu ublažiti manjak podataka ili nedostatak relevantnih podataka unutar poduzeća ili organizacije. Također smo pogledali koje strategije mogu pomoći u stvaranju sintetičkih podataka i tko od toga može profitirati.

Također smo govorili o nekim poteškoćama koje nastaju pri radu sa sintetičkim podacima. Za donošenje komercijalnih odluka stvarni podaci će uvijek biti u prednosti. Međutim, realni podaci sljedeća su najbolja opcija kada takvi pravi neobrađeni podaci nisu dostupni za analizu.

Međutim, mora se zapamtiti da su za proizvodnju sintetičkih podataka potrebni znanstvenici koji dobro razumiju modeliranje podataka. Temeljito razumijevanje stvarnih podataka i njihovog okruženja također je bitno. Ovo je bitno kako bi se osiguralo da su proizvedeni podaci što je moguće točniji, ako su dostupni.

Objašnjenje sintetičkih podataka – sljedeća velika stvar u AI, ML i DL

Dakle, što su sintetički podaci?