Table di cuntinutu[Piattà][Mostra]
L'analitiche avanzate è i prugrammi di apprendimentu automaticu sò propulsati da dati, ma l'accessu à queste dati pò esse difficiule per l'accademici per via di sfide cù a privacy è e prucedure cummerciale.
I dati sintetici, chì ponu esse spartuti è utilizati in modi chì i dati attuali ùn ponu micca, hè una nova direzzione potenziale per perseguite. Tuttavia, sta nova strategia ùn hè micca senza periculi o svantaghji, per quessa, hè cruciale chì l'imprese cunsiderà currettamente induve è cumu utilizanu e so risorse.
In l'era attuale di l'AI, pudemu ancu dichjarà chì i dati sò u novu oliu, ma solu uni pochi selezziunati sò seduti nantu à un gusher. Dunque, assai persone pruducianu u so propiu carburante, chì hè à tempu assequible è efficiente. Hè cunnisciutu com'è dati sintetici.
In questu post, faremu un sguardu detallatu à e dati sintetici - perchè duvete aduprà, cumu pruduce, ciò chì a face diversa da e dati attuali, quali casi d'usu pò serve, è assai di più.
Allora, chì sò Dati Sintetici?
Quandu i setti di dati genuine sò inadegwate in termini di qualità, numeru, o diversità, i dati sintetici ponu esse aduprati per furmà mudelli AI in u locu di dati storichi veri.
Quandu i dati esistenti ùn soddisfanu micca i bisogni di l'affari o anu risichi per a privacy quandu sò usati per sviluppà machine learning mudelli, software di teste, o simili, i dati sintetici ponu esse un strumentu significativu per i sforzi di AI corporativi.
Simply said, i dati sintetici sò spessu usati in u locu di i dati attuali. Più precisamente, sò dati chì sò stati tagged artificialmente è pruduciuti da simulazioni o algoritmi di computer.
I dati sintetici sò infurmazione chì hè stata creata da un prugramma di computer artificialmente piuttostu chè in u risultatu di l'occurrence attuali. L'imprese ponu aghjunghje dati sintetici à i so dati di furmazione per copre tutte e situazioni d'usu è di punta, riduce u costu di a raccolta di dati, o suddisfà i reguli di privacy.
I dati artificiali sò oghji più accessibili chè mai grazie à e migliure in a putenza di trasfurmazioni è i metudi di almacenamiento di dati cum'è u nuvulu. I dati sintetici migliurà a creazione di soluzioni AI chì sò più benefizii per tutti l'utilizatori finali, è questu hè senza dubbitu un bonu sviluppu.
Cumu hè impurtante e dati sintetici è perchè avete aduprà?
Quandu furmà mudelli di IA, i sviluppatori anu spessu bisognu di enormi datasets cù etichettatura precisa. Quandu s'insegna cù dati più variati, Redes neuronali fà più precisamente.
A cullizzioni è l'etichettatura di questi datasets massivi chì cuntenenu centinaie o ancu milioni di articuli, in ogni modu, pò esse insensata di tempu è soldi. U prezzu di a produzzione di dati di furmazione pò esse ridutta assai usendu dati sintetici. Per esempiu, s'ellu hè creatu artificialmente, una maghjina di furmazione chì costa $ 5 quandu hè acquistatu da a fornitore di etichettatura di dati puderia costu solu $ 0.05.
I dati sintetici ponu alleviate i prublemi di privacy in relazione à e dati potenzalmentu sensittivi generati da u mondu reale, riducendu ancu e spese.
In paragunà à i dati genuini, chì ùn puderanu micca riflette precisamente u spettru cumpletu di fatti nantu à u mondu reale, puderia aiutà à diminuisce i preghjudizii. Fornendu occorrenze inusual chì rapprisentanu pussibulità plausibili, ma pò esse sfida à ottene da dati legittimi, i dati sintetici ponu offre una diversità più grande.
I dati sintetici ponu esse un adattamentu fantasticu per u vostru prughjettu per i motivi elencati quì sottu:
1. A robustezza di u mudellu
Senza avè da acquistà, accede à dati più variati per i vostri mudelli. Cù dati sintetici, pudete furmà u vostru mudellu aduprendu varianti di a listessa persona cù diversi tagli di capelli, capelli facciali, occhiali, pose di a testa, etc., è ancu u tonu di a pelle, tratti etnici, struttura ossea, freckles è altre caratteristiche per generà unicu. facci è rinfurzà lu.
2. Casi Edge sò pigliatu in contu
Un equilibratu dataset hè preferitu da machine learning algoritmi. Pensate à u nostru esempiu di ricunniscenza facciale. L'accurata di i so mudelli avissiru migliuratu (è in fattu, certi di sti negozii anu fattu solu questu), è avianu pruduciutu un mudellu più morale s'ellu avianu pruduciutu dati sintetici di facci di pelle scura per riempie i so spazii di dati. E squadre ponu copre tutti i casi d'usu, cumpresi i casi di punta induve e dati sò scarsi o inesistenti, cù l'aiutu di dati sintetici.
3. Si pò esse ottinutu più prestu chè dati "attuali".
E squadre sò capaci di generà enormi quantità di dati sintetici rapidamente. Questu hè soprattuttu utile quandu i dati di a vita reale dependenu di avvenimenti sporadici. E squadre ponu truvà difficultà per ottene abbastanza dati in u mondu reale nantu à e cundizioni stradali severi mentre raccoglie dati per una vittura autònuma, per esempiu, per via di a so rarità. Per accelerà u prucessu di annotazione laboriosa, i scientifichi di dati ponu mette algoritmi per etichettate automaticamente i dati sintetici cum'è generati.
4. It secures infurmazione privacy utilizatori
L'imprese ponu avè difficultà di sicurezza mentre trattanu e dati sensittivi, secondu l'affari è u tipu di dati. L'infurmazione di salute persunale (PHI), per esempiu, hè spessu inclusa in i dati inpatient in l'industria di a salute è deve esse trattata cù a massima sicurezza.
Perchè i dati sintetici ùn includenu micca infurmazioni nantu à e persone attuali, i prublemi di privacy sò diminuiti. Cunsiderate l'usu di dati sintetici cum'è una alternativa se u vostru squadra hà da aderisce à certe lege di privacy di dati.
Dati reali Vs Dati sintetici
In u mondu reale, i dati veri sò ottenuti o misurati. Quandu qualchissia usa un smartphone, laptop, o computer, porta un orologio, accede à un situ web, o face una transazzione in linea, stu tipu di dati hè generatu istantaneamente.
Inoltre, i sondaggi ponu esse aduprati per furnisce dati genuine (in linea è offline). I paràmetri digitali producenu dati sintetici. Cù l'eccezzioni di a parte chì ùn hè micca derivata da qualsiasi avvenimenti di u mondu reale, i dati sintetici sò creati in una manera chì imitanu bè i dati attuali in termini di qualità fundamentali.
L'idea di utilizà dati sintetici cum'è un sustitutu di e dati attuali hè assai promettente postu chì pò esse usatu per furnisce u dati di furmazione chì machine learning i mudelli necessitanu. Ma ùn hè micca sicuru chì ntilliggenza artificiali pò risolve ogni prublema chì sorge in u mondu reale.
Aduprà casi
I dati sintetici sò utili per una varietà di scopi cummirciali, cumprese a furmazione di mudelli, a validazione di mudelli è a prova di novi prudutti. Elencheremu uni pochi di i settori chì anu guidatu a strada in a so applicazione à l'apprendimentu automaticu:
1. Sanità
Data a sensibilità di e so dati, u settore di a salute hè adattatu per l'usu di dati sintetici. I dati sintetici ponu esse aduprati da e squadre per registrà a fisiologia di ogni tipu di pazientu chì puderia esse, aiutendu cusì à u diagnosticu più veloce è più precisu di e malatie.
U mudellu di rilevazione di melanoma di Google hè un'illustrazione intrigante di questu, postu chì incorpora dati sintetici di e persone cù tonalità di pelle più scura (una zona di dati clinichi chì hè sfurtunatamenti sottorappresentatu) per furnisce u mudellu cù a capacità di funziunà in modu efficace per tutti i tipi di pelle.
2. Automobile
I simulatori sò spessu usati da e cumpagnie chì creanu vitture autònuma per valutà e prestazioni. Quandu u clima hè duru, per esempiu, a cugliera di dati di strada reale pò esse risicatu o difficiule.
S'appoghjanu à e teste in diretta cù e vitture attuali nantu à e strade ùn hè generalmente micca una bona idea postu chì ci sò troppu variàbili per piglià in contu in tutte e diverse situazioni di guida.
3. Portabilità di Dati
Per pudè sparte e so dati di furmazione cù l'altri, l'urganisazioni necessitanu metudi di fiducia è sicuri. Ocultà l'infurmazioni persunali identificabili (PII) prima di rende publicu u dataset hè una altra applicazione intrigante per i dati sintetici. Scambià datasets di ricerca scientifica, dati medichi, dati sociologici, è altri campi chì puderanu cuntene PII, sò chjamati dati sintetici chì preservanu a privacy.
4. Sistemi
L'urganisazioni sò più sicure grazia à e dati sintetici. In quantu à u nostru esempiu di ricunniscenza facciale di novu, pudete esse familiarizatu cù a frasa "deep fakes", chì descrive foto o video fabbricati. I falsi profondi ponu esse pruduciuti da e imprese per pruvà i so propri sistemi di ricunniscenza faciale è di sicurità. I dati sintetici sò ancu usati in a videovigilanza per furmà mudelli più rapidamente è à un costu più prezzu.
Dati sintetici è Machine Learning
Per custruisce un mudellu solidu è affidabile, l'algoritmi di apprendimentu automaticu necessitanu una quantità significativa di dati per esse processatu. In l'absenza di dati sintetici, pruduce un voluminu cusì grande di dati seria sfida.
In i duminii cum'è a visione di l'informatica o l'elaborazione di l'imaghjini, induve u sviluppu di mudelli hè facilitatu da u sviluppu di dati sintetici iniziali, pò esse estremamente significativu. Un novu sviluppu in u campu di ricunniscenza di l'imaghjini hè l'usu di Reti Adversariali Generative (GAN). Di solitu si compone di duie rete: un generatore è un discriminatore.
Mentre chì a reta di discriminatore hà u scopu di separà e foto reali da e false, a rete di generatori funziona per pruduce l'imaghjini sintetici chì sò assai più simili à l'imaghjini di u mondu reale.
In l'apprendimentu automaticu, i GAN sò un sottumessu di a famiglia di a rete neurale, induve e duie rete amparanu è sviluppanu continuamente aghjunghjendu novi nodi è strati.
Quandu creanu dati sintetici, avete l'opzione di cambià l'ambiente è u tipu di dati cumu necessariu per rinfurzà u rendiment di u mudellu. Mentre a precisione per i dati sintetici pò esse facilmente ottenuta cun un puntuatu forte, a precisione per i dati in tempu reale etichettati pò esse in ocasioni estremamente caru.
Cumu pudete generà dati sintetici?
L'approcciu utilizatu per creà una cullizzioni di dati sintetici sò i seguenti:
Basatu nantu à a distribuzione statistica
A strategia utilizata in questu casu hè di piglià numeri da a distribuzione o di guardà distribuzioni statistiche attuali per creà dati falsi chì parenu paragunabili. Dati veri pò esse cumplettamente assenti in certi circustanze.
Un scientist di dati pò generà un inseme di dati chì cuntene una mostra aleatoria di qualsiasi distribuzione s'ellu hà una cunniscenza prufonda di a distribuzione statistica in dati attuali. A distribuzione nurmale, a distribuzione esponenziale, a distribuzione chi-square, a distribuzione lognormal, è più sò solu uni pochi esempi di distribuzioni di probabilità statistiche chì ponu esse usate per fà questu.
U livellu di sperienza di u scientist di dati cù a situazione avarà un impattu significativu nantu à a precisione di u mudellu furmatu.
Sicondu u mudellu
Sta tecnica crea un mudellu chì cunta u cumpurtamentu osservatu prima di utilizà quellu mudellu per generà dati aleatorii. In essenza, questu implica l'adattamentu di dati reali à e dati da una distribuzione cunnisciuta. L'approcciu di Monte Carlo pò esse adupratu da e corporazioni per creà dati falsi.
Inoltre, e distribuzioni ponu ancu esse adattate usendu mudelli di apprendimentu machine cum'è l'arburi di decisione. Scienziati di dati deve esse attentu à a previsione, però, cum'è l'arbureti di decisione sò tipicamente overfit per via di a so simplicità è espansione di prufundità.
Cù apprendimentu prufonda
Deep learning mudelli chì utilizanu un Autoencoder Variational (VAE) o mudelli Generative Adversarial Network (GAN) sò dui modi per creà dati sintetici. I mudelli di apprendimentu automaticu senza supervisione includenu VAE.
Sò custituiti da codificatori, chì riducenu è compactu i dati originali, è decodificatori, chì scrutinizenu questi dati per furnisce una rapprisintazioni di i dati veri. Mantene e dati di input è output u più identicu pussibule hè l'ughjettu basicu di un VAE. Dui reti neurali opposti sò mudelli GAN è rete avversaria.
A prima reta, cunnisciuta cum'è a rete di generatori, hè incaricata di pruduce dati falsi. A reta di discriminatori, a seconda reta, travaglia paragunendu e dati sintetici creati cù e dati attuali in un sforzu per identificà se u dataset hè fraudulente. U discriminatore avvisa u generatore quandu scopre un inseme di dati falsi.
U seguitu batch of data furnitu à u discriminatore hè in seguitu mudificatu da u generatore. In u risultatu, u discriminatore diventa megliu cù u tempu à spotting datasets falsi. Stu tipu di mudellu hè spessu usatu in u settore finanziariu per a rilevazione di fraude è in u settore di a salute per l'imaghjini medichi.
L'aumentu di dati hè un metudu sfarente chì i scientifichi di dati impieganu per pruduce più dati. Ùn deve esse sbagliatu cù dati falsi, però. Simply said, data augmentation hè l'attu di aghjunghje novi dati à un genuine dataset chì esiste digià.
Creazione di parechje foto da una sola maghjina, per esempiu, aghjustendu l'orientazione, a luminosità, l'ingrandimentu, è più. A volte, u settore di dati attuale hè utilizatu cù solu l'infurmazioni persunali chì restanu. L'anonimizazione di dati hè ciò chì hè questu, è un inseme di tali dati ùn hè ancu esse cunsideratu cum'è dati sintetici.
Sfide è limitazioni di dati sintetici
Ancu se i dati sintetici anu parechji benefici chì ponu aiutà l'imprese cù attività di scienza di dati, anu ancu certe limitazioni:
- affidabilità di i dati: Hè a cunniscenza cumuni chì ogni mudellu di apprendimentu automaticu / apprendimentu profondu hè solu bonu quant'è i dati chì sò alimentati. A qualità di dati sintetici in questu cuntestu hè assai ligata à a qualità di e dati di input è u mudellu utilizatu per pruduce e dati. Hè criticu per assicurà chì ùn ci hè micca preghjudiziu in i dati di fonte, cum'è questi ponu esse riflessi assai chjaramente in i dati sintetici. Inoltre, prima di fà qualsiasi previsioni, a qualità di e dati deve esse cunfirmata è verificata.
- Richiede cunniscenze, sforzu è tempu: Mentre a creazione di dati sintetici puderia esse più simplice è menu caru chè a creazione di dati genuine, hà bisognu di qualchì cunniscenza, tempu è sforzu.
- Replicà anomalie: A replica perfetta di dati di u mondu reale ùn hè micca pussibule; dati sintetici ponu solu apprussimativu. Dunque, alcuni outliers chì esistenu in dati veri ùn ponu micca esse coperti da dati sintetici. L'anomali di dati sò più significativi cà i dati tipici.
- Cuntrollà a produzzione è assicurà a qualità: I dati sintetici sò destinati à riplicà e dati di u mondu reale. A verificazione manuale di dati diventa essenziale. Hè essenziale per verificà l'accuratezza di e dati prima di incorpore in i mudelli di apprendimentu automaticu / apprendimentu profondu per set di dati complicati creati automaticamente utilizendu algoritmi.
- Feedback di l'utilizatori: Siccomu i dati sintetici sò un cuncettu novu, micca tutti seranu pronti à crede e previsioni fatte cun ella. Questu indica chì per aumentà l'accettabilità di l'utilizatori, hè prima necessariu di elevà a cunniscenza di l'utilità di dati sintetici.
Future
L'usu di dati sintetici hà aumentatu dramaticamente in a dicada precedente. Mentre risparmià u tempu è soldi di l'imprese, ùn hè micca senza i so inconvenienti. Manca outliers, chì si trovanu naturalmente in i dati attuali è sò critichi per a precisione in certi mudelli.
Hè nutate ancu chì a qualità di i dati sintetici hè spessu dipendente da i dati di input utilizati per a creazione; i preghjudizii in i dati di input ponu sparghje rapidamente in i dati sintetici, cusì scegliendu dati d'alta qualità cum'è un puntu di partenza ùn deve esse sopravvalutatu.
Infine, hà bisognu di più cuntrollu di output, cumpresu paragunà i dati sintetici cù dati veri annotati umani per verificà chì i discrepanzii ùn sò micca introdutti. Malgradu questi ostaculi, i dati sintetici restanu un campu promettenti.
Ci aiuta à creà soluzioni AI novi ancu quandu i dati di u mondu reale ùn sò micca dispunibili. U più significativu, permette à l'imprese di custruisce prudutti chì sò più inclusivi è indicativi di a diversità di i so cunsumatori finali.
In u futuru guidatu da dati, però, i dati sintetici intendenu aiutà i scientisti di dati à realizà compiti novi è creativi chì sarianu sfida à cumplettà solu cù dati di u mondu reale.
cunchiusioni
In certi casi, i dati sintetici ponu allevià un deficit di dati o una mancanza di dati pertinenti in una impresa o urganizazione. Avemu vistu ancu quali strategie ponu aiutà à a generazione di dati sintetici è quale pò prufittà da questu.
Avemu ancu parlatu di alcune di e difficultà chì venenu cù u trattamentu di dati sintetici. Per a decisione cummerciale, i dati veri seranu sempre favuriti. Tuttavia, i dati realistichi sò a prossima megliu opzione quandu tali dati veri crudi ùn sò micca accessibili per l'analisi.
Tuttavia, deve esse ricurdatu chì per pruduce dati sintetici, i scientisti di dati cun una solida cunniscenza di u mudellu di dati sò richiesti. Una comprensione approfondita di e dati reali è di u so circondu hè ancu essenziale. Questu hè indispensabile per assicurà chì, s'ellu hè dispunibule, i dati pruduciutu sò cusì precisi quant'è fattibile.
Lascia un Audiolibro