Generarea de date sintetice: tipuri, tehnici și altele

Cuprins[Ascunde][Spectacol]

Ce sunt datele sintetice?
Importanța datelor sintetice
Tipuri de date sintetice+-
Tehnici de generare a datelor sintetice+-
Furnizori de date sintetice+-
- Date structurate
- Date nestructurate
Provocări
Concluzie

Cercetătorii și oamenii de știință de date se confruntă adesea cu circumstanțe în care fie nu dețin datele reale, fie nu le pot folosi din cauza confidențialității sau a considerațiilor de confidențialitate.

Pentru a rezolva această problemă, producția de date sintetice este utilizată pentru a produce un înlocuitor pentru datele autentice.

Înlocuirea adecvată a datelor autentice este necesară pentru ca algoritmul să funcționeze corect, care ar trebui să aibă, de asemenea, un caracter realist. Puteți utiliza astfel de date pentru menținerea confidențialității, testarea sistemelor sau producerea de date de antrenament pentru algoritmii de învățare automată.

Să explorăm în detaliu generarea de date sintetice și să vedem de ce sunt vitale în era AI.

Ce sunt datele sintetice?

Datele sintetice sunt date adnotate generate de simulări computerizate sau algoritmi ca un substitut pentru datele din lumea reală. Este o replică generată de inteligența artificială a datelor reale.

Se pot folosi modele și dimensiuni de date folosind algoritmi AI avansati. Ei pot crea o cantitate nelimitată de date sintetice care sunt reprezentative din punct de vedere statistic pentru datele originale de antrenament odată ce sunt antrenați.

Există o varietate de abordări și tehnologii care ne pot ajuta să creăm date sintetice și pe care le puteți utiliza într-o varietate de aplicații.

Software-ul de generare de date necesită adesea:

Metadate ale unui depozit de date, pentru care trebuie create date sintetice.
Tehnica de generare a valorilor plauzibile, dar fictive. Exemplele includ liste de valori și expresii regulate.
Cunoașterea cuprinzătoare a tuturor relațiilor de date, a celor declarate la nivel de bază de date, precum și a celor controlate la nivel de cod al aplicației.

Este la fel de necesar să se valideze modelul și să se compare aspectele comportamentale ale datelor reale cu cele generate de model.

Aceste seturi de date fictive au toată valoarea reală, dar niciuna dintre datele sensibile. Este ca un tort delicios, fără calorii. Înfățișează cu exactitate lumea reală.

Ca rezultat, îl puteți folosi pentru a înlocui datele din lumea reală.

Importanța datelor sintetice

Datele sintetice au caracteristici pentru a se potrivi anumitor cerințe sau situații care altfel ar fi indisponibile în datele din lumea reală. Când există o lipsă de date pentru testare sau când confidențialitatea este un aspect de top, vine vorba de salvare.

Seturile de date generate de AI sunt adaptabile, sigure și ușor de stocat, schimbat și aruncat. Tehnica de sinteză a datelor este adecvată pentru subsetarea și îmbunătățirea datelor originale.

În consecință, este ideal pentru utilizare ca date de testare și date de antrenament AI.

Pentru a preda Uber bazat pe ML și Mașini Tesla cu conducere autonomă.
În industriile medicale și de asistență medicală, pentru a evalua anumite boli și circumstanțe pentru care nu există date reale.
Detectarea și protecția fraudelor sunt cruciale în sectorul financiar. Utilizând-o, puteți investiga noi cazuri frauduloase.
Amazon antrenează sistemul lingvistic Alexa folosind date sintetice.
American Express folosește date financiare sintetice pentru a îmbunătăți detectarea fraudelor.

Tipuri de date sintetice

Datele sintetice sunt create la întâmplare cu intenția de a ascunde informațiile private sensibile, păstrând în același timp informații statistice despre caracteristici în datele originale.

Este în principal de trei tipuri:

Date complet sintetice
Date parțial sintetice
Date sintetice hibride

1. Date complet sintetice

Aceste date sunt în întregime generate și nu conțin date originale.

De obicei, generatorul de date pentru acest tip va identifica funcțiile de densitate ale caracteristicilor în date reale și va estima parametrii acestora. Mai târziu, din funcțiile de densitate prezisă, serii protejate de confidențialitate sunt create aleatoriu pentru fiecare caracteristică.

Dacă doar câteva caracteristici ale datelor reale sunt alese pentru a fi înlocuite cu acestea, seria protejată a acestor caracteristici este mapată la caracteristicile rămase ale datelor reale pentru a clasifica seria protejată și seria reală în aceeași ordine.

Tehnicile bootstrap și imputațiile multiple sunt două metode tradiționale de producere a datelor complet sintetice.

Deoarece datele sunt în întregime sintetice și nu există date reale, această strategie oferă o protecție excelentă a confidențialității, bazându-se pe veridicitatea datelor.

2. Date parțial sintetice

Aceste date folosesc numai valori sintetice pentru a înlocui valorile câtorva caracteristici sensibile.

În această situație, valorile reale sunt modificate doar dacă există un pericol substanțial de expunere. Această modificare este făcută pentru a proteja confidențialitatea datelor proaspăt create.

Imputarea multiplă și abordările bazate pe model sunt utilizate pentru a produce date parțial sintetice. Aceste metode pot fi folosite și pentru a completa valorile lipsă în datele din lumea reală.

3. Date sintetice hibride

Datele sintetice hibride includ atât date reale, cât și date false.

O aproape înregistrare din acesta este aleasă pentru fiecare înregistrare aleatorie de date reale, iar cele două sunt apoi unite pentru a genera date hibride. Are beneficiile atât ale datelor complet sintetice, cât și ale datelor parțial sintetice.

Prin urmare, oferă o păstrare puternică a confidențialității cu o utilitate ridicată în comparație cu celelalte două, dar cu costul unei mai multe memorie și timp de procesare.

Tehnici de generare a datelor sintetice

De mulți ani, conceptul de date create de mașini a fost popular. Acum se maturizează.

Iată câteva dintre tehnicile folosite pentru a genera date sintetice:

1. Pe baza distribuției

În cazul în care nu există date reale, dar analistul de date are o idee amănunțită despre cum ar apărea distribuția setului de date; pot produce un eșantion aleatoriu din orice distribuție, inclusiv Normal, Exponențial, Chi-pătrat, t, lognormal și Uniform.

Valoarea datelor sintetice în această metodă variază în funcție de nivelul de înțelegere al analistului despre un anumit mediu de date.

2. Datele din lumea reală în distribuție cunoscută

Companiile îl pot produce prin identificarea celor mai potrivite distribuții pentru date reale date, dacă există date reale.

Companiile pot folosi abordarea Monte Carlo pentru a o produce dacă doresc să încadreze date reale într-o distribuție cunoscută și să cunoască parametrii de distribuție.

Deși abordarea Monte Carlo poate ajuta companiile să găsească cea mai bună potrivire disponibilă, este posibil ca cea mai bună potrivire să nu fie suficientă pentru nevoile de date sintetice ale companiei.

Companiile ar putea explora utilizarea modelelor de învățare automată pentru a se potrivi distribuțiilor în aceste circumstanțe.

Tehnicile de învățare automată, cum ar fi arborii de decizie, permit organizațiilor să modeleze distribuțiile non-clasice, care ar putea fi multimodale și nu au proprietăți comune ale distribuțiilor recunoscute.

Companiile pot produce date sintetice care se conectează la date autentice folosind această distribuție adaptată învățării automate.

"Dar daca modele de învățare automată sunt susceptibili la supraadaptare, ceea ce le face să nu potrivească date noi sau să prezică observații viitoare.

3. Învățare profundă

Modelele generative profunde precum Variational Autoencoder (VAE) și Generative Adversarial Network (GAN) pot produce date sintetice.

Autoencoder variațional

VAE este o abordare nesupravegheată în care codificatorul comprimă setul de date original și trimite date către decodor.

Decodorul produce apoi o ieșire care este o reprezentare a setului de date original.

Predarea sistemului presupune maximizarea corelației dintre datele de intrare și de ieșire.

Vae

Rețea Adversarială Generativă

Modelul GAN antrenează iterativ modelul folosind două rețele, generatorul și discriminatorul.

Generatorul creează un set de date sintetice dintr-un set de date ale eșantionului aleatoriu.

Discriminator compară datele create sintetic cu un set de date real folosind condiții predefinite.

Gan

Furnizori de date sintetice

Date structurate

Platformele menționate mai jos oferă date sintetice derivate din date tabelare.

Replică datele din lumea reală păstrate în tabele și poate fi folosit pentru analiză comportamentală, predictivă sau tranzacțională.

Insuflă AI: este un furnizor de sistem de creare de date sintetice care utilizează rețele generative adverse și confidențialitate diferențială.
Date mai bune: este furnizorul unei soluții de date sintetice care păstrează confidențialitatea pentru AI, partajarea datelor și dezvoltarea de produse.
Divepale: Este furnizorul Geminai, un sistem pentru crearea de seturi de date „gemene” cu aceleași caracteristici statistice ca și datele originale.

Date nestructurate

Platformele menționate mai jos funcționează cu date nestructurate, furnizând bunuri și servicii de date sintetice pentru antrenamentul de viziune și algoritmi de recunoaștere.

Datagen: Oferă date de antrenament simulate 3D pentru învățarea și dezvoltarea Visual AI.
Neurolabs: Neurolabs este un furnizor al unei platforme de date sintetice de viziune computerizată.
Domeniu paralel: este furnizorul unei platforme de date sintetice pentru instruirea sistemelor autonome și testarea cazurilor de utilizare.
Cognata: Este un furnizor de simulare pentru ADAS și dezvoltatorii de vehicule autonome.
Bifrost: Oferă API-uri de date sintetice pentru crearea de medii 3D.

3 2

Provocări

Are o istorie lungă în Inteligenta Artificialași, deși are multe avantaje, are și dezavantaje semnificative pe care trebuie să le abordați în timp ce lucrați cu date sintetice.

Aici sunt câțiva dintre ei:

Pot exista o mulțime de erori în timpul copierii complexității de la datele reale în datele sintetice.
Natura maleabilă a acestuia duce la părtiniri în comportamentul său.
Pot exista unele defecte ascunse în performanța algoritmilor antrenați folosind reprezentări simplificate ale datelor sintetice care au apărut recent în timp ce se ocupă cu date reale.
Replicarea tuturor atributelor relevante din datele din lumea reală poate deveni complicată. De asemenea, este posibil ca unele aspecte esențiale să fie trecute cu vederea pe parcursul acestei operațiuni.

Concluzie

Producția de date sintetice atrage în mod clar atenția oamenilor.

Este posibil ca această metodă să nu fie un răspuns unic pentru toate cazurile care generează date.

În plus, tehnica poate necesita inteligență prin AI/ML și poate face față situațiilor complicate din lumea reală de creare a datelor interconectate, în mod ideal date potrivite unui anumit domeniu.

Cu toate acestea, este o tehnologie inovatoare care umple un gol în care alte tehnologii care permit confidențialitatea sunt insuficiente.

Astăzi, sintetice producția de date poate necesita coexistența mascării datelor.

În viitor, poate exista o convergență mai mare între cele două, rezultând o soluție mai cuprinzătoare de generare a datelor.

Împărtășește-ți părerile în comentarii!

Generarea de date sintetice: tipuri, tehnici și altele

Ce sunt datele sintetice?

Importanța datelor sintetice