Date sintetice explicate - Următorul lucru important în AI, ML și DL

Programele avansate de analiză și de învățare automată sunt propulsate de date, dar accesul la aceste date poate fi dificil pentru cadrele universitare din cauza provocărilor legate de confidențialitate și procedurile de afaceri.

Datele sintetice, care pot fi partajate și utilizate în moduri în care datele reale nu pot, reprezintă o nouă direcție potențială de urmat. Cu toate acestea, această nouă strategie nu este lipsită de pericole sau dezavantaje, de aceea este esențial ca întreprinderile să analizeze cu atenție unde și cum își folosesc resursele.

În era actuală a inteligenței artificiale, putem afirma, de asemenea, că datele sunt noul ulei, dar doar câțiva selecționați stau pe un șurub. Prin urmare, mulți oameni își produc propriul combustibil, care este atât accesibil, cât și eficient. Este cunoscut ca date sintetice.

În această postare, vom arunca o privire detaliată asupra datelor sintetice - de ce ar trebui să le utilizați, cum să le produceți, ce le face diferită de datele reale, ce cazuri de utilizare le poate servi și multe altele.

Deci, ce sunt datele sintetice?

Atunci când seturile de date autentice sunt inadecvate în ceea ce privește calitatea, numărul sau diversitatea, datele sintetice pot fi folosite pentru a antrena modele AI în locul datelor istorice reale.

Când datele existente nu satisfac cerințele de afaceri sau prezintă riscuri de confidențialitate atunci când sunt utilizate pentru dezvoltare masina de învățare modele, software de testare sau altele asemenea, datele sintetice pot fi un instrument semnificativ pentru eforturile AI corporative.

Simplu spus, datele sintetice sunt frecvent utilizate în locul datelor reale. Mai exact, sunt date care au fost etichetate artificial și produse de simulări sau algoritmi de computer.

Date sintetice

Datele sintetice sunt informații care au fost create de un program de calculator în mod artificial, mai degrabă decât ca rezultat al evenimentelor reale. Companiile pot adăuga date sintetice la datele lor de antrenament pentru a acoperi toate situațiile de utilizare și limită, pentru a reduce costul culegerii datelor sau pentru a satisface reglementările privind confidențialitatea.

Datele artificiale sunt acum mai accesibile ca niciodată datorită îmbunătățirilor aduse puterii de procesare și metodelor de stocare a datelor, cum ar fi cloud-ul. Datele sintetice îmbunătățesc crearea de soluții AI care sunt mai benefice pentru toți utilizatorii finali și aceasta este, fără îndoială, o dezvoltare bună.

Cât de importante sunt datele sintetice și de ce ar trebui să le folosiți?

Când antrenează modele AI, dezvoltatorii au adesea nevoie de seturi de date uriașe cu etichetare precisă. Când sunt predate cu date mai variate, rețele neuronale executa mai precis.

Culegerea și etichetarea acestor seturi masive de date care conțin sute sau chiar milioane de articole, totuși, poate fi consumatoare de timp și bani nerezonabil. Prețul producerii datelor de antrenament poate fi redus foarte mult prin utilizarea datelor sintetice. De exemplu, dacă este creată artificial, o imagine de antrenament care costă 5 USD atunci când este achiziționată de la un furnizor de etichetare a datelor ar putea costa doar 0.05 USD.

Datele sintetice pot atenua preocupările legate de confidențialitate legate de datele potențial sensibile generate din lumea reală, reducând în același timp și cheltuielile.

În comparație cu datele reale, care nu ar putea reflecta cu exactitate spectrul complet de fapte despre lumea reală, ar putea ajuta la diminuarea prejudecăților. Prin furnizarea de apariții neobișnuite care reprezintă posibilități plauzibile, dar care pot fi dificil de obținut din date legitime, datele sintetice pot oferi o mai mare diversitate.

Datele sintetice ar putea fi o potrivire fantastică pentru proiectul dvs. din motivele enumerate mai jos:

1. Robustețea modelului

Fără a fi nevoie să-l achiziționați, accesați date mai variate pentru modelele dvs. Cu date sintetice, vă puteți antrena modelul folosind variante ale aceleiași persoane cu diferite tunsori, păr facial, ochelari, ipostaze ale capului etc., precum și tonul pielii, trăsături etnice, structura osoasă, pistrui și alte caracteristici pentru a genera unic. se confruntă și o întărește.

2. Se iau în considerare cazurile Edge

Un echilibru setul de date este preferat de machine learning algoritmi. Gândiți-vă la exemplul nostru de recunoaștere a feței. Precizia modelelor lor s-ar fi îmbunătățit (și, de fapt, unele dintre aceste companii au făcut exact acest lucru) și ar fi produs un model mai moral dacă ar fi produs date sintetice ale fețelor cu pielea mai închisă pentru a-și completa golurile de date. Echipele pot acoperi toate cazurile de utilizare, inclusiv cazurile marginale în care datele sunt rare sau inexistente, cu ajutorul datelor sintetice.

3. Poate fi obținută mai rapid decât datele „actuale”.

Echipele sunt capabile să genereze rapid cantități mari de date sintetice. Acest lucru este util în special atunci când datele din viața reală depind de evenimente sporadice. Echipelor le poate fi dificil să obțină suficiente date din lumea reală despre condițiile severe ale drumului în timp ce colectează date pentru o mașină cu conducere autonomă, de exemplu, din cauza rarității acestora. Pentru a accelera procesul laborios de adnotare, oamenii de știință de date pot crea algoritmi pentru a eticheta automat datele sintetice pe măsură ce sunt generate.

4. Securizează informațiile privind confidențialitatea utilizatorului

Companiile pot avea dificultăți de securitate în timpul manipulării datelor sensibile, în funcție de afacere și tipul de date. Informațiile personale de sănătate (PHI), de exemplu, sunt adesea incluse în datele pacienților internați în industria sănătății și trebuie tratate cu cea mai mare securitate.

Deoarece datele sintetice nu includ informații despre persoane reale, problemele de confidențialitate sunt diminuate. Luați în considerare utilizarea datelor sintetice ca alternativă dacă echipa dvs. trebuie să respecte anumite legi privind confidențialitatea datelor.

Date reale vs date sintetice

În lumea reală, datele reale sunt obținute sau măsurate. Când cineva folosește un smartphone, laptop sau computer, poartă un ceas de mână, accesează un site web sau efectuează o tranzacție online, acest tip de date sunt generate instantaneu.

În plus, sondajele pot fi folosite pentru a furniza date autentice (online și offline). Setările digitale produc date sintetice. Cu excepția porțiunii care nu a fost derivată din niciun eveniment din lumea reală, datele sintetice sunt create într-un mod care imită cu succes datele reale în ceea ce privește calitățile fundamentale.

Ideea de a folosi date sintetice ca substitut pentru datele reale este foarte promițătoare, deoarece poate fi folosită pentru a furniza date de antrenament care învățarea automată modelele cer. Dar nu este sigur că inteligență artificială poate rezolva orice problemă care apare în lumea actuală.

Cazuri de utilizare

Datele sintetice sunt utile pentru o varietate de scopuri comerciale, inclusiv formarea modelelor, validarea modelului și testarea produselor noi. Vom enumera câteva dintre sectoarele care au deschis calea în aplicarea sa la învățarea automată:

1. Sănătate

Având în vedere sensibilitatea datelor sale, sectorul sănătății este potrivit pentru utilizarea datelor sintetice. Datele sintetice pot fi folosite de echipe pentru a înregistra fiziologiile fiecărui tip de pacient care ar putea exista, ajutând astfel la diagnosticarea mai rapidă și mai precisă a bolilor.

Farmaceutice

Modelul Google de detectare a melanomului este o ilustrare interesantă a acestui lucru, deoarece încorporează date sintetice ale persoanelor cu tonuri de piele mai închise (o zonă de date clinice care, din păcate, este subreprezentată) pentru a oferi modelului capacitatea de a funcționa eficient pentru toate tipurile de piele.

2. Automobile

Simulatoarele sunt frecvent utilizate de companiile care creează automobile autonome pentru a evalua performanța. Când vremea este aspră, de exemplu, strângerea de date reale despre drum poate fi riscantă sau dificilă.

Autoturism

Să te bazezi pe teste live cu mașini reale pe șosele nu este, în general, o idee bună, deoarece există prea multe variabile de luat în considerare în toate situațiile diferite de condus.

3. Portabilitatea datelor

Pentru a-și putea partaja datele de formare cu alții, organizațiile au nevoie de metode de încredere și sigure. Ascunderea informațiilor de identificare personală (PII) înainte de a face public setul de date este o altă aplicație intrigantă pentru date sintetice. Schimbul de seturi de date de cercetare științifică, date medicale, date sociologice și alte domenii care ar putea conține PII sunt denumite date sintetice care păstrează confidențialitatea.

4. Securitate

Organizațiile sunt mai sigure datorită datelor sintetice. În ceea ce privește din nou exemplul nostru de recunoaștere a feței, este posibil să fiți familiarizat cu expresia „deep fakes”, care descrie fotografii sau videoclipuri fabricate. Deep falsuri pot fi produse de companii pentru a-și testa propriile sisteme de recunoaștere facială și de securitate. Datele sintetice sunt folosite și în supravegherea video pentru a antrena modele mai rapid și la un cost mai ieftin.

Date sintetice și învățare automată

Pentru a construi un model solid și de încredere, algoritmii de învățare automată au nevoie de o cantitate semnificativă de date pentru a fi procesate. În absența datelor sintetice, producerea unui volum atât de mare de date ar fi o provocare.

În domenii precum viziunea computerizată sau procesarea imaginilor, unde dezvoltarea modelelor este facilitată de dezvoltarea datelor sintetice timpurii, aceasta poate fi extrem de semnificativă. O nouă dezvoltare în domeniul recunoașterii imaginilor este utilizarea rețelelor generative adversare (GAN). Constă de obicei din două rețele: un generator și un discriminator.

În timp ce rețeaua de discriminare își propune să separe fotografiile reale de cele false, rețeaua generatoare funcționează pentru a produce imagini sintetice care sunt considerabil mai asemănătoare cu imaginile din lumea reală.

În învățarea automată, GAN-urile sunt un subset al familiei de rețele neuronale, în care ambele rețele învață și se dezvoltă continuu prin adăugarea de noi noduri și straturi.

Când creați date sintetice, aveți opțiunea de a modifica mediul și tipul datelor după cum este necesar pentru a îmbunătăți performanța modelului. În timp ce acuratețea datelor sintetice poate fi obținută cu ușurință cu un scor puternic, acuratețea datelor în timp real etichetate poate fi uneori extrem de costisitoare.

Cum puteți genera date sintetice?

Abordările utilizate pentru a crea o culegere de date sintetice sunt următoarele:

Pe baza distribuţiei statistice

Strategia folosită în acest caz este de a lua numere din distribuție sau de a analiza distribuțiile statistice reale pentru a crea date false care să pară comparabile. Datele reale pot lipsi complet în anumite circumstanțe.

Un om de știință de date poate genera un set de date care conține un eșantion aleatoriu din orice distribuție dacă are o înțelegere profundă a distribuției statistice în datele reale. Distribuția normală, distribuția exponențială, distribuția chi-pătrat, distribuția lognormală și multe altele sunt doar câteva exemple de distribuții de probabilitate statistică care pot fi utilizate pentru a face acest lucru.

Nivelul de experiență al cercetătorului de date cu situația va avea un impact semnificativ asupra acurateței modelului antrenat.

In functie de model

Această tehnică construiește un model care ține cont de comportamentul observat înainte de a utiliza acel model pentru a genera date aleatorii. În esență, aceasta implică potrivirea datelor reale cu datele dintr-o distribuție cunoscută. Abordarea Monte Carlo poate fi apoi folosită de corporații pentru a crea date false.

În plus, distribuțiile pot fi montate și folosind modele de învățare automată ca arborii de decizie. Oamenii de știință ai datelor trebuie să acorde totuși atenție prognozei, deoarece arborii de decizie de obicei se supraajustează datorită simplității și extinderii lor în profunzime.

Cu învățare profundă

Invatare profunda modelele care utilizează un Autoencoder variațional (VAE) sau modele de rețea adversară generativă (GAN) sunt două moduri de a crea date sintetice. Modelele de învățare automată nesupravegheate includ VAE.

Ele sunt formate din codificatoare, care micșorează și compactează datele originale și decodoare, care analizează aceste date pentru a oferi o reprezentare a datelor reale. Menținerea datelor de intrare și de ieșire cât mai identice posibil este obiectivul de bază al unui VAE. Două rețele neuronale opuse sunt modelele GAN și rețelele adverse.

Prima rețea, cunoscută sub numele de rețea generatoare, este responsabilă cu producerea de date false. Rețeaua de discriminare, a doua rețea, funcționează prin compararea datelor sintetice create cu datele reale, în efortul de a identifica dacă setul de date este fraudulos. Discriminatorul alertează generatorul când descoperă un set de date fals.

Următorul lot de date furnizat discriminatorului este ulterior modificat de generator. Ca rezultat, discriminatorul se îmbunătățește în timp la identificarea seturilor de date false. Acest tip de model este frecvent utilizat în sectorul financiar pentru detectarea fraudelor, precum și în sectorul sănătății pentru imagistica medicală.

Augmentarea datelor este o metodă diferită pe care oamenii de știință o folosesc pentru a produce mai multe date. Totuși, nu trebuie confundat cu date false. Pur și simplu spus, creșterea datelor este actul de a adăuga date noi la un set de date autentic care există deja.

Crearea mai multor imagini dintr-o singură imagine, de exemplu, prin ajustarea orientării, luminozității, măririi și multe altele. Uneori, setul de date real este folosit cu doar informațiile personale rămase. Anonimizarea datelor este ceea ce este și un set de astfel de date, de asemenea, nu trebuie privit ca date sintetice.

Provocări și limitări ale datelor sintetice

Deși datele sintetice au diverse beneficii care pot ajuta firmele în activități de știință a datelor, au și anumite limitări:

Fiabilitatea datelor: Este cunoscut faptul că fiecare model de învățare automată/învățare profundă este la fel de bun ca și datele pe care le furnizează. Calitatea datelor sintetice în acest context este strâns legată de calitatea datelor de intrare și de modelul utilizat pentru producerea datelor. Este esențial să ne asigurăm că nu există părtiniri în datele sursă, deoarece acestea pot fi reflectate foarte clar în datele sintetice. În plus, înainte de a face previziuni, calitatea datelor ar trebui să fie confirmată și verificată.
Necesită cunoștințe, efort și timp: Deși crearea de date sintetice ar putea fi mai simplă și mai puțin costisitoare decât crearea de date autentice, este nevoie de cunoștințe, timp și efort.
Replicarea anomaliilor: Replica perfectă a datelor din lumea reală nu este posibilă; datele sintetice nu pot decât să o aproximeze. Prin urmare, este posibil ca unele valori aberante care există în datele reale să nu fie acoperite de date sintetice. Anomaliile datelor sunt mai semnificative decât datele tipice.
Controlul productiei si asigurarea calitatii: Datele sintetice sunt destinate să reproducă datele din lumea reală. Verificarea manuală a datelor devine esențială. Este esențial să verificați acuratețea datelor înainte de a le încorpora în modelele de învățare automată/învățare profundă pentru seturi de date complicate create automat utilizând algoritmi.
Feedback-ul utilizatorului: Deoarece datele sintetice sunt un concept nou, nu toată lumea va fi gata să creadă previziunile făcute cu ele. Acest lucru indică faptul că, pentru a crește acceptabilitatea utilizatorilor, este mai întâi necesar să creștem cunoștințele despre utilitatea datelor sintetice.

Viitor

Utilizarea datelor sintetice a crescut dramatic în deceniul precedent. Deși economisește timp și bani companiilor, nu este lipsit de dezavantajele sale. Îi lipsesc valorile aberante, care apar în mod natural în datele reale și sunt esențiale pentru acuratețe în unele modele.

De asemenea, este de remarcat faptul că calitatea datelor sintetice se bazează frecvent pe datele de intrare utilizate pentru creare; prejudecățile în datele de intrare se pot răspândi rapid în datele sintetice, astfel că alegerea datelor de înaltă calitate ca punct de plecare nu ar trebui exagerată.

În cele din urmă, are nevoie de un control suplimentar al rezultatelor, inclusiv prin compararea datelor sintetice cu datele reale adnotate de om pentru a verifica dacă nu sunt introduse discrepanțe. În ciuda acestor obstacole, datele sintetice rămân un domeniu promițător.

Ne ajută să creăm soluții noi de inteligență artificială chiar și atunci când datele din lumea reală nu sunt disponibile. Cel mai important, le permite întreprinderilor să construiască produse care sunt mai incluzive și mai indicative pentru diversitatea consumatorilor finali.

Cu toate acestea, în viitorul bazat pe date, datele sintetice intenționează să-i ajute pe oamenii de știință de date să îndeplinească sarcini noi și creative, care ar fi dificil de finalizat doar cu date din lumea reală.

Concluzie

În anumite cazuri, datele sintetice pot atenua un deficit de date sau o lipsă de date relevante în interiorul unei afaceri sau organizații. De asemenea, am analizat ce strategii pot ajuta la generarea de date sintetice și cine poate profita de pe urma acestora.

Am vorbit, de asemenea, despre unele dintre dificultățile legate de tratarea datelor sintetice. Pentru luarea deciziilor comerciale, datele reale vor fi întotdeauna favorizate. Cu toate acestea, datele realiste sunt următoarea cea mai bună opțiune atunci când astfel de date brute adevărate nu sunt accesibile pentru analiză.

Cu toate acestea, trebuie amintit că, pentru a produce date sintetice, sunt necesari oameni de știință de date cu o înțelegere solidă a modelării datelor. O înțelegere aprofundată a datelor reale și a împrejurimilor lor este, de asemenea, esențială. Acest lucru este esențial pentru a vă asigura că, dacă sunt disponibile, datele produse sunt cât mai exacte posibil.

Date sintetice explicate – Următorul lucru important în AI, ML și DL

Deci, ce sunt datele sintetice?