Generació de dades sintètiques: tipus, tècniques i més

Taula de continguts[Amaga][Espectacle]

Què són les dades sintètiques?
Importància de les dades sintètiques
Tipus de dades sintètiques+-
Tècniques de generació de dades sintètiques+-
Proveïdors de dades sintètiques+-
- Dades estructurades
- Dades no estructurades
Challenges
Conclusió

Els investigadors i els científics de dades sovint es troben amb circumstàncies en què no disposen de les dades reals o no poden utilitzar-les per motius de confidencialitat o privadesa.

Per solucionar aquest problema, s'utilitza la producció de dades sintètiques per produir un reemplaçament de dades genuïnes.

Es requereix la substitució adequada de dades genuïnes perquè l'algorisme funcioni correctament, que també hauria de ser de caràcter realista. Podeu utilitzar aquestes dades per mantenir la privadesa, provar sistemes o produir dades d'entrenament per als algorismes d'aprenentatge automàtic.

Explorem en detall la generació de dades sintètiques i veiem per què són vitals en l'era de la IA.

Què són les dades sintètiques?

Les dades sintètiques són dades anotades generades per simulacions o algorismes per ordinador com a substitut de les dades del món real. És una rèplica de dades reals generada per intel·ligència artificial.

Es poden utilitzar patrons i dimensions de dades mitjançant algorismes avançats d'IA. Poden crear una quantitat il·limitada de dades sintètiques que sigui estadísticament representativa de les dades d'entrenament originals un cop s'ha entrenat.

Hi ha una varietat d'enfocaments i tecnologies que ens poden ajudar a crear dades sintètiques i que podeu utilitzar en una varietat d'aplicacions.

El programari de generació de dades sovint requereix:

Metadades d'un dipòsit de dades, per al qual s'han de crear dades sintètiques.
Tècnica per generar valors plausibles però ficticis. Els exemples inclouen llistes de valors i expressions regulars.
Coneixement integral de totes les relacions de dades, tant les declarades a nivell de base de dades com les controlades a nivell de codi de l'aplicació.

Igualment és necessari validar el model i comparar els aspectes de comportament de les dades reals amb els generats pel model.

Aquests conjunts de dades ficticis tenen tot el valor de la cosa real, però cap de les dades sensibles. És com un pastís deliciós i sense calories. Representa amb precisió el món real.

Com a resultat, podeu utilitzar-lo per substituir dades del món real.

Importància de les dades sintètiques

Les dades sintètiques tenen característiques per adaptar-se a determinades demandes o situacions que d'altra manera no estarien disponibles a les dades del món real. Quan hi ha escassetat de dades per provar o quan la privadesa és una consideració primordial, es tracta de rescatar-lo.

Els conjunts de dades generats per IA són adaptables, segurs i fàcils d'emmagatzemar, intercanviar i descartar. La tècnica de síntesi de dades és adequada per subconjuntar i millorar les dades originals.

Com a conseqüència, és ideal per utilitzar-lo com a dades de prova i dades d'entrenament d'IA.

Per ensenyar Uber basat en ML i Automòbils Tesla amb conducció autònoma.
En les indústries mèdiques i sanitàries, per avaluar malalties i circumstàncies específiques per a les quals no existeixen dades genuïnes.
La detecció i la protecció del frau són crucials en el sector financer. En utilitzar-lo, podeu investigar noves instàncies fraudulentes.
Amazon està entrenant el sistema lingüístic d'Alexa mitjançant dades sintètiques.
American Express està utilitzant dades financeres sintètiques per millorar la detecció de fraus.

Tipus de dades sintètiques

Les dades sintètiques es creen a l'atzar amb la intenció d'ocultar informació privada sensible mentre es manté informació estadística sobre les característiques de les dades originals.

És principalment de tres tipus:

Dades totalment sintètiques
Dades parcialment sintètiques
Dades sintètiques híbrides

1. Dades totalment sintètiques

Aquestes dades es generen completament i no contenen dades originals.

Normalment, el generador de dades d'aquest tipus identificarà les funcions de densitat de les característiques en dades reals i estimarà els seus paràmetres. Més tard, a partir de les funcions de densitat previstes, es creen sèries protegides per la privadesa a l'atzar per a cada característica.

Si només es trien unes poques característiques de les dades reals per ser substituïdes per elles, la sèrie protegida d'aquestes característiques s'assigna a les característiques restants de les dades reals per classificar les sèries protegides i reals en el mateix ordre.

Les tècniques d'arrencada i les múltiples imputacions són dos mètodes tradicionals per produir dades completament sintètiques.

Com que les dades són completament sintètiques i no existeixen dades reals, aquesta estratègia proporciona una excel·lent protecció de la privadesa amb la confiança en la veracitat de les dades.

2. Dades parcialment sintètiques

Aquestes dades només utilitzen valors sintètics per substituir els valors d'algunes característiques sensibles.

En aquesta situació, els valors genuïns només es canvien si hi ha un perill substancial d'exposició. Aquest canvi es fa per protegir la privadesa de les dades acabades de crear.

S'utilitzen enfocaments d'imputació múltiple i basats en models per produir dades parcialment sintètiques. Aquests mètodes també es poden utilitzar per omplir els valors que falten a les dades del món real.

3. Dades sintètiques híbrides

Les dades sintètiques híbrides inclouen dades reals i falses.

S'escull un registre proper per a cada registre aleatori de dades reals, i els dos s'uneixen per generar dades híbrides. Té els avantatges de dades totalment sintètiques i parcialment sintètiques.

Per tant, ofereix una forta preservació de la privadesa amb una gran utilitat en comparació amb els altres dos, però a costa de més memòria i temps de processament.

Tècniques de generació de dades sintètiques

Durant molts anys, el concepte de dades fetes a màquina ha estat popular. Ara està madurant.

Aquestes són algunes de les tècniques utilitzades per generar dades sintètiques:

1. Basat en la distribució

En cas que no existeixin dades reals, però l'analista de dades té una idea completa de com apareixeria la distribució del conjunt de dades; poden produir una mostra aleatòria de qualsevol distribució, incloent Normal, Exponencial, Chi-quadrat, t, lognormal i Uniforme.

El valor de les dades sintètiques en aquest mètode varia segons el nivell de comprensió de l'analista sobre un determinat entorn de dades.

2. Dades del món real en distribució coneguda

Les empreses poden produir-lo identificant les distribucions més adequades per a dades reals donades si hi ha dades reals.

Les empreses poden utilitzar l'enfocament de Montecarlo per produir-lo si volen ajustar dades reals a una distribució coneguda i conèixer els paràmetres de distribució.

Tot i que l'enfocament de Montecarlo pot ajudar les empreses a localitzar la millor coincidència disponible, és possible que la millor adequació no sigui prou útil per a les necessitats de dades sintètiques de l'empresa.

Les empreses poden explorar l'ús de models d'aprenentatge automàtic per adaptar-se a les distribucions en aquestes circumstàncies.

Les tècniques d'aprenentatge automàtic, com ara els arbres de decisió, permeten a les organitzacions modelar distribucions no clàssiques, que poden ser multimodals i no tenen propietats comunes de distribucions reconegudes.

Les empreses poden produir dades sintètiques que es connecten a dades genuïnes mitjançant aquesta distribució adaptada a l'aprenentatge automàtic.

No obstant això, models d’aprenentatge automàtic són susceptibles de sobreajustar-se, cosa que fa que no coincideixin amb les dades noves o no prediguin observacions futures.

3. Aprenentatge profund

Els models generatius profunds com el codificador automàtic variacional (VAE) i la xarxa adversària generativa (GAN) poden produir dades sintètiques.

Autoencoder variacional

VAE és un enfocament no supervisat en què el codificador comprimeix el conjunt de dades original i envia dades al descodificador.

Aleshores, el descodificador produeix una sortida que és una representació del conjunt de dades original.

Ensenyar el sistema implica maximitzar la correlació entre les dades d'entrada i de sortida.

Vae

Xarxa adversària generativa

El model GAN entrena el model de manera iterativa utilitzant dues xarxes, el generador i el discriminador.

El generador crea un conjunt de dades sintètics a partir d'un conjunt de dades de mostra aleatòries.

Discriminator compara dades creades sintèticament amb un conjunt de dades real mitjançant condicions predefinides.

Gan

Proveïdors de dades sintètiques

Dades estructurades

Les plataformes esmentades a continuació proporcionen dades sintètiques derivades de dades tabulars.

Replica les dades del món real conservades en taules i es pot utilitzar per a anàlisis conductuals, predictives o transaccionals.

Inculcar IA: és un proveïdor d'un sistema de creació de dades sintètics que utilitza xarxes generatives adversàries i privadesa diferencial.
Millor dades: és un proveïdor d'una solució de dades sintètiques que preserva la privadesa per a IA, intercanvi de dades i desenvolupament de productes.
Divepale: és el proveïdor de Geminai, un sistema per crear conjunts de dades "bessons" amb les mateixes característiques estadístiques que les dades originals.

Dades no estructurades

Les plataformes esmentades a continuació operen amb dades no estructurades, proporcionant béns i serveis de dades sintètiques per entrenar algorismes de visió i reconeixement.

Datagen: Proporciona dades d'entrenament simulades en 3D per a l'aprenentatge i el desenvolupament d'IA visual.
Neurolabs: Neurolabs és un proveïdor d'una plataforma de dades sintètiques de visió per ordinador.
Domini paral·lel: és un proveïdor d'una plataforma de dades sintètiques per a la formació de sistemes autònoms i proves de casos d'ús.
Cognata: És un proveïdor de simulació per ADAS i desenvolupadors de vehicles autònoms.
Bifrost: Proporciona API de dades sintètiques per crear entorns 3D.

3 2

Challenges

Té una llarga història en Intel·ligència Artificial, i tot i que té molts avantatges, també té inconvenients importants que cal abordar mentre treballeu amb dades sintètiques.

Aquests són alguns d'ells:

Pot haver-hi molts errors en copiar la complexitat de dades reals a dades sintètiques.
La seva naturalesa mal·leable condueix a biaixos en el seu comportament.
Pot haver-hi alguns defectes ocults en el rendiment dels algorismes entrenats mitjançant representacions simplificades de dades sintètiques que han aparegut recentment mentre es tractaven dades reals.
Replicar tots els atributs rellevants de les dades del món real pot arribar a ser complicat. També és possible que al llarg d'aquesta operació es passin per alt alguns aspectes essencials.

Conclusió

La producció de dades sintètiques està cridant clarament l'atenció de la gent.

És possible que aquest mètode no sigui una resposta única per a tots els casos de generació de dades.

A més, la tècnica pot requerir intel·ligència mitjançant IA/ML i ser capaç de gestionar situacions complicades del món real de creació de dades interrelacionades, idealment dades adequades a un determinat domini.

No obstant això, és una tecnologia innovadora que omple un buit on altres tecnologies que permeten la privadesa es queden curtes.

Avui, sintètic La producció de dades pot necessitar la coexistència de l'emmascarament de dades.

En el futur, pot haver-hi una major convergència entre els dos, donant lloc a una solució de generació de dades més completa.

Comparteix les teves opinions als comentaris!

eines i tècniques de generació de dades sintètiques

Generació de dades sintètiques: tipus, tècniques i més

Què són les dades sintètiques?

Importància de les dades sintètiques