Xeración de datos sintéticos: tipos, técnicas e máis

Índice analítico[Ocultar][Mostrar]

Que son os datos sintéticos?
Importancia dos datos sintéticos
Tipos de datos sintéticos+-
Técnicas de xeración de datos sintéticos+-
Provedores de datos sintéticos+-
- Datos estruturados
- Datos non estruturados
Desafíos
Conclusión

Os investigadores e os científicos de datos adoitan atoparse con circunstancias nas que non teñen os datos reais ou non poden utilizalos por motivos de confidencialidade ou privacidade.

Para solucionar este problema, utilízase a produción de datos sintéticos para producir un substituto dos datos xenuínos.

Requírese a substitución adecuada de datos xenuínos para que o algoritmo funcione correctamente, que tamén debe ser de carácter realista. Podes usar eses datos para manter a privacidade, probar sistemas ou producir datos de adestramento para algoritmos de aprendizaxe automática.

Exploremos a xeración de datos sintéticos en detalle e vexamos por que son vitais na era da IA.

Que son os datos sintéticos?

Os datos sintéticos son datos anotados xerados por simulacións informáticas ou algoritmos como substituto dos datos do mundo real. É unha réplica xerada pola intelixencia artificial de datos reais.

Pódese usar patróns e dimensións de datos usando algoritmos avanzados de IA. Poden crear unha cantidade ilimitada de datos sintéticos que sexan estatisticamente representativos dos datos orixinais de adestramento unha vez que estean adestrados.

Hai unha variedade de enfoques e tecnoloxías que poden axudarnos a crear datos sintéticos e que podes utilizar en diversas aplicacións.

O software de xeración de datos a miúdo require:

Metadatos dun repositorio de datos, para o que se deben crear datos sintéticos.
Técnica para xerar valores plausibles pero ficticios. Os exemplos inclúen listas de valores e expresións regulares.
Coñecemento integral de todas as relacións de datos, tanto as declaradas a nivel de base de datos como as controladas a nivel de código de aplicación.

É igualmente necesario validar o modelo e comparar os aspectos de comportamento dos datos reais cos xerados polo modelo.

Estes conxuntos de datos ficticios teñen todo o valor do real, pero ningún dos datos sensibles. É como un bolo delicioso e sen calorías. Representa con precisión o mundo real.

Como resultado, pode usalo para substituír datos do mundo real.

Importancia dos datos sintéticos

Os datos sintéticos teñen características que se adaptan a determinadas demandas ou situacións que doutro xeito non estarían dispoñibles nos datos do mundo real. Cando hai unha escaseza de datos para probar ou cando a privacidade é a principal consideración, trátase do rescate.

Os conxuntos de datos xerados pola IA son adaptables, seguros e fáciles de almacenar, intercambiar e descartar. A técnica de síntese de datos é adecuada para subconxugar e mellorar os datos orixinais.

Como consecuencia, é ideal para usar como datos de proba e datos de adestramento de IA.

Para ensinar a Uber baseado en ML e Automóbiles autónomos de Tesla.
Nas industrias médicas e sanitarias, para avaliar enfermidades e circunstancias específicas para as que non existen datos xenuínos.
A detección e protección da fraude son fundamentais no sector financeiro. Ao usalo, podes investigar novas instancias fraudulentas.
Amazon está adestrando o sistema lingüístico de Alexa utilizando datos sintéticos.
American Express está a utilizar datos financeiros sintéticos para mellorar a detección de fraudes.

Tipos de datos sintéticos

Os datos sintéticos créanse ao azar coa intención de ocultar información privada confidencial mentres se mantén información estatística sobre as características dos datos orixinais.

Principalmente é de tres tipos:

Datos totalmente sintéticos
Datos parcialmente sintéticos
Datos sintéticos híbridos

1. Datos totalmente sintéticos

Estes datos xéranse na súa totalidade e non conteñen datos orixinais.

Normalmente, o xerador de datos deste tipo identificará funcións de densidade das características en datos reais e estimará os seus parámetros. Máis tarde, a partir das funcións de densidade previstas, créanse series protexidas pola privacidade ao azar para cada función.

Se só se escollen unhas poucas características dos datos reais para substituílas por ela, as series protexidas destas características mapearanse coas características restantes dos datos reais para clasificar as series protexidas e as reais na mesma orde.

As técnicas de arranque e as imputacións múltiples son dous métodos tradicionais para producir datos completamente sintéticos.

Debido a que os datos son totalmente sintéticos e non existen datos reais, esta estratexia ofrece unha excelente protección da privacidade cunha confianza na veracidade dos datos.

2. Datos parcialmente sintéticos

Estes datos só usan valores sintéticos para substituír os valores dalgunhas funcións sensibles.

Nesta situación, os valores xenuínos só se modifican se hai un perigo substancial de exposición. Este cambio realízase para protexer a privacidade dos datos recentemente creados.

Empréganse métodos de imputación múltiple e baseados en modelos para producir datos parcialmente sintéticos. Estes métodos tamén se poden usar para cubrir os valores que faltan en datos do mundo real.

3. Datos sintéticos híbridos

Os datos sintéticos híbridos inclúen datos reais e falsos.

Escóllese un rexistro próximo para cada rexistro aleatorio de datos reais, e despois únense os dous para xerar datos híbridos. Ten os beneficios de datos completamente sintéticos e parcialmente sintéticos.

Polo tanto, ofrece unha forte preservación da privacidade cunha gran utilidade en comparación cos outros dous, pero ao custo de máis memoria e tempo de procesamento.

Técnicas de xeración de datos sintéticos

Durante moitos anos, o concepto de datos elaborados a máquina foi popular. Agora está madurando.

Estas son algunhas das técnicas utilizadas para xerar datos sintéticos:

1. En función da distribución

No caso de que non existan datos reais, pero o analista de datos ten unha idea completa de como aparecería a distribución do conxunto de datos; poden producir unha mostra aleatoria de calquera distribución, incluíndo Normal, Exponencial, Chi cadrado, t, lognormal e Uniforme.

O valor dos datos sintéticos neste método varía dependendo do nivel de comprensión do analista sobre un determinado ambiente de datos.

2. Datos do mundo real en distribución coñecida

As empresas poden producilo identificando as distribucións máis adecuadas para determinados datos reais se hai datos reais.

As empresas poden utilizar o enfoque de Monte Carlo para producilo se desexan encaixar datos reais nunha distribución coñecida e coñecer os parámetros de distribución.

Aínda que o enfoque de Monte Carlo pode axudar ás empresas a localizar a mellor coincidencia dispoñible, a mellor axuste pode non ser suficientemente útil para as necesidades de datos sintéticos da empresa.

As empresas poden explorar o emprego de modelos de aprendizaxe automática para adaptarse ás distribucións nestas circunstancias.

As técnicas de aprendizaxe automática, como as árbores de decisión, permiten ás organizacións modelar distribucións non clásicas, que poden ser multimodais e carecer de propiedades comúns das distribucións recoñecidas.

As empresas poden producir datos sintéticos que se conectan a datos xenuínos mediante esta distribución adaptada á aprendizaxe automática.

Con todo, modelos de aprendizaxe automática son susceptibles de sobreadaptarse, o que fai que non coincidan con datos novos nin prevean observacións futuras.

3. Aprendizaxe profunda

Os modelos xenerativos profundos como o Autoencoder Variational (VAE) e a Rede Adversarial Xerativa (GAN) poden producir datos sintéticos.

Autocodificador variacional

VAE é un enfoque non supervisado no que o codificador comprime o conxunto de datos orixinal e envía datos ao descodificador.

O decodificador produce entón unha saída que é unha representación do conxunto de datos orixinal.

Ensinar o sistema implica maximizar a correlación entre os datos de entrada e de saída.

Vae

Rede adversaria xerativa

O modelo GAN adestra o modelo de forma iterativa usando dúas redes, o xerador e o discriminador.

O xerador crea un conxunto de datos sintéticos a partir dun conxunto de datos de mostra aleatorios.

Discriminator compara datos creados sintéticamente cun conxunto de datos real utilizando condicións predefinidas.

Gan

Provedores de datos sintéticos

Datos estruturados

As plataformas que se mencionan a continuación proporcionan datos sintéticos derivados de datos tabulares.

Replica os datos do mundo real gardados en táboas e pódese usar para análise de comportamento, predición ou transaccional.

Infundir IA: é un provedor dun sistema de creación de datos sintéticos que utiliza redes xerativas adversarias e privacidade diferencial.
Mellores datos: é un provedor dunha solución de datos sintéticos que preserva a privacidade para a intelixencia artificial, o intercambio de datos e o desenvolvemento de produtos.
Mergullo: é o provedor de Geminai, un sistema para crear conxuntos de datos "xemelgos" coas mesmas características estatísticas que os datos orixinais.

Datos non estruturados

As plataformas que se mencionan a continuación funcionan con datos non estruturados, proporcionando bens e servizos de datos sintéticos para adestrar algoritmos de visión e recoñecemento.

Dataxen: Ofrece datos de adestramento simulados en 3D para a aprendizaxe e o desenvolvemento da IA visual.
Neurolabs: Neurolabs é un provedor dunha plataforma de datos sintéticos de visión por ordenador.
Dominio paralelo: é un provedor dunha plataforma de datos sintéticos para a formación de sistemas autónomos e probar casos de uso.
Cognata: É un provedor de simulación para ADAS e desenvolvedores de vehículos autónomos.
Bifrost: Ofrece API de datos sintéticos para crear contornas 3D.

3 2

Desafíos

Ten unha longa historia en Intelixencia Artificial, e aínda que ten moitas vantaxes, tamén ten importantes inconvenientes que debes resolver mentres traballas con datos sintéticos.

Aquí están algunhas delas:

É posible que haxa moitos erros ao copiar a complexidade de datos reais a datos sintéticos.
A súa natureza maleable leva a prexuízos no seu comportamento.
Pode haber algunhas fallas ocultas no rendemento dos algoritmos adestrados mediante representacións simplificadas de datos sintéticos que apareceron recentemente ao tratar con datos reais.
Replicar todos os atributos relevantes de datos do mundo real pode facerse complicado. Tamén é posible que ao longo desta operación se pasen por alto algúns aspectos esenciais.

Conclusión

A produción de datos sintéticos está a chamar claramente a atención da xente.

Este método pode non ser unha resposta única para todos os casos de xeración de datos.

Ademais, a técnica pode requirir intelixencia a través de AI/ML e ser capaz de manexar situacións complicadas do mundo real de creación de datos interrelacionados, idealmente datos axeitados a un determinado dominio.

Non obstante, é unha tecnoloxía innovadora que enche un oco no que outras tecnoloxías que permiten a privacidade quedan curtas.

Hoxe, sintético a produción de datos pode necesitar a coexistencia de enmascaramento de datos.

No futuro, pode haber unha maior converxencia entre ambos, dando lugar a unha solución de xeración de datos máis completa.

Comparte as túas opinións nos comentarios!

ferramentas e técnicas de xeración de datos sintéticos

Xeración de datos sintéticos: tipos, técnicas e máis

Que son os datos sintéticos?

Importancia dos datos sintéticos