Índice del contenido[Esconder][Espectáculo]
Los investigadores y científicos de datos a menudo se encuentran con circunstancias en las que no tienen los datos reales o no pueden usarlos debido a consideraciones de confidencialidad o privacidad.
Para abordar este problema, la producción de datos sintéticos se utiliza para producir un reemplazo de los datos genuinos.
Se requiere el reemplazo apropiado de datos genuinos para que el algoritmo funcione correctamente, que también debe ser de carácter realista. Puede usar dichos datos para mantener la privacidad, probar sistemas o producir datos de entrenamiento para algoritmos de aprendizaje automático.
Exploremos la generación de datos sintéticos en detalle y veamos por qué son vitales en la era de la IA.
¿Qué son los datos sintéticos?
Los datos sintéticos son datos anotados generados por simulaciones informáticas o algoritmos como sustituto de los datos del mundo real. Es una réplica generada por inteligencia artificial de datos reales.
Uno puede usar patrones de datos y dimensiones usando algoritmos avanzados de IA. Pueden crear una cantidad ilimitada de datos sintéticos que son estadísticamente representativos de los datos de entrenamiento originales una vez que están entrenados.
Hay una variedad de enfoques y tecnologías que pueden ayudarnos a crear datos sintéticos y que puede usar en una variedad de aplicaciones.
El software de generación de datos a menudo requiere:
- Metadatos de un repositorio de datos, para los cuales se deben crear datos sintéticos.
- Técnica para generar valores plausibles pero ficticios. Los ejemplos incluyen listas de valores y expresiones regulares.
- Conciencia integral de todas las relaciones de datos, las declaradas a nivel de base de datos, así como las controladas a nivel de código de aplicación.
Es igualmente necesario validar el modelo y comparar los aspectos de comportamiento de los datos reales con los generados por el modelo.
Estos conjuntos de datos ficticios tienen todo el valor de los datos reales, pero ninguno de los datos confidenciales. Es como un delicioso pastel sin calorías. Representa con precisión el mundo real.
Como resultado, puede usarlo para reemplazar datos del mundo real.
Importancia de los datos sintéticos
Los datos sintéticos tienen características para adaptarse a ciertas demandas o situaciones que de otro modo no estarían disponibles en los datos del mundo real. Cuando hay escasez de datos para realizar pruebas o cuando la privacidad es una consideración importante, viene al rescate.
Los conjuntos de datos generados por IA son adaptables, seguros y fáciles de almacenar, intercambiar y descartar. La técnica de síntesis de datos es adecuada para subdividir y mejorar los datos originales.
Como consecuencia, es ideal para usar como datos de prueba y datos de entrenamiento de IA.
- Para enseñar Uber basado en ML y Automóviles autónomos Tesla.
- En las industrias médica y de atención de la salud, para evaluar enfermedades y circunstancias específicas para las que no existen datos genuinos.
- La detección y protección contra el fraude son cruciales en el sector financiero. Al usarlo, puede investigar nuevas instancias fraudulentas.
- Amazon está entrenando el sistema de lenguaje de Alexa utilizando datos sintéticos.
- American Express está utilizando datos financieros sintéticos para mejorar la detección de fraudes.
Tipos de datos sintéticos
Los datos sintéticos se crean al azar con la intención de ocultar información privada confidencial mientras se mantiene la información estadística sobre las características de los datos originales.
Es principalmente de tres tipos:
- Datos totalmente sintéticos
- Datos parcialmente sintéticos
- Datos sintéticos híbridos
1. Datos totalmente sintéticos
Estos datos se generan en su totalidad y no contienen datos originales.
Por lo general, el generador de datos de este tipo identificará funciones de densidad de características en datos reales y estimará sus parámetros. Más tarde, a partir de las funciones de densidad previstas, se crean aleatoriamente series protegidas de privacidad para cada función.
Si solo se eligen algunas características de los datos reales para reemplazarlas, la serie protegida de estas características se asigna a las características restantes de los datos reales para clasificar las series protegidas y reales en el mismo orden.
Las técnicas bootstrap y las imputaciones múltiples son dos métodos tradicionales para producir datos completamente sintéticos.
Debido a que los datos son completamente sintéticos y no existen datos reales, esta estrategia brinda una excelente protección de la privacidad al depender de la veracidad de los datos.
2. Datos parcialmente sintéticos
Estos datos solo usan valores sintéticos para reemplazar los valores de algunas características sensibles.
En esta situación, los valores genuinos solo se cambian si existe un peligro sustancial de exposición. Este cambio se realiza para proteger la privacidad de los datos recién creados.
Se utilizan métodos de imputación múltiple y basados en modelos para producir datos parcialmente sintéticos. Estos métodos también se pueden usar para completar los valores faltantes en datos del mundo real.
3. Datos sintéticos híbridos
Los datos sintéticos híbridos incluyen datos reales y falsos.
Se selecciona un registro cercano para cada registro aleatorio de datos reales y luego se unen los dos para generar datos híbridos. Tiene los beneficios de datos completamente sintéticos y parcialmente sintéticos.
Por lo tanto, ofrece una fuerte preservación de la privacidad con una gran utilidad en comparación con los otros dos, pero a costa de más memoria y tiempo de procesamiento.
Técnicas de Generación de Datos Sintéticos
Durante muchos años, el concepto de datos elaborados por máquinas ha sido popular. Ahora está madurando.
Estas son algunas de las técnicas utilizadas para generar datos sintéticos:
1. Basado en la distribución
En caso de que no existan datos reales, pero el analista de datos tiene una idea completa de cómo aparecería la distribución del conjunto de datos; pueden producir una muestra aleatoria de cualquier distribución, incluidas Normal, Exponencial, Chi-cuadrado, t, lognormal y Uniforme.
El valor de los datos sintéticos en este método varía según el nivel de comprensión del analista sobre un determinado entorno de datos.
2. Datos del mundo real en distribución conocida
Las empresas pueden producirlo identificando las distribuciones que mejor se ajustan a los datos reales dados, si hay datos reales.
Las empresas pueden utilizar el enfoque de Monte Carlo para producirlo si desean ajustar datos reales en una distribución conocida y conocer los parámetros de distribución.
Si bien el enfoque de Monte Carlo puede ayudar a las empresas a localizar la mayor coincidencia disponible, es posible que la mejor opción no sea lo suficientemente útil para las necesidades de datos sintéticos de la empresa.
Las empresas podrían explorar el empleo de modelos de aprendizaje automático para adaptarse a las distribuciones en estas circunstancias.
Las técnicas de aprendizaje automático, como los árboles de decisión, permiten a las organizaciones modelar distribuciones no clásicas, que pueden ser multimodales y carecer de las propiedades comunes de las distribuciones reconocidas.
Las empresas pueden producir datos sintéticos que se conectan con datos genuinos utilizando esta distribución ajustada de aprendizaje automático.
Sin embargo, modelos de aprendizaje automático son susceptibles de sobreajuste, lo que hace que no coincidan con los datos nuevos o predigan observaciones futuras.
3. Aprendizaje profundo
Los modelos generativos profundos como el codificador automático variacional (VAE) y la red adversa generativa (GAN) pueden producir datos sintéticos.
Autoencoder Variacional
VAE es un enfoque no supervisado en el que el codificador comprime el conjunto de datos original y envía datos al decodificador.
Luego, el decodificador produce una salida que es una representación del conjunto de datos original.
Enseñar el sistema implica maximizar la correlación entre los datos de entrada y salida.
Red de Publicidad Generativa
El modelo GAN entrena iterativamente el modelo utilizando dos redes, el generador y el discriminador.
El generador crea un conjunto de datos sintéticos a partir de un conjunto de datos de muestra aleatorios.
Discriminator compara datos creados sintéticamente con un conjunto de datos real utilizando condiciones predefinidas.
Proveedores de datos sintéticos
Datos estructurados
Las plataformas que se mencionan a continuación proporcionan datos sintéticos derivados de datos tabulares.
Reproduce datos del mundo real guardados en tablas y se puede utilizar para análisis de comportamiento, predictivos o transaccionales.
- Inculcar IA: Es un proveedor de un sistema de creación de datos sintéticos que utiliza Redes Adversarias Generativas y privacidad diferencial.
- mejores datos: Es un proveedor de una solución de datos sintéticos que preserva la privacidad para IA, intercambio de datos y desarrollo de productos.
- palo de buceo: Es el proveedor de Geminai, un sistema para crear conjuntos de datos 'gemelos' con las mismas características estadísticas que los datos originales.
Datos no estructurados
Las plataformas que se mencionan a continuación operan con datos no estructurados, proporcionando bienes y servicios de datos sintéticos para entrenar algoritmos de visión y reconocimiento.
- Gen de datos: proporciona datos de entrenamiento simulados en 3D para el aprendizaje y el desarrollo de IA visual.
- neurolaboratorios: Neurolabs es un proveedor de una plataforma de datos sintéticos de visión artificial.
- dominio paralelo: Es un proveedor de una plataforma de datos sintéticos para casos de uso de capacitación y prueba de sistemas autónomos.
- Coñata: Es un proveedor de simulación para ADAS y desarrolladores de vehículos autónomos.
- Bifrost: Proporciona API de datos sintéticos para crear entornos 3D.
Desafios
Tiene una larga historia en Inteligencia artificial , y aunque tiene muchas ventajas, también tiene importantes inconvenientes que debe abordar al trabajar con datos sintéticos.
Éstos son algunos de ellos:
- Puede haber muchos errores al copiar la complejidad de los datos reales a los datos sintéticos.
- Su naturaleza maleable conduce a sesgos en su comportamiento.
- Puede haber algunas fallas ocultas en el rendimiento de los algoritmos entrenados usando representaciones simplificadas de datos sintéticos que han surgido recientemente al tratar con datos reales.
- La replicación de todos los atributos relevantes de los datos del mundo real puede resultar complicada. También es posible que se pasen por alto algunos aspectos esenciales a lo largo de esta operación.
Conclusión
La producción de datos sintéticos está llamando claramente la atención de la gente.
Es posible que este método no sea una respuesta única para todos los casos de generación de datos.
Además, la técnica puede requerir inteligencia a través de AI/ML y ser capaz de manejar situaciones complicadas del mundo real de creación de datos interrelacionados, idealmente datos adecuados para un determinado dominio.
No obstante, es una tecnología innovadora que llena un vacío donde otras tecnologías que permiten la privacidad se quedan cortas.
Hoy, sintético la producción de datos puede necesitar la coexistencia de enmascaramiento de datos.
En el futuro, puede haber una mayor convergencia entre los dos, lo que dará como resultado una solución de generación de datos más completa.
¡Comparte tus opiniones en los comentarios!
Deje un comentario