Explicación de los datos sintéticos: el próximo gran avance en IA, ML y DL

Los programas de análisis avanzado y aprendizaje automático se basan en datos, pero el acceso a esos datos puede ser difícil para los académicos debido a los desafíos con la privacidad y los procedimientos comerciales.

Los datos sintéticos, que se pueden compartir y utilizar de maneras que los datos reales no pueden, son una posible nueva dirección a seguir. Sin embargo, esta nueva estrategia no está exenta de peligros o desventajas, por lo que es crucial que las empresas consideren cuidadosamente dónde y cómo utilizan sus recursos.

En la era actual de la IA, también podemos afirmar que los datos son el nuevo petróleo, pero solo unos pocos elegidos están sentados en un chorro. Por lo tanto, mucha gente produce su propio combustible, que es asequible y eficiente. Se conoce como datos sintéticos.

En esta publicación, analizaremos detalladamente los datos sintéticos: por qué debería usarlos, cómo producirlos, qué los hace diferentes de los datos reales, qué casos de uso pueden servir y mucho más.

Entonces, ¿qué son los datos sintéticos?

Cuando los conjuntos de datos genuinos son inadecuados en términos de calidad, número o diversidad, se pueden usar datos sintéticos para entrenar modelos de IA en lugar de datos históricos reales.

Cuando los datos existentes no satisfacen los requisitos comerciales o tienen riesgos de privacidad cuando se utilizan para desarrollar máquina de aprendizaje modelos, software de prueba o similares, los datos sintéticos pueden ser una herramienta importante para los esfuerzos corporativos de IA.

En pocas palabras, los datos sintéticos se utilizan con frecuencia en lugar de los datos reales. Más precisamente, son datos que han sido etiquetados artificialmente y producidos por simulaciones o algoritmos informáticos.

Datos sintéticos

Los datos sintéticos son información que ha sido creada artificialmente por un programa de computadora en lugar de como resultado de hechos reales. Las empresas pueden agregar datos sintéticos a sus datos de capacitación para cubrir todas las situaciones de uso y límite, reducir el costo de la recopilación de datos o cumplir con las normas de privacidad.

Los datos artificiales ahora son más accesibles que nunca gracias a las mejoras en el poder de procesamiento y los métodos de almacenamiento de datos como la nube. Los datos sintéticos mejoran la creación de soluciones de IA que son más beneficiosas para todos los usuarios finales, y eso sin duda es un buen desarrollo.

¿Qué tan importantes son los datos sintéticos y por qué debería usarlos?

Al entrenar modelos de IA, los desarrolladores con frecuencia necesitan grandes conjuntos de datos con un etiquetado preciso. Cuando se enseña con datos más variados, redes neuronales realizar con mayor precisión.

Sin embargo, recopilar y etiquetar estos conjuntos de datos masivos que contienen cientos o incluso millones de elementos puede consumir mucho tiempo y dinero. El precio de producir datos de entrenamiento se puede reducir en gran medida mediante el uso de datos sintéticos. Por ejemplo, si se crea artificialmente, una imagen de entrenamiento que cuesta $5 cuando se compra a un proveedor de etiquetado de datos podría costar solo $ 0.05.

Los datos sintéticos pueden aliviar las preocupaciones de privacidad relacionadas con datos potencialmente confidenciales generados del mundo real y, al mismo tiempo, reducir los gastos.

En comparación con los datos genuinos, que no pueden reflejar con precisión el espectro completo de hechos sobre el mundo real, podría ayudar a disminuir los prejuicios. Al proporcionar ocurrencias inusuales que representan posibilidades plausibles pero que pueden ser difíciles de obtener a partir de datos legítimos, los datos sintéticos pueden ofrecer una mayor diversidad.

Los datos sintéticos podrían ser fantásticos para su proyecto por las razones que se enumeran a continuación:

1. La robustez del modelo

Sin tener que adquirirlo, acceda a datos más variados para sus modelos. Con datos sintéticos, puede entrenar a su modelo usando variantes de la misma persona con varios cortes de cabello, vello facial, anteojos, poses de cabeza, etc., así como tono de piel, rasgos étnicos, estructura ósea, pecas y otras características para generar únicos. rostros y fortalecerlo.

2. Se tienen en cuenta los casos extremos

Un equilibrado el conjunto de datos es preferido por el aprendizaje automático algoritmos Piense en nuestro ejemplo de reconocimiento facial. La precisión de sus modelos habría mejorado (y, de hecho, algunas de estas empresas hicieron exactamente eso), y habrían producido un modelo más moral si hubieran producido datos sintéticos de rostros de piel más oscura para llenar sus vacíos de datos. Los equipos pueden cubrir todos los casos de uso, incluidos los casos extremos donde los datos son escasos o inexistentes, con la ayuda de datos sintéticos.

3. Se puede obtener más rápidamente que los datos “reales”

Los equipos pueden generar grandes cantidades de datos sintéticos rápidamente. Esto es especialmente útil cuando los datos de la vida real dependen de eventos esporádicos. Es posible que a los equipos les resulte difícil obtener suficientes datos del mundo real sobre condiciones severas de la carretera mientras recopilan datos para un automóvil autónomo, por ejemplo, debido a su rareza. Para acelerar el laborioso proceso de anotación, los científicos de datos pueden implementar algoritmos para etiquetar automáticamente los datos sintéticos a medida que se generan.

4. Protege la información de privacidad del usuario

Las empresas pueden tener dificultades de seguridad al manejar datos confidenciales, según el negocio y el tipo de datos. La información de salud personal (PHI), por ejemplo, se incluye con frecuencia en los datos de pacientes hospitalizados en la industria de la salud y debe manejarse con la máxima seguridad.

Debido a que los datos sintéticos no incluyen información sobre personas reales, se reducen los problemas de privacidad. Considere usar datos sintéticos como una alternativa si su equipo tiene que cumplir con ciertas leyes de privacidad de datos.

Datos reales Vs datos sintéticos

En el mundo real, se obtienen o miden datos reales. Cuando alguien usa un teléfono inteligente, computadora portátil o computadora, usa un reloj de pulsera, accede a un sitio web o realiza una transacción en línea, este tipo de datos se genera instantáneamente.

Además, las encuestas se pueden usar para proporcionar datos genuinos (en línea y fuera de línea). Los entornos digitales producen datos sintéticos. Con la excepción de la parte que no se derivó de ningún evento del mundo real, los datos sintéticos se crean de una manera que imita con éxito los datos reales en términos de cualidades fundamentales.

La idea de utilizar datos sintéticos como sustituto de los datos reales es muy prometedora, ya que puede utilizarse para proporcionar la datos de entrenamiento que el aprendizaje automático requieren los modelos. Pero no es seguro que inteligencia artificial puede resolver todos los problemas que surgen en el mundo real.

Use cases

Los datos sintéticos son útiles para una variedad de propósitos comerciales, incluido el entrenamiento de modelos, la validación de modelos y la prueba de nuevos productos. Vamos a enumerar algunos de los sectores que han liderado el camino en su aplicación al aprendizaje automático:

1. Cuidado De La Salud

Dada la sensibilidad de sus datos, el sector de la salud está bien preparado para el uso de datos sintéticos. Los equipos pueden utilizar datos sintéticos para registrar las fisiologías de cada tipo de paciente que pueda existir, lo que ayuda a un diagnóstico más rápido y preciso de las enfermedades.

Healthcare

El modelo de detección de melanoma de Google es una ilustración intrigante de esto, ya que incorpora datos sintéticos de personas con tonos de piel más oscuros (un área de datos clínicos que lamentablemente está subrepresentada) para proporcionar al modelo la capacidad de funcionar de manera efectiva para todo tipo de piel.

2. Automóviles

Las empresas que crean automóviles autónomos utilizan con frecuencia simuladores para evaluar el rendimiento. Cuando el clima es severo, por ejemplo, la recopilación de datos de carreteras reales puede ser arriesgada o difícil.

Coche de conducción autónoma

Confiar en pruebas en vivo con automóviles reales en las carreteras generalmente no es una buena idea, ya que hay demasiadas variables para tener en cuenta en todas las diferentes situaciones de manejo.

3. Portabilidad de datos

Para poder compartir sus datos de entrenamiento con otros, las organizaciones requieren métodos confiables y seguros. Ocultar información de identificación personal (PII) antes de hacer público el conjunto de datos es otra aplicación intrigante para los datos sintéticos. El intercambio de conjuntos de datos de investigación científica, datos médicos, datos sociológicos y otros campos que podrían contener PII se denominan datos sintéticos que preservan la privacidad.

4. Seguridad

Las organizaciones son más seguras gracias a los datos sintéticos. Con respecto a nuestro ejemplo de reconocimiento facial nuevamente, es posible que esté familiarizado con la frase "falsificaciones profundas", que describe fotos o videos fabricados. Las empresas pueden producir falsificaciones profundas para probar sus propios sistemas de seguridad y reconocimiento facial. Los datos sintéticos también se utilizan en videovigilancia para entrenar modelos más rápidamente y a un costo más económico.

Datos sintéticos y aprendizaje automático

Para construir un modelo sólido y confiable, los algoritmos de aprendizaje automático necesitan procesar una cantidad significativa de datos. En ausencia de datos sintéticos, producir un volumen tan grande de datos sería un desafío.

En dominios como la visión por computadora o el procesamiento de imágenes, donde el desarrollo de modelos se ve facilitado por el desarrollo de datos sintéticos tempranos, puede ser extremadamente significativo. Un nuevo desarrollo en el campo del reconocimiento de imágenes es el uso de Generative Adversarial Networks (GAN). Generalmente consta de dos redes: un generador y un discriminador.

Mientras que la red discriminadora tiene como objetivo separar las fotos reales de las falsas, la red generadora funciona para producir imágenes sintéticas que son considerablemente más similares a las imágenes del mundo real.

En el aprendizaje automático, las GAN son un subconjunto de la familia de redes neuronales, donde ambas redes aprenden y se desarrollan continuamente al agregar nuevos nodos y capas.

Al crear datos sintéticos, tiene la opción de cambiar el entorno y el tipo de datos según sea necesario para mejorar el rendimiento del modelo. Si bien la precisión de los datos sintéticos se puede lograr fácilmente con una puntuación alta, la precisión de los datos etiquetados en tiempo real puede resultar extremadamente costosa.

¿Cómo se pueden generar datos sintéticos?

Los enfoques utilizados para crear una recopilación de datos sintéticos son los siguientes:

Basado en la distribución estadística

La estrategia utilizada en este caso es tomar números de la distribución o mirar las distribuciones estadísticas reales para crear datos falsos que parezcan comparables. Los datos reales pueden estar completamente ausentes en algunas circunstancias.

Un científico de datos puede generar un conjunto de datos que contenga una muestra aleatoria de cualquier distribución si tiene un conocimiento profundo de la distribución estadística en los datos reales. La distribución normal, la distribución exponencial, la distribución de chi-cuadrado, la distribución lognormal y más son solo algunos ejemplos de distribuciones de probabilidad estadística que se pueden usar para hacer esto.

El nivel de experiencia del científico de datos con la situación tendrá un impacto significativo en la precisión del modelo entrenado.

Dependiendo del modelo

Esta técnica crea un modelo que da cuenta del comportamiento observado antes de usar ese modelo para generar datos aleatorios. En esencia, esto implica ajustar datos reales a datos de una distribución conocida. Las corporaciones pueden utilizar el enfoque de Monte Carlo para crear datos falsos.

Además, también se pueden montar distribuciones mediante modelos de aprendizaje automático como árboles de decisión. Científicos de datos Sin embargo, debe prestar atención al pronóstico, ya que los árboles de decisión generalmente se ajustan demasiado debido a su simplicidad y expansión de profundidad.

Con aprendizaje profundo

Aprendizaje profundo Los modelos que utilizan un codificador automático variacional (VAE) o modelos de red adversa generativa (GAN) son dos formas de crear datos sintéticos. Los modelos de aprendizaje automático no supervisados incluyen VAE.

Están formados por codificadores, que reducen y compactan los datos originales, y decodificadores, que analizan estos datos para proporcionar una representación de los datos reales. Mantener los datos de entrada y salida lo más idénticos posible es el objetivo básico de un VAE. Dos redes neuronales opuestas son los modelos GAN y las redes antagónicas.

La primera red, conocida como red generadora, se encarga de producir datos falsos. La red discriminadora, la segunda red, funciona comparando datos sintéticos creados con datos reales en un esfuerzo por identificar si el conjunto de datos es fraudulento. El discriminador alerta al generador cuando descubre un conjunto de datos falso.

El siguiente lote de datos proporcionado al discriminador es posteriormente modificado por el generador. Como resultado, el discriminador mejora con el tiempo en la detección de conjuntos de datos falsos. Este tipo de modelo se utiliza con frecuencia en el sector financiero para la detección de fraudes, así como en el sector sanitario para la obtención de imágenes médicas.

El aumento de datos es un método diferente que emplean los científicos de datos para producir más datos. Sin embargo, no debe confundirse con datos falsos. En pocas palabras, el aumento de datos es el acto de agregar nuevos datos a un conjunto de datos genuino que ya existe.

Crear varias imágenes a partir de una sola imagen, por ejemplo, ajustando la orientación, el brillo, la ampliación y más. A veces, el conjunto de datos real se utiliza y solo queda la información personal. La anonimización de datos es lo que es, y un conjunto de dichos datos tampoco debe considerarse como datos sintéticos.

Desafíos y limitaciones de los datos sintéticos

Aunque los datos sintéticos tienen varios beneficios que pueden ayudar a las empresas con actividades de ciencia de datos, también tienen ciertas limitaciones:

La fiabilidad de los datos: Es bien sabido que cada modelo de aprendizaje automático/aprendizaje profundo es tan bueno como los datos con los que se alimenta. La calidad de los datos sintéticos en este contexto está fuertemente relacionada con la calidad de los datos de entrada y el modelo utilizado para producir los datos. Es fundamental asegurarse de que no existan sesgos en los datos de origen, ya que estos pueden reflejarse muy claramente en los datos sintéticos. Además, antes de realizar pronósticos, se debe confirmar y verificar la calidad de los datos.
Requiere conocimiento, esfuerzo y tiempo.: Si bien la creación de datos sintéticos podría ser más simple y menos costosa que la creación de datos genuinos, requiere algo de conocimiento, tiempo y esfuerzo.
Replicando anomalías: La réplica perfecta de los datos del mundo real no es posible; los datos sintéticos sólo pueden aproximarlo. Por lo tanto, algunos valores atípicos que existen en los datos reales pueden no estar cubiertos por datos sintéticos. Las anomalías de datos son más significativas que los datos típicos.
Controlar la producción y asegurar la calidad.: Los datos sintéticos pretenden replicar datos del mundo real. La verificación manual de datos se vuelve esencial. Es esencial verificar la precisión de los datos antes de incorporarlos en modelos de aprendizaje automático/aprendizaje profundo para conjuntos de datos complicados creados automáticamente utilizando algoritmos.
Comentarios de los usuarios: Dado que los datos sintéticos son un concepto novedoso, no todo el mundo estará dispuesto a creer en las previsiones realizadas con ellos. Esto indica que para aumentar la aceptabilidad del usuario, primero es necesario aumentar el conocimiento de la utilidad de los datos sintéticos.

Futuro

El uso de datos sintéticos ha aumentado dramáticamente en la década anterior. Si bien ahorra tiempo y dinero a las empresas, no deja de tener inconvenientes. Carece de valores atípicos, que ocurren naturalmente en los datos reales y son críticos para la precisión en algunos modelos.

También vale la pena señalar que la calidad de los datos sintéticos depende con frecuencia de los datos de entrada utilizados para la creación; los sesgos en los datos de entrada pueden extenderse rápidamente a los datos sintéticos, por lo que no se debe exagerar la elección de datos de alta calidad como punto de partida.

Finalmente, necesita más control de salida, incluida la comparación de los datos sintéticos con datos reales anotados por humanos para verificar que no se introduzcan discrepancias. A pesar de estos obstáculos, los datos sintéticos siguen siendo un campo prometedor.

Nos ayuda a crear nuevas soluciones de IA incluso cuando los datos del mundo real no están disponibles. Lo que es más importante, permite a las empresas crear productos que son más inclusivos e indicativos de la diversidad de sus consumidores finales.

Sin embargo, en el futuro basado en datos, los datos sintéticos pretenden ayudar a los científicos de datos a realizar tareas novedosas y creativas que serían difíciles de completar solo con datos del mundo real.

Conclusión

En ciertos casos, los datos sintéticos pueden aliviar un déficit de datos o la falta de datos relevantes dentro de una empresa u organización. También analizamos qué estrategias pueden ayudar en la generación de datos sintéticos y quién puede beneficiarse de ellos.

También hablamos sobre algunas de las dificultades que surgen al tratar con datos sintéticos. Para la toma de decisiones comerciales siempre se privilegiarán los datos reales. Sin embargo, los datos realistas son la siguiente mejor opción cuando no se puede acceder a dichos datos sin procesar reales para el análisis.

Sin embargo, debe recordarse que para producir datos sintéticos, se requieren científicos de datos con una sólida comprensión del modelado de datos. También es esencial una comprensión profunda de los datos reales y su entorno. Esto es esencial para asegurarse de que, si están disponibles, los datos producidos sean tan precisos como sea posible.

Explicación de los datos sintéticos: el próximo gran avance en IA, ML y DL

Entonces, ¿qué son los datos sintéticos?