Explicación dos datos sintéticos: a próxima gran cousa en IA, ML e DL

Os programas de análises avanzadas e de aprendizaxe automática están impulsados polos datos, pero o acceso a eses datos pode resultar difícil para os académicos debido aos problemas relacionados coa privacidade e os procedementos empresariais.

Os datos sintéticos, que poden ser compartidos e utilizados de maneira que os datos reais non, son unha nova dirección potencial a seguir. Non obstante, esta nova estratexia non está exenta de perigos ou inconvenientes, polo que é fundamental que as empresas consideren coidadosamente onde e como usan os seus recursos.

Na era actual da IA, tamén podemos afirmar que os datos son o novo petróleo, pero só algúns selectos están sentados nun chorro. Polo tanto, moita xente está a producir o seu propio combustible, que é accesible e eficiente. Coñécese como datos sintéticos.

Nesta publicación, daremos unha ollada detallada aos datos sintéticos: por que deberías usalos, como producilos, que os fai diferentes dos datos reais, que casos de uso poden servir e moito máis.

Entón, que son os datos sintéticos?

Cando os conxuntos de datos xenuínos son inadecuados en termos de calidade, número ou diversidade, pódense usar datos sintéticos para adestrar modelos de IA en lugar de datos históricos reais.

Cando os datos existentes non satisfagan os requisitos comerciais ou teñan riscos de privacidade cando se utilizan para desenvolver aprendizaxe de máquina modelos, software de proba ou similares, os datos sintéticos poden ser unha ferramenta importante para os esforzos corporativos de IA.

Simplemente dito, os datos sintéticos utilízanse con frecuencia en lugar dos datos reais. Máis precisamente, son datos que foron etiquetados artificialmente e producidos por simulacións ou algoritmos informáticos.

Datos sintéticos

Os datos sintéticos son información que foi creada por un programa informático artificialmente e non como resultado de ocorrencias reais. As empresas poden engadir datos sintéticos aos seus datos de adestramento para cubrir todas as situacións de uso e límite, reducir o custo da recollida de datos ou cumprir as normas de privacidade.

Os datos artificiais son agora máis accesibles que nunca grazas ás melloras na potencia de procesamento e nos métodos de almacenamento de datos como a nube. Os datos sintéticos melloran a creación de solucións de intelixencia artificial que son máis beneficiosas para todos os usuarios finais, e iso é, sen dúbida, un bo desenvolvemento.

Como son importantes os datos sintéticos e por que deberías usalos?

Cando adestran modelos de IA, os desenvolvedores necesitan con frecuencia grandes conxuntos de datos cunha etiquetaxe precisa. Cando se ensina con datos máis variados, redes neuronales realizar con máis precisión.

Recoller e etiquetar estes conxuntos de datos masivos que conteñen centos ou mesmo millóns de elementos, non obstante, pode levar moito tempo e diñeiro. O prezo da produción de datos de adestramento pode reducirse moito usando datos sintéticos. Por exemplo, se se crea artificialmente, unha imaxe de adestramento que custa 5 $ cando se compra en a provedor de etiquetado de datos só pode custar 0.05 $.

Os datos sintéticos poden aliviar as preocupacións de privacidade relacionadas con datos potencialmente sensibles xerados do mundo real á vez que reducen os gastos.

En comparación cos datos xenuínos, que non poderían reflectir con precisión o espectro completo de feitos sobre o mundo real, poderían axudar a diminuír os prexuízos. Ao proporcionar ocorrencias pouco habituais que representan posibilidades plausibles pero que poden ser un reto para obter a partir de datos lexítimos, os datos sintéticos poden ofrecer unha maior diversidade.

Os datos sintéticos poden ser fantásticos para o teu proxecto polos motivos que se indican a continuación:

1. A robustez do modelo

Sen ter que adquirilo, accede a datos máis variados para os teus modelos. Con datos sintéticos, podes adestrar o teu modelo usando variantes da mesma persoa con varios cortes de pelo, vello facial, lentes, poses da cabeza, etc., así como o ton da pel, trazos étnicos, estrutura ósea, pecas e outras características para xerar características únicas. caras e fortalecelo.

2. Téñense en conta os casos Edge

Un equilibrio O conxunto de datos é preferido pola aprendizaxe automática algoritmos. Volve a pensar no noso exemplo de recoñecemento facial. A precisión dos seus modelos melloraría (e, de feito, algunhas destas empresas fixeron precisamente isto), e producirían un modelo máis moral se tivesen producido datos sintéticos de caras de pel máis escura para cubrir as súas lagoas de datos. Os equipos poden cubrir todos os casos de uso, incluídos os casos extremos nos que os datos son escasos ou inexistentes, coa axuda de datos sintéticos.

3. Pódese obter máis rápido que os datos "reais".

Os equipos son capaces de xerar grandes cantidades de datos sintéticos rapidamente. Isto é especialmente útil cando os datos da vida real dependen de eventos esporádicos. Os equipos poden ter dificultades para obter suficientes datos do mundo real sobre as condicións severas das estradas mentres recollen datos para un coche autónomo, por exemplo, debido á súa rareza. Para acelerar o laborioso proceso de anotación, os científicos de datos poden poñer en marcha algoritmos para etiquetar automaticamente os datos sintéticos a medida que se xeran.

4. Asegura a información de privacidade do usuario

As empresas poden ter dificultades de seguridade ao manexar datos confidenciais, dependendo da empresa e do tipo de datos. A información de saúde persoal (PHI), por exemplo, adoita incluírse nos datos de pacientes hospitalizados no sector da saúde e debe ser tratada coa máxima seguridade.

Dado que os datos sintéticos non inclúen información sobre persoas reais, os problemas de privacidade redúcense. Considera o uso de datos sintéticos como alternativa se o teu equipo ten que cumprir determinadas leis de privacidade de datos.

Datos reais vs datos sintéticos

No mundo real, obtéñense ou mídense datos reais. Cando alguén usa un teléfono intelixente, un portátil ou un ordenador, usa un reloxo de pulso, accede a un sitio web ou realiza unha transacción en liña, este tipo de datos xéranse ao instante.

Ademais, as enquisas pódense utilizar para proporcionar datos xenuínos (en liña e fóra de liña). Os axustes dixitais producen datos sintéticos. Con excepción da parte que non se derivou de ningún evento do mundo real, os datos sintéticos créanse de forma que imitan con éxito os datos reais en termos de calidades fundamentais.

A idea de usar datos sintéticos como substituto dos datos reais é moi prometedora xa que se pode usar para proporcionar o datos de formación que a aprendizaxe automática os modelos requiren. Pero non é certo intelixencia artificial pode resolver todos os problemas que xurdan no mundo real.

Casos de uso

Os datos sintéticos son útiles para unha variedade de fins comerciais, incluíndo adestramento de modelos, validación de modelos e probas de novos produtos. Listaremos algúns dos sectores que marcaron o camiño na súa aplicación á aprendizaxe automática:

1. Asistencia sanitaria

Dada a sensibilidade dos seus datos, o sector sanitario é moi axeitado para o uso de datos sintéticos. Os equipos poden utilizar datos sintéticos para rexistrar as fisioloxías de todo tipo de pacientes que poidan existir, contribuíndo así a un diagnóstico máis rápido e preciso das enfermidades.

Saúde

O modelo de detección de melanoma de Google é unha ilustración interesante disto xa que incorpora datos sintéticos de persoas con tons de pel máis escuros (unha área de datos clínicos que lamentablemente está infrarrepresentada) para proporcionar ao modelo a capacidade de funcionar de forma eficaz para todo tipo de pel.

2. Automóbiles

Os simuladores son usados con frecuencia polas empresas que crean automóbiles autónomos para avaliar o rendemento. Cando o tempo é duro, por exemplo, recompilar datos reais da estrada pode ser arriscado ou difícil.

Coche autónomo

Confiar en probas en directo con automóbiles reais nas estradas xeralmente non é unha boa idea xa que hai demasiadas variables para ter en conta en todas as diferentes situacións de condución.

3. Portabilidade dos datos

Para poder compartir os seus datos de formación con outras persoas, as organizacións requiren métodos fiables e seguros. Ocultar información de identificación persoal (PII) antes de facer público o conxunto de datos é outra aplicación interesante para datos sintéticos. O intercambio de conxuntos de datos de investigación científica, datos médicos, datos sociolóxicos e outros campos que poderían conter PII denomínase datos sintéticos que preservan a privacidade.

4. Seguridade

As organizacións son máis seguras grazas aos datos sintéticos. No que respecta ao noso exemplo de recoñecemento facial, é posible que esteas familiarizado coa frase "falsificacións profundas", que describe fotos ou vídeos fabricados. As empresas poden producir falsificacións profundas para probar os seus propios sistemas de seguridade e recoñecemento facial. Os datos sintéticos tamén se usan na videovixilancia para adestrar modelos máis rápido e cun custo máis barato.

Datos sintéticos e aprendizaxe automática

Para construír un modelo sólido e fiable, os algoritmos de aprendizaxe automática necesitan procesar unha cantidade importante de datos. A falta de datos sintéticos, producir un volume tan grande de datos sería un reto.

En dominios como a visión por ordenador ou o procesamento de imaxes, onde o desenvolvemento de modelos se ve facilitado polo desenvolvemento de datos sintéticos precoces, pode ser extremadamente significativo. Un novo desenvolvemento no campo do recoñecemento de imaxes é o uso de redes xenerativas adversarias (GAN). Normalmente consta de dúas redes: un xerador e un discriminador.

Aínda que a rede discriminadora ten como obxectivo separar as fotos reais das falsas, a rede xeradora funciona para producir imaxes sintéticas que son considerablemente máis similares ás imaxes do mundo real.

Na aprendizaxe automática, as GAN son un subconxunto da familia de redes neuronais, onde ambas as redes aprenden e desenvolven continuamente engadindo novos nodos e capas.

Ao crear datos sintéticos, tes a opción de cambiar o ambiente e o tipo dos datos segundo sexa necesario para mellorar o rendemento do modelo. Aínda que a precisión dos datos sintéticos pódese conseguir facilmente cunha puntuación sólida, a precisión dos datos en tempo real etiquetados pode ser ocasionalmente moi cara.

Como podes xerar datos sintéticos?

Os enfoques utilizados para crear unha recollida de datos sintéticos son os seguintes:

Baseado na distribución estatística

A estratexia empregada neste caso é tomar números da distribución ou mirar distribucións estatísticas reais para crear datos falsos que parezan comparables. Os datos reais poden estar completamente ausentes nalgunhas circunstancias.

Un científico de datos pode xerar un conxunto de datos que conteña unha mostra aleatoria de calquera distribución se ten un coñecemento profundo da distribución estatística nos datos reais. A distribución normal, a distribución exponencial, a distribución chi cadrado, a distribución logarítmica normal e máis son só algúns exemplos de distribucións de probabilidade estatísticas que se poden usar para facelo.

O nivel de experiencia do científico de datos coa situación terá un impacto significativo na precisión do modelo adestrado.

Segundo o modelo

Esta técnica constrúe un modelo que ten en conta o comportamento observado antes de usar ese modelo para xerar datos aleatorios. En esencia, isto implica axustar datos reais aos datos dunha distribución coñecida. O enfoque de Monte Carlo pode ser usado polas corporacións para crear datos falsos.

Ademais, tamén se poden encaixar distribucións usando modelos de aprendizaxe automática como árbores de decisión. Científicos de datos Non obstante, debe prestar atención á previsión, xa que as árbores de decisión adoitan sobrepasar debido á súa sinxeleza e á súa expansión en profundidade.

Con aprendizaxe profunda

Aprendizaxe profunda Os modelos que usan un codificador automático variacional (VAE) ou modelos de rede adversa xerativa (GAN) son dúas formas de crear datos sintéticos. Os modelos de aprendizaxe automática sen supervisión inclúen VAE.

Están formados por codificadores, que reducen e compactan os datos orixinais, e decodificadores, que analizan estes datos para proporcionar unha representación dos datos reais. Manter os datos de entrada e saída o máis idénticos posible é o obxectivo básico dun VAE. Dúas redes neuronais opostas son os modelos GAN e as redes adversarias.

A primeira rede, coñecida como rede xeradora, encárgase de producir datos falsos. A rede discriminadora, a segunda rede, funciona comparando os datos sintéticos creados con datos reais co fin de identificar se o conxunto de datos é fraudulento. O discriminador avisa ao xerador cando descobre un conxunto de datos falso.

O seguinte lote de datos proporcionados ao discriminador é modificado posteriormente polo xerador. Como resultado, o discriminador mellora co paso do tempo ao detectar conxuntos de datos falsos. Este tipo de modelo utilízase con frecuencia no sector financeiro para a detección de fraudes, así como no sector sanitario para a imaxe médica.

O aumento de datos é un método diferente que empregan os científicos de datos para producir máis datos. Non obstante, non se debe confundir con datos falsos. Simplemente dito, o aumento de datos é o acto de engadir novos datos a un conxunto de datos xenuíno que xa existe.

Crear varias imaxes a partir dunha única imaxe, por exemplo, axustando a orientación, o brillo, a ampliación e moito máis. Ás veces, o conxunto de datos real utilízase con só a información persoal restante. A anonimización de datos é o que é, e un conxunto destes datos tampouco debe considerarse como datos sintéticos.

Retos e limitacións dos datos sintéticos

Aínda que os datos sintéticos teñen varios beneficios que poden axudar ás empresas con actividades de ciencia de datos, tamén teñen certas limitacións:

Fiabilidade dos datos: É de coñecemento común que cada modelo de aprendizaxe automática/aprendizaxe profunda só é tan bo como os datos que se alimentan. A calidade dos datos sintéticos neste contexto está fortemente relacionada coa calidade dos datos de entrada e o modelo utilizado para producir os datos. É fundamental asegurarse de que non existan prexuízos nos datos de orixe, xa que poden reflectirse claramente nos datos sintéticos. Ademais, antes de facer previsións, débese confirmar e verificar a calidade dos datos.
Require coñecemento, esforzo e tempo: Aínda que a creación de datos sintéticos pode ser máis sinxela e menos custosa que a creación de datos xenuínos, precisa un pouco de coñecemento, tempo e esforzo.
Replicación de anomalías: Non é posible a réplica perfecta de datos do mundo real; os datos sintéticos só poden aproximalo. Polo tanto, algúns valores atípicos que existen en datos reais poden non estar cubertos por datos sintéticos. As anomalías de datos son máis importantes que os datos típicos.
Controlar a produción e garantir a calidade: Os datos sintéticos están destinados a replicar datos do mundo real. A verificación manual dos datos faise esencial. É esencial verificar a precisión dos datos antes de incorporalos aos modelos de aprendizaxe automática/aprendizaxe profunda para conxuntos de datos complicados creados automaticamente utilizando algoritmos.
A resposta do usuario: Como os datos sintéticos son un concepto novedoso, non todos estarán preparados para crer as previsións feitas con el. Isto indica que para aumentar a aceptabilidade dos usuarios, primeiro é necesario aumentar o coñecemento da utilidade dos datos sintéticos.

Futuro

O uso de datos sintéticos aumentou drasticamente na década anterior. Aínda que aforra ás empresas tempo e diñeiro, non está exento de inconvenientes. Carece de valores atípicos, que se producen de forma natural nos datos reais e son fundamentais para a precisión nalgúns modelos.

Tamén vale a pena sinalar que a calidade dos datos sintéticos depende con frecuencia dos datos de entrada utilizados para a creación; os sesgos nos datos de entrada poden estenderse rapidamente aos datos sintéticos, polo que non se debe exagerar a elección de datos de alta calidade como punto de partida.

Finalmente, necesita máis control de saída, incluíndo a comparación dos datos sintéticos con datos reais anotados por humanos para verificar que non se introducen discrepancias. A pesar destes obstáculos, os datos sintéticos seguen sendo un campo prometedor.

Axúdanos a crear novas solucións de intelixencia artificial aínda que os datos do mundo real non estean dispoñibles. O máis significativo é que permite ás empresas crear produtos máis inclusivos e indicativos da diversidade dos seus consumidores finais.

No futuro baseado en datos, con todo, os datos sintéticos pretenden axudar aos científicos de datos a realizar tarefas innovadoras e creativas que serían difíciles de completar só con datos do mundo real.

Conclusión

En certos casos, os datos sintéticos poden aliviar un déficit de datos ou unha falta de datos relevantes dentro dunha empresa ou organización. Tamén analizamos cales son as estratexias que poden axudar na xeración de datos sintéticos e quen pode beneficiarse con iso.

Tamén falamos sobre algunhas das dificultades que supón tratar con datos sintéticos. Para a toma de decisións comerciais, sempre se favorecerán os datos reais. Non obstante, os datos realistas son a seguinte mellor opción cando os datos brutos verdadeiros non están accesibles para a súa análise.

Non obstante, hai que lembrar que, para producir datos sintéticos, son necesarios científicos de datos cun sólido coñecemento do modelado de datos. Tamén é esencial unha comprensión completa dos datos reais e do seu contorno. Isto é esencial para asegurarse de que, se están dispoñibles, os datos producidos sexan o máis precisos posible.

Explicación dos datos sintéticos: a próxima gran cousa en IA, ML e DL

Entón, que son os datos sintéticos?