Geração de dados sintéticos: tipos, técnicas e mais

Conteúdo[Esconder][Mostrar]

O que são dados sintéticos?
Importância dos dados sintéticos
Tipos de dados sintéticos+-
Técnicas de Geração de Dados Sintéticos+-
Provedores de dados sintéticos+-
- Dados estruturados
- Dados Não Estruturados
Desafios
Conclusão

Pesquisadores e cientistas de dados geralmente encontram circunstâncias em que não possuem os dados reais ou são incapazes de usá-los devido a considerações de confidencialidade ou privacidade.

Para resolver esse problema, a produção de dados sintéticos é usada para produzir um substituto para dados genuínos.

A substituição apropriada de dados genuínos é necessária para que o algoritmo funcione corretamente, o que também deve ser de caráter realista. Você pode usar esses dados para manter a privacidade, testar sistemas ou produzir dados de treinamento para algoritmos de aprendizado de máquina.

Vamos explorar a geração de dados sintéticos em detalhes e ver por que eles são vitais na era da IA.

O que são dados sintéticos?

Dados sintéticos são dados anotados gerados por simulações de computador ou algoritmos como substitutos de dados do mundo real. É uma réplica gerada por inteligência artificial de dados reais.

Pode-se usar padrões e dimensões de dados usando algoritmos avançados de IA. Eles podem criar uma quantidade ilimitada de dados sintéticos estatisticamente representativos dos dados de treinamento originais depois de treinados.

Há uma variedade de abordagens e tecnologias que podem nos ajudar a criar dados sintéticos e você pode usar em uma variedade de aplicativos.

O software de geração de dados geralmente requer:

Metadados de um repositório de dados, para o qual devem ser criados dados sintéticos.
Técnica para gerar valores plausíveis, mas fictícios. Os exemplos incluem listas de valores e expressões regulares.
Conhecimento abrangente de todos os relacionamentos de dados, aqueles declarados no nível do banco de dados, bem como aqueles controlados no nível do código do aplicativo.

É igualmente necessário validar o modelo e comparar os aspectos comportamentais dos dados reais com os gerados pelo modelo.

Esses conjuntos de dados fictícios têm todo o valor da coisa real, mas nenhum dos dados confidenciais. É como um bolo delicioso e sem calorias. Ele retrata com precisão o mundo real.

Como resultado, você pode usá-lo para substituir dados do mundo real.

Importância dos dados sintéticos

Os dados sintéticos têm características para atender a determinadas demandas ou situações que de outra forma não estariam disponíveis em dados do mundo real. Quando há escassez de dados para teste ou quando a privacidade é uma consideração importante, ela vem em socorro.

Os conjuntos de dados gerados por IA são adaptáveis, seguros e fáceis de armazenar, trocar e descartar. A técnica de síntese de dados é apropriada para subconfigurar e melhorar os dados originais.

Como consequência, é ideal para uso como dados de teste e dados de treinamento de IA.

Ensinar Uber e Automóveis autônomos da Tesla.
Nos setores médico e de saúde, para avaliar doenças e circunstâncias específicas para as quais não existem dados genuínos.
A detecção e a proteção contra fraudes são cruciais no setor financeiro. Ao usá-lo, você pode investigar novas instâncias fraudulentas.
A Amazon está treinando o sistema de linguagem do Alexa usando dados sintéticos.
A American Express está usando dados financeiros sintéticos para melhorar a detecção de fraudes.

Tipos de dados sintéticos

Os dados sintéticos são criados aleatoriamente com a intenção de ocultar informações privadas confidenciais, mantendo informações estatísticas sobre as características dos dados originais.

É principalmente de três tipos:

Dados totalmente sintéticos
Dados parcialmente sintéticos
Dados sintéticos híbridos

1. Dados totalmente sintéticos

Esses dados são totalmente gerados e não contêm dados originais.

Normalmente, o gerador de dados para esse tipo identificará funções de densidade de recursos em dados reais e estimará seus parâmetros. Mais tarde, a partir de funções de densidade previstas, séries protegidas por privacidade são criadas aleatoriamente para cada recurso.

Se apenas algumas características dos dados reais forem escolhidas para serem substituídas por eles, as séries protegidas desses recursos são mapeadas para os recursos restantes dos dados reais para classificar as séries protegidas e reais na mesma ordem.

Técnicas de bootstrap e imputações múltiplas são dois métodos tradicionais para produzir dados completamente sintéticos.

Como os dados são totalmente sintéticos e não existem dados reais, essa estratégia oferece excelente proteção de privacidade com base na veracidade dos dados.

2. Dados Parcialmente Sintéticos

Esses dados usam apenas valores sintéticos para substituir os valores de alguns recursos confidenciais.

Nesta situação, os valores genuínos só são alterados se houver um risco substancial de exposição. Essa alteração é feita para proteger a privacidade dos dados recém-criados.

A imputação múltipla e as abordagens baseadas em modelos são usadas para produzir dados parcialmente sintéticos. Esses métodos também podem ser usados para preencher valores ausentes em dados do mundo real.

3. Dados sintéticos híbridos

Os dados sintéticos híbridos incluem dados reais e falsos.

Um registro próximo nele é escolhido para cada registro aleatório de dados reais, e os dois são então unidos para gerar dados híbridos. Ele tem os benefícios de dados completamente sintéticos e parcialmente sintéticos.

Portanto, oferece forte preservação de privacidade com alta utilidade quando comparado aos outros dois, mas ao custo de mais memória e tempo de processamento.

Técnicas de Geração de Dados Sintéticos

Por muitos anos, o conceito de dados criados por máquina tem sido popular. Agora está amadurecendo.

Aqui estão algumas das técnicas usadas para gerar dados sintéticos:

1. Com base na distribuição

Caso não existam dados reais, mas o analista de dados tenha uma ideia completa de como seria a distribuição do conjunto de dados; eles podem produzir uma amostra aleatória de qualquer distribuição, incluindo Normal, Exponencial, Qui-quadrado, t, lognormal e Uniforme.

O valor dos dados sintéticos nesse método varia de acordo com o nível de compreensão do analista sobre um determinado ambiente de dados.

2. Dados do mundo real em distribuição conhecida

As empresas podem produzi-lo identificando as distribuições mais adequadas para determinados dados reais, se houver dados reais.

As empresas podem usar a abordagem de Monte Carlo para produzi-lo se desejarem encaixar dados reais em uma distribuição conhecida e conhecer os parâmetros de distribuição.

Embora a abordagem de Monte Carlo possa ajudar as empresas a localizar a melhor correspondência disponível, a melhor opção pode não ser de uso suficiente para as necessidades de dados sintéticos da empresa.

As empresas podem explorar o emprego de modelos de aprendizado de máquina para se adequar às distribuições nessas circunstâncias.

Técnicas de aprendizado de máquina, como árvores de decisão, permitem que as organizações modelem distribuições não clássicas, que podem ser multimodais e não possuem propriedades comuns de distribuições reconhecidas.

As empresas podem produzir dados sintéticos que se conectam a dados genuínos usando essa distribuição ajustada de aprendizado de máquina.

O Mercado Pago não havia executado campanhas de Performance anteriormente nessas plataformas. Alcançar uma campanha de sucesso exigiria modelos de aprendizado de máquina são suscetíveis a overfitting, o que faz com que eles não correspondam a novos dados ou prevejam observações futuras.

3. Aprendizado profundo

Modelos generativos profundos como o Variational Autoencoder (VAE) e a Generative Adversarial Network (GAN) podem produzir dados sintéticos.

Autoencoder Variacional

O VAE é uma abordagem não supervisionada na qual o codificador compacta o conjunto de dados original e envia os dados para o decodificador.

O decodificador então produz uma saída que é uma representação do conjunto de dados original.

Ensinar o sistema envolve maximizar a correlação entre os dados de entrada e saída.

vae

Rede Adversarial Geradora

O modelo GAN treina iterativamente o modelo usando duas redes, o gerador e o discriminador.

O gerador cria um conjunto de dados sintético a partir de um conjunto de dados de amostra aleatória.

O discriminador compara dados criados sinteticamente com um conjunto de dados real usando condições predefinidas.

Gan

Provedores de dados sintéticos

Dados estruturados

As plataformas mencionadas abaixo fornecem dados sintéticos derivados de dados tabulares.

Ele replica dados do mundo real mantidos em tabelas e pode ser usado para análise comportamental, preditiva ou transacional.

Instilar IA: É um provedor de um sistema de criação de dados sintéticos que utiliza Redes Adversariais Generativas e privacidade diferencial.
Dados melhores: é um fornecedor de uma solução de dados sintéticos que preserva a privacidade para IA, compartilhamento de dados e desenvolvimento de produtos.
Divepal: é o fornecedor do Geminai, um sistema para criar conjuntos de dados 'gêmeos' com as mesmas características estatísticas dos dados originais.

Dados Não Estruturados

As plataformas mencionadas abaixo operam com dados não estruturados, fornecendo bens e serviços de dados sintéticos para treinamento de algoritmos de visão e reconhecimento.

datagen: fornece dados de treinamento simulados em 3D para aprendizado e desenvolvimento de IA Visual.
Neurolaboratórios: Neurolabs é um fornecedor de uma plataforma de dados sintéticos de visão computacional.
Domínio paralelo: é um fornecedor de uma plataforma de dados sintéticos para treinamento de sistemas autônomos e casos de uso de teste.
Cunhada: É um fornecedor de simulação para ADAS e desenvolvedores de veículos autônomos.
Bifrost: fornece APIs de dados sintéticos para criar ambientes 3D.

3 2

Desafios

Tem uma longa história em Inteligência artificial, e embora tenha muitas vantagens, também tem desvantagens significativas que você precisa resolver ao trabalhar com dados sintéticos.

Aqui estão algumas delas:

Muitos erros podem ocorrer ao copiar a complexidade dos dados reais para os dados sintéticos.
A natureza maleável disso leva a vieses em seu comportamento.
Pode haver algumas falhas ocultas no desempenho de algoritmos treinados usando representações simplificadas de dados sintéticos que surgiram recentemente ao lidar com dados reais.
Replicar todos os atributos relevantes de dados do mundo real pode se tornar complicado. Também é possível que alguns aspectos essenciais possam ser negligenciados ao longo desta operação.

Conclusão

A produção de dados sintéticos está claramente chamando a atenção das pessoas.

Esse método pode não ser uma resposta única para todos os casos de geração de dados.

Além disso, a técnica pode exigir inteligência via IA/ML e ser capaz de lidar com situações complicadas do mundo real de criação de dados inter-relacionados, idealmente dados adequados a um determinado domínio.

No entanto, é uma tecnologia inovadora que preenche uma lacuna onde outras tecnologias que permitem a privacidade ficam aquém.

Hoje, sintético produção de dados pode precisar da coexistência de mascaramento de dados.

No futuro, pode haver maior convergência entre os dois, resultando em uma solução de geração de dados mais abrangente.

Compartilhe suas opiniões nos comentários!

ferramentas e técnicas de geração de dados sintéticos

Geração de dados sintéticos: tipos, técnicas e mais

O que são dados sintéticos?

Importância dos dados sintéticos