Dados sintéticos explicados - a próxima grande novidade em IA, ML e DL

Os programas de análise avançada e aprendizado de máquina são impulsionados por dados, mas o acesso a esses dados pode ser difícil para acadêmicos devido a desafios com privacidade e procedimentos de negócios.

Dados sintéticos, que podem ser compartilhados e utilizados de maneiras que os dados reais não podem, são uma nova direção potencial a ser seguida. No entanto, essa nova estratégia não está isenta de perigos ou desvantagens, portanto, é crucial que as empresas considerem cuidadosamente onde e como usam seus recursos.

Na era atual da IA, também podemos afirmar que os dados são o novo petróleo, mas apenas alguns poucos estão sentados em um jorro. Portanto, muitas pessoas estão produzindo seu próprio combustível, que é acessível e eficiente. São conhecidos como dados sintéticos.

Neste post, vamos dar uma olhada detalhada em dados sintéticos - por que você deve usá-los, como produzi-los, o que os diferencia dos dados reais, quais casos de uso eles podem servir e muito mais.

Então, o que são dados sintéticos?

Quando conjuntos de dados genuínos são inadequados em termos de qualidade, número ou diversidade, dados sintéticos podem ser usados para treinar modelos de IA no lugar de dados históricos reais.

Quando os dados existentes não atendem aos requisitos de negócios ou apresentam riscos de privacidade quando utilizados para desenvolver aprendizado de máquina modelos, software de teste ou similares, os dados sintéticos podem ser uma ferramenta significativa para os esforços corporativos de IA.

Simplificando, dados sintéticos são frequentemente utilizados no lugar de dados reais. Mais precisamente, são dados que foram marcados artificialmente e produzidos por simulações ou algoritmos de computador.

Dados Sintéticos

Dados sintéticos são informações que foram criadas artificialmente por um programa de computador e não como resultado de ocorrências reais. As empresas podem adicionar dados sintéticos aos seus dados de treinamento para cobrir todas as situações de uso e de ponta, reduzir o custo da coleta de dados ou atender aos regulamentos de privacidade.

Os dados artificiais agora estão mais acessíveis do que nunca, graças a melhorias no poder de processamento e nos métodos de armazenamento de dados, como a nuvem. Os dados sintéticos melhoram a criação de soluções de IA que são mais benéficas para todos os usuários finais, e isso é, sem dúvida, um bom desenvolvimento.

Como os dados sintéticos são importantes e por que você deve usá-los?

Ao treinar modelos de IA, os desenvolvedores geralmente precisam de grandes conjuntos de dados com rotulagem precisa. Quando ensinado com dados mais variados, redes neurais executar com mais precisão.

Coletar e rotular esses conjuntos de dados maciços contendo centenas ou até milhões de itens, no entanto, pode consumir muito tempo e dinheiro. O preço da produção de dados de treinamento pode ser bastante reduzido usando dados sintéticos. Por exemplo, se criada artificialmente, uma imagem de treinamento que custa US$ 5 quando comprada de um provedor de rotulagem de dados pode custar apenas $ 0.05.

Os dados sintéticos podem aliviar as preocupações com a privacidade relacionadas a dados potencialmente confidenciais gerados no mundo real, além de reduzir as despesas.

Em comparação com dados genuínos, que não podem refletir com precisão o espectro completo de fatos sobre o mundo real, podem ajudar a diminuir o preconceito. Ao fornecer ocorrências incomuns que representam possibilidades plausíveis, mas podem ser difíceis de obter de dados legítimos, os dados sintéticos podem oferecer maior diversidade.

Os dados sintéticos podem ser uma ótima opção para o seu projeto pelos motivos listados abaixo:

1. A robustez do modelo

Sem precisar adquiri-lo, acesse dados mais variados para seus modelos. Com dados sintéticos, você pode treinar seu modelo usando variantes da mesma pessoa com vários cortes de cabelo, barba, óculos, poses de cabeça, etc., assim como tom de pele, traços étnicos, estrutura óssea, sardas e outras características para gerar rostos e fortalecê-lo.

2. Os casos extremos são levados em consideração

Um equilíbrio conjunto de dados é preferido pelo aprendizado de máquina algoritmos. Pense no nosso exemplo de reconhecimento facial. A precisão de seus modelos teria melhorado (e, de fato, algumas dessas empresas fizeram exatamente isso), e eles teriam produzido um modelo mais moral se tivessem produzido dados sintéticos de rostos de pele mais escura para preencher suas lacunas de dados. As equipes podem cobrir todos os casos de uso, incluindo casos extremos em que os dados são escassos ou inexistentes, com a ajuda de dados sintéticos.

3. Pode ser obtido mais rapidamente do que os dados "reais"

As equipes são capazes de gerar grandes quantidades de dados sintéticos rapidamente. Isso é especialmente útil quando os dados da vida real dependem de eventos esporádicos. As equipes podem achar difícil obter dados do mundo real suficientes sobre condições severas da estrada enquanto coletam dados para um carro autônomo, por exemplo, devido à sua raridade. Para acelerar o laborioso processo de anotação, os cientistas de dados podem criar algoritmos para rotular automaticamente os dados sintéticos à medida que são gerados.

4. Protege as informações de privacidade do usuário

As empresas podem ter dificuldades de segurança ao lidar com dados confidenciais, dependendo do negócio e do tipo de dados. As informações pessoais de saúde (PHI), por exemplo, são frequentemente incluídas em dados de pacientes internados no setor de saúde e devem ser tratadas com a máxima segurança.

Como os dados sintéticos não incluem informações sobre pessoas reais, os problemas de privacidade são reduzidos. Considere usar dados sintéticos como alternativa se sua equipe precisar aderir a determinadas leis de privacidade de dados.

Dados reais vs dados sintéticos

No mundo real, dados reais são obtidos ou medidos. Quando alguém usa um smartphone, laptop ou computador, usa um relógio de pulso, acessa um site ou faz uma transação online, esse tipo de dado é gerado instantaneamente.

Além disso, as pesquisas podem ser usadas para fornecer dados genuínos (online e offline). As configurações digitais produzem dados sintéticos. Com exceção da parte que não foi derivada de nenhum evento do mundo real, os dados sintéticos são criados de forma a imitar com sucesso os dados reais em termos de qualidades fundamentais.

A ideia de usar dados sintéticos como substitutos de dados reais é muito promissora, pois pode ser usada para fornecer a dados de treinamento que o aprendizado de máquina os modelos exigem. Mas não é certo que inteligência artificial pode resolver todos os problemas que surgem no mundo real.

Os casos de uso

Os dados sintéticos são úteis para diversos fins comerciais, incluindo treinamento de modelo, validação de modelo e teste de novos produtos. Listaremos alguns dos setores que abriram caminho em sua aplicação ao aprendizado de máquina:

1. Assistência Médica

Dada a sensibilidade de seus dados, o setor de saúde é adequado para o uso de dados sintéticos. Os dados sintéticos podem ser usados pelas equipes para registrar as fisiologias de todo tipo de paciente que possa existir, auxiliando assim no diagnóstico mais rápido e preciso das doenças.

Assistência médica

O modelo de detecção de melanoma do Google é uma ilustração intrigante disso, pois incorpora dados sintéticos de pessoas com tons de pele mais escuros (uma área de dados clínicos lamentavelmente sub-representada) para fornecer ao modelo a capacidade de funcionar de forma eficaz para todos os tipos de pele.

2. Automóveis

Os simuladores são frequentemente usados por empresas que criam automóveis autônomos para avaliar o desempenho. Quando o clima é severo, por exemplo, coletar dados reais de estradas pode ser arriscado ou difícil.

Automóvel autodirigido

Confiar em testes ao vivo com automóveis reais nas estradas geralmente não é uma boa ideia, pois existem muitas variáveis a serem levadas em consideração em todas as diferentes situações de direção.

3. Portabilidade de Dados

Para poder compartilhar seus dados de treinamento com outras pessoas, as organizações precisam de métodos confiáveis e seguros. Ocultar informações de identificação pessoal (PII) antes de tornar o conjunto de dados público é outra aplicação intrigante para dados sintéticos. A troca de conjuntos de dados de pesquisa científica, dados médicos, dados sociológicos e outros campos que podem conter PII são chamados de dados sintéticos que preservam a privacidade.

4. Segurança

As organizações estão mais seguras graças aos dados sintéticos. Em relação ao nosso exemplo de reconhecimento facial novamente, você pode estar familiarizado com a frase “deep fakes”, que descreve fotos ou vídeos fabricados. As falsificações profundas podem ser produzidas por empresas para testar seus próprios sistemas de reconhecimento facial e segurança. Dados sintéticos também são usados em vigilância por vídeo para treinar modelos mais rapidamente e a um custo mais barato.

Dados sintéticos e aprendizado de máquina

Para construir um modelo sólido e confiável, os algoritmos de aprendizado de máquina precisam de uma quantidade significativa de dados para serem processados. Na ausência de dados sintéticos, produzir um volume tão grande de dados seria um desafio.

Em domínios como visão computacional ou processamento de imagens, onde o desenvolvimento de modelos é facilitado pelo desenvolvimento de dados sintéticos iniciais, pode ser extremamente significativo. Um novo desenvolvimento no campo do reconhecimento de imagem é o uso de Generative Adversarial Networks (GANs). Geralmente consiste em duas redes: um gerador e um discriminador.

Enquanto a rede discriminadora visa separar as fotos reais das falsas, a rede geradora funciona para produzir imagens sintéticas que são consideravelmente mais semelhantes às imagens do mundo real.

No aprendizado de máquina, os GANs são um subconjunto da família de redes neurais, onde ambas as redes aprendem e se desenvolvem continuamente adicionando novos nós e camadas.

Ao criar dados sintéticos, você tem a opção de alterar o ambiente e o tipo dos dados conforme necessário para aprimorar o desempenho do modelo. Embora a precisão de dados sintéticos possa ser facilmente alcançada com uma pontuação forte, a precisão de dados rotulados em tempo real pode ocasionalmente ser extremamente cara.

Como você pode gerar dados sintéticos?

As abordagens usadas para criar uma coleção de dados sintéticos são as seguintes:

Com base na distribuição estatística

A estratégia usada neste caso é tirar números da distribuição ou observar distribuições estatísticas reais para criar dados falsos que pareçam comparáveis. Dados reais podem estar completamente ausentes em algumas circunstâncias.

Um cientista de dados pode gerar um conjunto de dados contendo uma amostra aleatória de qualquer distribuição se tiver uma compreensão profunda da distribuição estatística em dados reais. A distribuição normal, distribuição exponencial, distribuição qui-quadrado, distribuição lognormal e outras são apenas alguns exemplos de distribuições estatísticas de probabilidade que podem ser usadas para fazer isso.

O nível de experiência do cientista de dados com a situação terá um impacto significativo na precisão do modelo treinado.

Dependendo do modelo

Essa técnica cria um modelo que considera o comportamento observado antes de usar esse modelo para gerar dados aleatórios. Em essência, isso envolve ajustar dados reais a dados de uma distribuição conhecida. A abordagem de Monte Carlo pode ser usada por corporações para criar dados falsos.

Além disso, as distribuições também podem ser ajustadas usando modelos de aprendizado de máquina como árvores de decisão. Cientistas de dados No entanto, deve-se prestar atenção à previsão, pois as árvores de decisão geralmente se superajustam devido à sua simplicidade e expansão de profundidade.

Com aprendizado profundo

Aprendizado profundo modelos que usam um Variational Autoencoder (VAE) ou modelos Generative Adversarial Network (GAN) são duas maneiras de criar dados sintéticos. Os modelos de aprendizado de máquina não supervisionados incluem VAEs.

Eles são compostos de codificadores, que reduzem e compactam os dados originais, e decodificadores, que examinam esses dados para fornecer uma representação dos dados reais. Manter os dados de entrada e saída tão idênticos quanto possível é o objetivo básico de um VAE. Duas redes neurais opostas são modelos GAN e redes adversárias.

A primeira rede, conhecida como rede geradora, é responsável pela produção de dados falsos. A rede discriminadora, a segunda rede, funciona comparando dados sintéticos criados com dados reais em um esforço para identificar se o conjunto de dados é fraudulento. O discriminador alerta o gerador quando descobre um conjunto de dados falso.

O seguinte lote de dados fornecido ao discriminador é posteriormente modificado pelo gerador. Como resultado, o discriminador fica melhor ao longo do tempo ao detectar conjuntos de dados falsos. Esse tipo de modelo é frequentemente usado no setor financeiro para detecção de fraudes, bem como no setor de saúde para imagens médicas.

O Data Augmentation é um método diferente que os cientistas de dados empregam para produzir mais dados. Não deve ser confundido com dados falsos, no entanto. Simplificando, o aumento de dados é o ato de adicionar novos dados a um conjunto de dados genuíno que já existe.

Criando várias imagens a partir de uma única imagem, por exemplo, ajustando a orientação, brilho, ampliação e muito mais. Às vezes, o conjunto de dados real é usado com apenas as informações pessoais restantes. A anonimização dos dados é o que é, e um conjunto desses dados também não deve ser considerado como dados sintéticos.

Desafios e limitações dos dados sintéticos

Embora os dados sintéticos tenham vários benefícios que podem auxiliar as empresas nas atividades de ciência de dados, eles também apresentam algumas limitações:

A confiabilidade dos dados: É do conhecimento geral que todo modelo de aprendizado de máquina/aprendizado profundo é tão bom quanto os dados que são alimentados. A qualidade dos dados sintéticos neste contexto está fortemente relacionada à qualidade dos dados de entrada e do modelo utilizado para produzir os dados. É fundamental garantir que não existam vieses nos dados de origem, pois eles podem ser claramente espelhados nos dados sintéticos. Além disso, antes de fazer qualquer previsão, a qualidade dos dados deve ser confirmada e verificada.
Requer conhecimento, esforço e tempo: embora a criação de dados sintéticos possa ser mais simples e menos dispendiosa do que a criação de dados genuínos, é necessário algum conhecimento, tempo e esforço.
Anomalias de replicação: A réplica perfeita de dados do mundo real não é possível; dados sintéticos podem apenas aproximá-lo. Portanto, alguns outliers que existem em dados reais podem não ser cobertos por dados sintéticos. Anomalias de dados são mais significativas do que dados típicos.
Controlar a produção e garantir a qualidade: Os dados sintéticos destinam-se a replicar dados do mundo real. A verificação manual dos dados torna-se essencial. É essencial verificar a precisão dos dados antes de incorporá-los em modelos de aprendizado de máquina/aprendizado profundo para conjuntos de dados complicados criados automaticamente utilizando algoritmos.
A resposta do utilizador: Como os dados sintéticos são um conceito novo, nem todos estarão prontos para acreditar nas previsões feitas com eles. Isso indica que, para aumentar a aceitabilidade do usuário, primeiro é necessário aumentar o conhecimento sobre a utilidade dos dados sintéticos.

promissor

O uso de dados sintéticos aumentou dramaticamente na década anterior. Embora economize tempo e dinheiro para as empresas, não deixa de ter suas desvantagens. Faltam outliers, que ocorrem naturalmente em dados reais e são críticos para a precisão em alguns modelos.

Também vale a pena notar que a qualidade dos dados sintéticos depende frequentemente dos dados de entrada usados para criação; vieses nos dados de entrada podem se espalhar rapidamente para os dados sintéticos, portanto, a escolha de dados de alta qualidade como ponto de partida não deve ser exagerada.

Finalmente, ele precisa de mais controle de saída, incluindo a comparação dos dados sintéticos com dados reais anotados por humanos para verificar se as discrepâncias não são introduzidas. Apesar desses obstáculos, os dados sintéticos continuam sendo um campo promissor.

Isso nos ajuda a criar novas soluções de IA mesmo quando os dados do mundo real não estão disponíveis. Mais significativamente, permite que as empresas criem produtos mais inclusivos e indicativos da diversidade de seus consumidores finais.

No futuro orientado por dados, no entanto, os dados sintéticos pretendem ajudar os cientistas de dados a realizar tarefas novas e criativas que seriam difíceis de concluir apenas com dados do mundo real.

Conclusão

Em certos casos, os dados sintéticos podem aliviar o déficit de dados ou a falta de dados relevantes dentro de uma empresa ou organização. Também analisamos quais estratégias podem auxiliar na geração de dados sintéticos e quem pode lucrar com isso.

Também falamos sobre algumas das dificuldades que surgem ao lidar com dados sintéticos. Para a tomada de decisões comerciais, os dados reais serão sempre privilegiados. No entanto, dados realistas são a próxima melhor opção quando esses dados brutos verdadeiros não estão acessíveis para análise.

No entanto, deve-se lembrar que, para produzir dados sintéticos, são necessários cientistas de dados com uma sólida compreensão de modelagem de dados. Uma compreensão completa dos dados reais e seus arredores também é essencial. Isso é essencial para garantir que, se disponíveis, os dados produzidos sejam tão precisos quanto possível.

Dados sintéticos explicados – a próxima grande novidade em IA, ML e DL

Então, o que são dados sintéticos?