A maioría dos modelos de aprendizaxe automática e de aprendizaxe profunda dependen en gran medida da cantidade e variedade de datos para funcionar ben. O volume e a diversidade de datos proporcionados durante o adestramento teñen un impacto significativo na precisión da predición destes modelos.
Os modelos de aprendizaxe profunda que se ensinaron a realizar de forma eficaz en tarefas complicadas adoitan incluír neuronas ocultas. O número de parámetros adestrables aumenta segundo o número de neuronas ocultas.
A cantidade de datos necesarios é proporcional ao número de parámetros aprendibles do modelo. Un método para tratar a dificultade dos datos limitados é aplicar unha variedade de transformacións aos datos actuais para sintetizar novos datos.
A técnica de sintetizar novos datos a partir de datos existentes denomínase "Aumento de datos". O aumento de datos pódese utilizar para cumprir ambos os requisitos: o volume de datos e a variedade de datos de adestramento necesarios para desenvolver Aprendizaxe automática ou modelos de aprendizaxe profunda.
Nesta publicación, analizaremos de cerca o aumento de datos, os seus tipos, por que é esencial e moito máis.
Entón, que é o aumento de datos?
O aumento de datos é o proceso de desenvolvemento de datos novos e representativos a partir de datos existentes. Podes facelo incluíndo versións modificadas dos datos existentes ou sintetizando novos datos.
Os conxuntos de datos producidos por este método mellorarán a súa aprendizaxe automática ou modelos de aprendizaxe profunda minimizando o risco de sobreadaptación. É o proceso de cambiar ou "aumentar" un conxunto de datos con información adicional.
Esta entrada complementaria pode ir desde imaxes ata texto e aumenta o rendemento dos sistemas de aprendizaxe automática.
Supoñamos que queremos construír un modelo para categorizar as razas de cans e que temos un gran número de fotografías de todas as variedades, excepto os pugs. Como resultado, o modelo tería dificultades para categorizar os pugs.
Poderíamos engadir fotos de pug adicionais (reais ou falsas) á colección, ou poderiamos duplicar as nosas fotografías de pug actuais (por exemplo, replicándoas e distorsionándoas para facelas artificialmente únicas).
Para que serve o aumento de datos no presente?
Aplicacións para aprendizaxe de máquina están a desenvolverse e diversificarse rapidamente, especialmente no campo da aprendizaxe profunda. Os retos aos que se enfronta a industria da intelixencia artificial pódense superar mediante técnicas de aumento de datos.
O aumento de datos pode mellorar o rendemento e os resultados dos modelos de aprendizaxe automática engadindo exemplos novos e diversos aos conxuntos de datos de adestramento.
Cando o conxunto de datos é grande e suficiente, un modelo de aprendizaxe automática funciona mellor e é máis preciso. Para os modelos de aprendizaxe automática, a recollida de datos e a etiquetaxe poden ser lentos e custosos.
As empresas poden reducir os seus custos operativos cambiando conxuntos de datos e utilizando estratexias de aumento de datos.
A limpeza de datos é unha das etapas do desenvolvemento dun modelo de datos, e é esencial para modelos de alta precisión. Non obstante, o modelo non poderá anticipar as entradas adecuadas do mundo real se a limpeza de datos diminúe a representabilidade.
Os modelos de aprendizaxe automática pódense reforzar empregando enfoques de aumento de datos, que producen variacións que o modelo podería atopar no mundo real.
Tipos de Aumento de Datos
Aumento de datos reais
O aumento de datos reais prodúcese cando engades datos auténticos complementarios a un conxunto de datos. Isto pode ir desde ficheiros de texto con atributos adicionais (para imaxes etiquetadas) ata imaxes doutros obxectos comparables ao obxecto orixinal, ou incluso gravacións da cousa real.
Por exemplo, ao engadir algunhas funcións máis a un ficheiro de imaxe, un modelo de aprendizaxe automática pode detectar o elemento máis facilmente.
Poden incluírse máis metadatos sobre cada imaxe (por exemplo, o seu nome e descrición) para que o noso modelo de IA saiba máis sobre o que representa cada imaxe antes de comezar a adestrarse nesas fotos.
Cando chega o momento de clasificar as fotos novas nunha das nosas categorías predeterminadas, como "gato" ou "can", o modelo podería ser máis capaz de detectar os elementos que están presentes nunha imaxe e, como resultado, ter un mellor rendemento.
Datos sintéticos Aumento
Ademais de engadir máis datos reais, tamén podes contribuír datos sintéticos ou datos artificiais que parecen auténticos.
Isto é beneficioso para tarefas difíciles como a transferencia de estilos neuronais, pero tamén é bo para calquera deseño, tanto se estás a usar GAN (redes xeradoras adversarias), CNN (redes neuronais convolucionais) ou outras arquitecturas de redes neuronais profundas.
Por exemplo, se queremos categorizar correctamente os carlinos sen ter que saír a sacar varias fotos, poderíamos engadir algunhas fotografías de carlinos falsas a unha colección de imaxes de cans.
Esta forma de aumento de datos é especialmente eficaz para mellorar a precisión do modelo cando a recollida de datos é difícil, custosa ou leva moito tempo. Nesta situación, estamos ampliando artificialmente o conxunto de datos.
Supoña que o noso grupo inicial de 1000 fotografías de razas de cans contén só 5 imaxes de pug. En lugar de engadir fotografías de pug reais de cans reais, imos crear unha falsa clonando unha das actuais e distorsionándoa lixeiramente para que aínda pareza un pug.
Técnicas de aumento de datos
Os enfoques de aumento de datos implican facer pequenas modificacións aos datos existentes. É o mesmo que reformular unha declaración. Podemos dividir o aumento de datos en tres categorías:
Texto
- Substitución de palabras: este enfoque de aumento de datos inclúe a substitución dos termos actuais por sinónimos. Como exemplo, "Esta película é tonta" pode converterse en "Esta película é idiota".
- Barallar frases/palabras: esta estratexia implica cambiar a secuencia de frases ou palabras mantendo a coherencia xeral.
- Manipulación da árbore de sintaxe: cambias unha oración existente para que sexa gramaticalmente precisa mentres utilizas os mesmos termos.
- Eliminación aleatoria: aínda que esta estratexia produce escritura fea, é eficaz. Como resultado, a liña "Non comprarei este disco porque está raiado" pasa a ser "Non comprarei isto porque está raiado". A frase é menos clara, pero segue sendo un engadido plausible.
- Tradución traseira: este enfoque é eficaz e agradable. Fai unha declaración escrita no teu idioma, tradúcea a outro idioma e despois volve traducila ao teu idioma orixinal.
imaxes
- Filtros do núcleo: este enfoque acentúa ou desenfoca unha imaxe.
- Combinación de imaxes: aínda que poida parecer estraño, podes mesturar fotos.
- Borrado aleatorio: elimina unha pequena parte da imaxe actual.
- Transformacións xeométricas: este enfoque comprende, entre outras cousas, voltear, rotar, recortar ou traducir imaxes arbitrariamente.
- Voltar unha imaxe: pode virar unha imaxe de orientación horizontal a vertical.
- Transformación do espazo de cor: pode modificar as canles de cor RGB ou mellorar calquera cor actual.
- A reescala é o proceso de axustar a escala visual. Tes a opción de aumentar ou reducir a escala. Cando escalas cara a dentro, a imaxe faise máis pequena que o tamaño inicial. A imaxe será máis grande que a orixinal se a escalas cara a fóra.
auditivo
- Pitch: este enfoque implica cambiar o ton de audio.
- Cambiar velocidade: cambia a velocidade do ficheiro de audio ou da gravación.
- Máis ruído: podes engadir máis ruído ao ficheiro de audio.
Usar caso
As imaxes médicas son un caso de uso destacado para o aumento de datos neste momento. As coleccións de imaxes médicas son pequenas e é difícil compartir datos debido ás normas e problemas de privacidade.
Ademais, os conxuntos de datos son moito máis limitados no caso de trastornos pouco comúns. As empresas de imaxes médicas usan o aumento de datos para diversificar os seus conxuntos de datos.
Desafíos
A escalabilidade, a diversidade de conxuntos de datos e a relevancia son algúns dos problemas que deben resolverse para desenvolver técnicas eficientes de aumento de datos.
En termos de escalabilidade, os datos aumentados teñen que ser escalables para que moitos modelos diferentes poidan utilizalos. Quererá asegurarse de que isto se pode duplicar para usar en modelos futuros, xa que a configuración dun sistema de aumento de datos que xere unha gran cantidade de datos relevantes, valiosos e mellorados pode levar algún tempo.
En termos de heteroxeneidade, varios conxuntos de datos teñen características distintas que deben ser consideradas ao desenvolver datos aumentados. Para desenvolver datos mellorados apropiados, débense utilizar as propiedades de cada conxunto de datos.
Noutras palabras, o aumento de datos diferirá entre conxuntos de datos e casos de uso.
Finalmente, para garantir que as vantaxes do aumento de datos superan calquera perigo, os datos aumentados deben ser avaliados utilizando métricas adecuadas antes de ser utilizados polos modelos de aprendizaxe automática.
Por exemplo, a presenza de ruído de fondo significativo ou elementos non relacionados en datos aumentados baseados en imaxes poderían ter un impacto prexudicial no rendemento do modelo.
Conclusión
En definitiva, se estás intentando prever perdas, identificar fraudes financeiros ou construír mellor clasificación de imaxes modelos, o aumento de datos é unha forma crítica de construír modelos máis precisos e robustos.
A través dun procedemento de adestramento superior, o simple preprocesamento e o aumento de datos poden incluso axudar aos equipos a desenvolver modelos de vangarda.
As empresas poden utilizar o aumento de datos para reducir a cantidade de tempo dedicado a preparar datos de formación e crear modelos de aprendizaxe automática que sexan máis precisos e rápidos..
Ao ampliar a cantidade de datos pertinentes no conxunto de datos, o aumento de datos tamén pode beneficiar aos modelos de aprendizaxe automática que xa teñen moitos datos.
Deixe unha resposta