¿Puedes usar la IA para crear un nuevo disco de tu artista favorito?
Los avances recientes en el aprendizaje automático han demostrado que los modelos ahora son capaces de comprender datos complejos, como texto e imágenes. Jukebox de OpenAI demuestra que incluso la música puede modelarse con precisión mediante una red neuronal.
La música es un objeto complejo de modelar. Debe tener en cuenta tanto las características simples como el tempo, el volumen y el tono, como las características más complejas, como las letras, los instrumentos y la estructura musical.
Usando avanzado máquina de aprendizaje técnicas, OpenAI ha encontrado una manera de convertir audio sin procesar en una representación que otros modelos pueden usar.
Este artículo explicará qué puede hacer Jukebox, cómo funciona y las limitaciones actuales de la tecnología.
¿Qué es la IA de Jukebox?
Jukebox es un modelo de red neuronal de OpenAI que puede generar música con el canto. El modelo puede producir música en una variedad de géneros y estilos de artistas.
Por ejemplo, Jukebox puede producir una canción de rock al estilo de Elvis Presley o una melodía de hip hop al estilo de Kanye West. Puedes visitar este página web del NDN Collective para explorar qué tan efectivo es el modelo para capturar el sonido de sus artistas y géneros musicales favoritos.
El modelo requiere un género, un artista y una letra como entrada. Esta entrada guía un modelo entrenado en millones de artistas y datos de letras.
¿Cómo funciona Jukebox?
Veamos cómo se las arregla Jukebox para generar audio sin procesar novedoso a partir de un modelo entrenado en millones de canciones.
Proceso de codificación
Mientras que algunos modelos de generación de música usan datos de entrenamiento MIDI, Jukebox se entrena en el archivo de audio sin procesar real. Para comprimir el audio en un espacio discreto, Jukebox utiliza un enfoque de codificador automático conocido como VQ-VAE.
VQ-VAE significa Vector Quantized Variational Autoencoder, que puede sonar un poco complicado, así que vamos a desglosarlo.
Primero, tratemos de entender lo que queremos hacer aquí. En comparación con las letras o las partituras, un archivo de audio sin procesar es mucho más complejo. Si queremos que nuestro modelo “aprenda” de las canciones, tendremos que transformarlo en una representación más comprimida y simplificada. En máquina de aprendizaje, llamamos a esta representación subyacente una espacio latente.
An codificador automático es una técnica de aprendizaje no supervisado que utiliza un red neural para encontrar representaciones latentes no lineales para una distribución de datos dada. El autocodificador consta de dos partes: un codificador y un decodificador.
El codificador trata de encontrar el espacio latente de un conjunto de datos sin procesar, mientras que el descifrador utiliza la representación latente para tratar de reconstruirla a su formato original. El codificador automático esencialmente aprende a comprimir los datos sin procesar de tal manera que se minimiza el error de reconstrucción.
Ahora que sabemos lo que hace un codificador automático, intentemos entender qué queremos decir con un codificador automático "variacional". En comparación con los codificadores automáticos típicos, los codificadores automáticos variacionales agregan un espacio previo al latente.
Sin profundizar en las matemáticas, agregar un a priori probabilístico mantiene la distribución latente muy compacta. La principal diferencia entre un VAE y un VQ-VAE es que este último utiliza una representación latente discreta en lugar de una continua.
Cada nivel de VQ-VAE codifica de forma independiente la entrada. La codificación de nivel inferior produce la reconstrucción de mayor calidad. La codificación de nivel superior retiene la información musical esencial.
Uso de transformadores
Ahora que tenemos los códigos de música codificados por VQ-VAE, podemos intentar generar musica en este espacio discreto comprimido.
Usos de la máquina de discos transformadores autorregresivos para crear el audio de salida. Los transformadores son un tipo de red neuronal que funciona mejor con datos secuenciados. Dada una secuencia de tokens, un modelo de transformador intentará predecir el próximo token.
Jukebox utiliza una variante simplificada de Sparse Transformers. Una vez que se entrenan todos los modelos anteriores, el transformador genera códigos comprimidos que luego se decodifican nuevamente en audio sin procesar utilizando el decodificador VQ-VAE.
Acondicionamiento de artista y género en Jukebox
El modelo generativo de Jukebox se hace más controlable al proporcionar señales condicionales adicionales durante el paso de entrenamiento.
Los primeros modelos son proporcionados por artistas y sellos de género para cada canción. Esto reduce la entropía de la predicción de audio y permite que el modelo alcance una mejor calidad. Las etiquetas también nos permiten dirigir el modelo en un estilo particular.
Además del artista y el género, se añaden señales de tiempo durante el tiempo de entrenamiento. Estas señales incluyen la duración de la canción, el tiempo de inicio de una muestra en particular y la fracción de la canción que ha transcurrido. Esta información adicional ayuda al modelo a comprender los patrones de audio que se basan en la estructura general.
Por ejemplo, el modelo puede aprender que los aplausos de la música en vivo suceden al final de una canción. El modelo también puede aprender, por ejemplo, que algunos géneros tienen secciones instrumentales más largas que otros.
letras
Los modelos condicionados mencionados en la sección anterior son capaces de generar una variedad de voces de canto. Sin embargo, estas voces tienden a ser incoherentes e irreconocibles.
Para controlar el modelo generativo cuando se trata de la generación de letras, los investigadores brindan más contexto en el momento del entrenamiento. Para ayudar a mapear los datos de las letras con el tiempo del audio real, los investigadores usaron Esplendor para extraer voces y NUS AutoLyricsAlign para obtener alineaciones a nivel de palabra de las letras.
Limitaciones del modelo Jukebox
Una de las principales limitaciones de Jukebox es su comprensión de estructuras musicales más grandes. Por ejemplo, un clip corto de 20 segundos de la salida puede sonar impresionante, pero los oyentes notarán que la estructura musical típica de coros y versos repetidos está ausente en la salida final.
El modelo también es lento para renderizar. Se tarda aproximadamente 9 horas en renderizar completamente un minuto de audio. Esto limita la cantidad de canciones que se pueden generar y evita que el modelo se use en aplicaciones interactivas.
Por último, los investigadores han notado que el conjunto de datos de muestra está principalmente en inglés y muestra principalmente convenciones musicales occidentales. Los investigadores de IA pueden centrar la investigación futura en la generación de música en otros idiomas y estilos musicales no occidentales.
Conclusión
El proyecto Jukebox destaca la creciente capacidad de los modelos de aprendizaje automático para crear representaciones latentes precisas de datos complejos, como audio sin procesar. Avances similares están ocurriendo en el texto, como se ve en proyectos como GPT-3e imágenes, como se ve en OpenAI's DALL-E2.
Si bien la investigación en este espacio ha sido impresionante, todavía existen preocupaciones sobre los derechos de propiedad intelectual y el impacto que estos modelos pueden tener en las industrias creativas en general. Los investigadores y los creativos deben seguir colaborando estrechamente para garantizar que estos modelos puedan seguir mejorando.
Los futuros modelos de música generativa pronto podrán actuar como una herramienta para músicos o como una aplicación para creativos que necesitan música personalizada para proyectos.
Deje un comentario