Você pode usar a IA para criar um novo disco do seu artista favorito?
Avanços recentes no aprendizado de máquina mostraram que os modelos agora são capazes de entender dados complexos, como texto e imagens. O Jukebox da OpenAI prova que até mesmo a música pode ser modelada com precisão por uma rede neural.
A música é um objeto complexo de modelar. Você deve levar em consideração recursos simples, como andamento, volume e afinação, e recursos mais complexos, como letras, instrumentos e estrutura musical.
Usando avançado aprendizado de máquina técnicas, a OpenAI encontrou uma maneira de converter áudio bruto em uma representação que outros modelos podem usar.
Este artigo explicará o que o Jukebox pode fazer, como funciona e as limitações atuais da tecnologia.
O que é Jukebox AI?
juke-box é um modelo de rede neural da OpenAI que pode gerar música com canto. O modelo pode produzir música em uma variedade de gêneros e estilos de artistas.
Por exemplo, Jukebox pode produzir uma música de rock no estilo de Elvis Presley ou uma música de hip hop no estilo de Kanye West. Você pode visitar este site do Network Development Group para explorar a eficácia do modelo em capturar o som de seus artistas e gêneros musicais favoritos.
O modelo requer um gênero, artista e letras como entrada. Essa entrada orienta um modelo treinado em milhões de artistas e dados de letras.
Como funciona o Jukebox?
Vejamos como o Jukebox consegue gerar um novo áudio bruto a partir de um modelo treinado em milhões de músicas.
Processo de codificação
Enquanto alguns modelos de geração de música usam dados de treinamento MIDI, o Jukebox é treinado no arquivo de áudio bruto real. Para compactar o áudio em um espaço discreto, o Jukebox usa uma abordagem de codificador automático conhecida como VQ-VAE.
VQ-VAE significa Vector Quantized Variational Autoencoder, o que pode parecer um pouco complicado, então vamos detalhar.
Primeiro, vamos tentar entender o que queremos fazer aqui. Comparado com letras ou partituras, um arquivo de áudio bruto é muito mais complexo. Se quisermos que nosso modelo “aprenda” com as músicas, teremos que transformá-lo em uma representação mais compacta e simplificada. Dentro aprendizado de máquina, chamamos essa representação subjacente de espaço latente.
An codificador automático é uma técnica de aprendizagem não supervisionada que usa um rede neural para encontrar representações latentes não lineares para uma determinada distribuição de dados. O autoencoder consiste em duas partes: um codificador e um decodificador.
A encoder tenta encontrar o espaço latente de um conjunto de dados brutos enquanto o decodificador usa a representação latente para tentar reconstruí-la de volta ao seu formato original. O autoencoder essencialmente aprende como compactar os dados brutos de forma a minimizar o erro de reconstrução.
Agora que sabemos o que um autoencoder faz, vamos tentar entender o que queremos dizer com um autoencoder “variacional”. Em comparação com os autoencoders típicos, os autoencoders variacionais adicionam um anterior ao espaço latente.
Sem mergulhar na matemática, adicionar um prior probabilístico mantém a distribuição latente compactada. A principal diferença entre um VAE e um VQ-VAE é que o último usa uma representação latente discreta em vez de uma contínua.
Cada nível VQ-VAE codifica independentemente a entrada. A codificação de nível inferior produz a reconstrução da mais alta qualidade. A codificação de nível superior retém informações musicais essenciais.
Usando transformadores
Agora que temos os códigos de música codificados por VQ-VAE, podemos tentar gerar música neste espaço discreto comprimido.
Usos da jukebox transformadores autorregressivos para criar o áudio de saída. Os transformadores são um tipo de rede neural que funciona melhor com dados sequenciados. Dada uma sequência de tokens, um modelo de transformador tentará prever o próximo token.
Jukebox usa uma variante simplificada de Transformadores Esparsos. Depois que todos os modelos anteriores são treinados, o transformador gera códigos compactados que são decodificados de volta em áudio bruto usando o decodificador VQ-VAE.
Artista e Condicionamento de Gênero em Jukebox
O modelo generativo do Jukebox torna-se mais controlável ao fornecer sinais condicionais adicionais durante a etapa de treinamento.
Os primeiros modelos são fornecidos por artistas e gravadoras de gênero para cada música. Isso reduz a entropia da previsão de áudio e permite que o modelo alcance melhor qualidade. Os rótulos também nos permitem orientar o modelo em um estilo particular.
Além do artista e gênero, os sinais de tempo são adicionados durante o tempo de treinamento. Esses sinais incluem a duração da música, a hora de início de uma amostra específica e a fração da música que decorreu. Essas informações adicionais ajudam o modelo a entender os padrões de áudio que dependem da estrutura geral.
Por exemplo, o modelo pode aprender que os aplausos para música ao vivo acontecem no final de uma música. O modelo também pode aprender, por exemplo, que alguns gêneros têm seções instrumentais mais longas do que outros.
letra
Os modelos condicionados mencionados na seção anterior são capazes de gerar uma variedade de vozes cantadas. No entanto, essas vozes tendem a ser incoerentes e irreconhecíveis.
Para controlar o modelo generativo quando se trata de geração de letras, os pesquisadores fornecem mais contexto na hora do treinamento. Para ajudar a mapear os dados das letras para o tempo do áudio real, os pesquisadores usaram mais farto para extrair vocais e NUS AutoLyricsAlign para obter alinhamentos em nível de palavra das letras.
Limitações do modelo Jukebox
Uma das principais limitações do Jukebox é a compreensão de estruturas musicais maiores. Por exemplo, um clipe curto de 20 segundos da saída pode soar impressionante, mas os ouvintes perceberão que a estrutura musical típica de repetição de refrões e versos está ausente na saída final.
O modelo também é lento para renderizar. Leva aproximadamente 9 horas para renderizar completamente um minuto de áudio. Isso limita o número de músicas que podem ser geradas e impede que o modelo seja usado em aplicativos interativos.
Por fim, os pesquisadores notaram que o conjunto de dados de amostra é principalmente em inglês e exibe principalmente convenções de música ocidental. Os pesquisadores de IA podem focar pesquisas futuras na geração de música em outros idiomas e estilos musicais não ocidentais.
Conclusão
O projeto Jukebox destaca a crescente capacidade dos modelos de aprendizado de máquina para criar representações latentes precisas de dados complexos, como áudio bruto. Avanços semelhantes estão acontecendo no texto, como visto em projetos como GPT-3, e imagens, como visto no OpenAI's DALL-E2.
Embora a pesquisa neste espaço tenha sido impressionante, ainda existem preocupações sobre os direitos de propriedade intelectual e o impacto que esses modelos podem ter nas indústrias criativas como um todo. Pesquisadores e criativos devem continuar a colaborar de perto para garantir que esses modelos possam continuar a melhorar.
Os futuros modelos de música generativa poderão em breve atuar como uma ferramenta para músicos ou como um aplicativo para criativos que precisam de uma música personalizada para projetos.
Deixe um comentário