你能用人工智能從你最喜歡的藝術家那裡創造新的記錄嗎?
機器學習的最新突破表明,模型現在能夠理解文本和圖像等複雜數據。 OpenAI 的 Jukebox 證明,即使是音樂也可以通過神經網絡精確建模。
音樂是一個複雜的建模對象。 您必須考慮節奏、響度和音高等簡單特徵和歌詞、樂器和音樂結構等更複雜的特徵。
使用進階 機器學習 技術,OpenAI 找到了一種將原始音頻轉換為其他模型可以使用的表示的方法。
本文將解釋 Jukebox 可以做什麼、它是如何工作的以及該技術的當前限制。
什麼是自動點唱機 AI?
點唱機 是 OpenAI 的一個神經網絡模型,可以用歌聲生成音樂。 該模型可以製作各種流派和藝術家風格的音樂。
例如,自動點唱機可以製作埃爾維斯普雷斯利風格的搖滾歌曲或 Kanye West 風格的嘻哈曲調。 你可以訪問這個 網站 探索該模型在捕捉您最喜愛的音樂藝術家和流派的聲音方面的有效性。
該模型需要流派、藝術家和歌詞作為輸入。 這個輸入指導了一個基於數百萬藝術家和歌詞數據訓練的模型。
自動點唱機是如何工作的?
讓我們看看 Jukebox 如何從經過數百萬首歌曲訓練的模型生成新穎的原始音頻。
編碼過程
雖然一些音樂生成模型使用 MIDI 訓練數據,但 Jukebox 是在實際的原始音頻文件上進行訓練的。 為了將音頻壓縮到離散空間中,Jukebox 使用了一種稱為 VQ-VAE 的自動編碼器方法。
VQ-VAE 代表 Vector Quantized Variational Autoencoder,聽起來可能有點複雜,所以讓我們分解一下。
首先,讓我們嘗試了解我們想要在這裡做什麼。 與歌詞或樂譜相比,原始音頻文件要復雜得多。 如果我們希望我們的模型從歌曲中“學習”,我們必須將其轉換為更壓縮和簡化的表示。 在 機器學習,我們稱這個底層表示為 潛在空間.
An 自動編碼器 是一種無監督學習技術,它使用 神經網絡 找到給定數據分佈的非線性潛在表示。 自編碼器由兩部分組成:編碼器和解碼器。
編碼器 試圖從一組原始數據中找到潛在空間,而 解碼器 使用潛在表示嘗試將其重建回其原始格式。 自編碼器本質上是學習如何以最小化重構誤差的方式壓縮原始數據。
現在我們知道了自動編碼器的作用,讓我們嘗試理解“變分”自動編碼器的含義。 與典型的自動編碼器相比,變分自動編碼器在潛在空間之前添加了一個先驗。
在不深入研究數學的情況下,添加概率先驗可以使潛在分佈緊密緊湊。 VAE 和 VQ-VAE 之間的主要區別在於後者使用離散的潛在表示而不是連續的潛在表示。
每個 VQ-VAE 級別獨立地對輸入進行編碼。 底層編碼產生最高質量的重建。 頂級編碼保留了基本的音樂信息。
使用變形金剛
現在我們有了 VQ-VAE 編碼的音樂代碼,我們可以嘗試 生成音樂 在這個壓縮的離散空間中。
點唱機用途 自回歸變壓器 創建輸出音頻。 Transformers 是一種最適合處理序列數據的神經網絡。 給定一系列token,transformer模型將嘗試預測下一個token。
Jukebox 使用 Sparse Transformers 的簡化變體。 一旦所有先前的模型都經過訓練,轉換器會生成壓縮代碼,然後使用 VQ-VAE 解碼器將其解碼回原始音頻。
點唱機中的藝術家和流派調節
通過在訓練步驟中提供額外的條件信號,Jukebox 的生成模型變得更加可控。
第一個模型由每首歌曲的藝術家和流派標籤提供。 這減少了音頻預測的熵並允許模型獲得更好的質量。 這些標籤還使我們能夠以特定的風格引導模型。
除了藝術家和流派之外,還在訓練期間添加了計時信號。 這些信號包括歌曲的長度、特定樣本的開始時間以及歌曲已播放的部分。 這些附加信息有助於模型理解依賴於整體結構的音頻模式。
例如,模型可能會了解到現場音樂的掌聲發生在歌曲的結尾。 例如,該模型還可以學習某些類型的器樂部分比其他類型更長。
歌詞
上一節中提到的條件模型能夠生成各種歌聲。 然而,這些聲音往往不連貫且無法辨認。
為了在歌詞生成方面控制生成模型,研究人員在訓練時提供了更多上下文。 為了幫助將歌詞數據映射到實際音頻的時間,研究人員使用 ple 提取人聲和 新加坡國立大學 AutoLyricsAlign 以獲得歌詞的單詞級對齊方式。
點唱機模型的局限性
Jukebox 的主要限制之一是它對更大的音樂結構的理解。 例如,一段 20 秒的短片輸出聽起來可能令人印象深刻,但聽眾會注意到,在最終輸出中沒有重複合唱和詩句的典型音樂結構。
該模型的渲染速度也很慢。 完全渲染一分鐘的音頻大約需要 9 個小時。 這限制了可以生成的歌曲數量,並阻止了該模型在交互式應用程序中的使用。
最後,研究人員注意到樣本數據集主要是英語,主要顯示西方音樂慣例。 人工智能研究人員可以將未來的研究重點放在生成其他語言和非西方音樂風格的音樂上。
結論
Jukebox 項目強調了機器學習模型在創建複雜數據(如原始音頻)的準確潛在表示方面的不斷增長的能力。 類似的突破正在文本中發生,如項目中所見 GPT-3和圖像,如 OpenAI 中所見 達爾-E 2.
儘管這一領域的研究令人印象深刻,但人們仍然擔心知識產權以及這些模型可能對整個創意產業產生的影響。 研究人員和創意人員應繼續密切合作,以確保這些模型能夠繼續改進。
未來的生成音樂模型可能很快就能夠作為音樂家的工具或作為需要為項目定制音樂的創意人員的應用程序。
發表評論