AI を使用して、お気に入りのアーティストの新しいレコードを作成できますか?
機械学習における最近の進歩により、モデルがテキストや画像などの複雑なデータを理解できることが明らかになりました。 OpenAI のジュークボックスは、音楽さえもニューラル ネットワークによって正確にモデル化できることを証明しています。
音楽はモデル化するのが複雑なオブジェクトです。 テンポ、音量、ピッチなどの単純な特徴と、歌詞、楽器、音楽構造などのより複雑な特徴の両方を考慮する必要があります。
高度な使用 機械学習 OpenAI は、生のオーディオを他のモデルが使用できる表現に変換する方法を発見しました。
この記事では、ジュークボックスで何ができるか、その仕組み、およびこのテクノロジーの現在の制限について説明します。
ジュークボックス AI とは何ですか?
ジュークボックス 歌いながら音楽を生成できるOpenAIによるニューラルネットモデルです。 さまざまなジャンルやアーティストスタイルの音楽制作が可能なモデルです。
たとえば、ジュークボックスは、エルビス プレスリーのスタイルのロック曲やカニエ ウェストのスタイルのヒップホップ曲を作成できます。 こちらを訪問できます ウェブサイト モデルがお気に入りの音楽アーティストやジャンルのサウンドをキャプチャするのにどれだけ効果的かを調べてください。
モデルには、入力としてジャンル、アーティスト、歌詞が必要です。 この入力は、何百万ものアーティストと歌詞データでトレーニングされたモデルをガイドします。
ジュークボックスはどのように機能しますか?
ジュークボックスが何百万もの曲でトレーニングされたモデルから新しい生のオーディオをどのように生成するかを見てみましょう。
エンコーディングプロセス
一部の音楽生成モデルは MIDI トレーニング データを使用しますが、ジュークボックスは実際の生のオーディオ ファイルでトレーニングされます。 オーディオを個別の空間に圧縮するために、ジュークボックスは VQ-VAE として知られる自動エンコーダー アプローチを使用します。
VQ-VAE 「Vector Quantized variational Autoencoder」の略です。少し複雑に聞こえるかもしれないので、詳しく見てみましょう。
まず、ここで何をしたいのかを理解してみましょう。 歌詞や楽譜と比較すると、未加工のオーディオ ファイルははるかに複雑です。 モデルを歌から「学習」させたい場合は、それをより圧縮され単純化された表現に変換する必要があります。 の 機械学習、この基本的な表現を 潜在空間.
An オートエンコーダ を使用する教師なし学習手法です。 ニューラルネットワーク 特定のデータ分布の非線形潜在表現を見つけます。 オートエンコーダは、エンコーダとデコーダの XNUMX つの部分で構成されます。
エンコーダ は生データのセットから潜在スペースを見つけようとしますが、 デコーダ 潜在表現を使用して、元の形式に再構築しようとします。 オートエンコーダーは基本的に、再構成エラーを最小限に抑える方法で生データを圧縮する方法を学習します。
オートエンコーダーが何をするのかがわかったので、「バリエーション」オートエンコーダーの意味を理解してみましょう。 一般的なオートエンコーダと比較して、変分オートエンコーダは潜在空間の前にプリアを追加します。
数学に飛び込むことなく、確率的事前分布を追加すると、潜在分布が厳密に圧縮された状態に保たれます。 VAE と VQ-VAE の主な違いは、後者は連続的な表現ではなく離散的な潜在表現を使用することです。
各 VQ-VAE レベルは入力を独立してエンコードします。 最下位レベルのエンコードでは、最高品質の再構成が生成されます。 トップレベルのエンコードでは、重要な音楽情報が保持されます。
変圧器の使用
VQ-VAE でエンコードされた音楽コードを取得したので、次のことを試してみることができます。 音楽を生成する この圧縮された離散空間で。
ジュークボックスの用途 自己回帰トランスフォーマー 出力オーディオを作成します。 トランスフォーマーは、シーケンスされたデータに最適に機能するニューラル ネットワークの一種です。 トークンのシーケンスが与えられると、トランスフォーマー モデルは次のトークンを予測しようとします。
ジュークボックスは、スパース トランスフォーマーの簡略化されたバリアントを使用します。 以前のモデルがすべてトレーニングされると、トランスフォーマーは圧縮コードを生成し、VQ-VAE デコーダーを使用して生のオーディオにデコードされます。
ジュークボックスでのアーティストとジャンルのコンディショニング
ジュークボックスの生成モデルは、トレーニング ステップ中に追加の条件信号を提供することにより、より制御しやすくなります。
最初のモデルは、各曲のアーティストとジャンル レーベルによって提供されます。 これにより、オーディオ予測のエントロピーが低減され、モデルの品質が向上します。 ラベルを使用すると、モデルを特定のスタイルに操作することもできます。
アーティストとジャンルに加えて、トレーニング時間中にタイミング信号が追加されます。 これらの信号には、曲の長さ、特定のサンプルの開始時間、曲の経過時間の割合が含まれます。 この追加情報は、モデルが全体の構造に依存するオーディオ パターンを理解するのに役立ちます。
たとえば、モデルは、ライブ音楽の拍手が曲の終わりに発生することを学習する場合があります。 このモデルは、たとえば、一部のジャンルには他のジャンルよりも長い楽器セクションがあることも学習できます。
歌詞
前のセクションで説明した条件付きモデルは、さまざまな歌声を生成できます。 ただし、これらの音声は支離滅裂で認識できない傾向があります。
歌詞の生成に関して生成モデルを制御するために、研究者たちはトレーニング時により多くのコンテキストを提供します。 歌詞データを実際のオーディオのタイミングにマッピングするために、研究者らは以下を使用しました。 脾臓 ボーカルを抽出し、 NUS AutoLyricsAlign 歌詞の単語レベルの配置を取得します。
ジュークボックス モデルの制限事項
ジュークボックスの主な制限の 20 つは、より大きな音楽構造を理解できることです。 たとえば、出力の XNUMX 秒の短いクリップは印象的に聞こえるかもしれませんが、リスナーはコーラスと詩を繰り返すという典型的な音楽構造が最終出力には存在しないことに気づくでしょう。
モデルのレンダリングも遅いです。 9 分間のオーディオを完全にレンダリングするには約 XNUMX 時間かかります。 これにより、生成できる曲の数が制限され、モデルを対話型アプリケーションで使用できなくなります。
最後に、研究者らは、サンプル データセットは主に英語であり、主に西洋音楽の規則を表示していることを指摘しました。 AI 研究者は、他の言語や非西洋音楽スタイルの音楽を生成することに今後の研究を集中できます。
まとめ
ジュークボックス プロジェクトは、生のオーディオなどの複雑なデータの正確な潜在表現を作成する機械学習モデルの能力の向上に焦点を当てています。 のようなプロジェクトで見られるように、同様の画期的な進歩がテキストでも起こっています。 GPT-3OpenAI で見られるように、画像 DALL-E2.
この分野の研究は素晴らしいものですが、知的財産権やこれらのモデルがクリエイティブ産業全体に与える影響については依然として懸念があります。 研究者とクリエイティブは、これらのモデルが継続的に改善できるように、緊密に協力し続ける必要があります。
将来の生成音楽モデルは、近い将来、ミュージシャン向けのツールとして、またはプロジェクトにカスタム音楽を必要とするクリエイティブ向けのアプリケーションとして機能するようになるかもしれません。
コメントを残す