近年、「拡散モデル」と呼ばれる生成モデルの人気が高まっていますが、これには正当な理由があります。
2020 年代と 2021 年代に発表されたばかりのいくつかの画期的な出版物のおかげで、画像合成で GAN を上回るなど、拡散モデルの可能性を世界は見てきました。
実務家は最近、拡散モデルの使用を目にしました。 DALL-E2、先月公開されたOpenAIの画像作成モデル。
多くの機械学習の実践者は、最近の成功の急増を考えると、拡散モデルの内部動作に間違いなく興味を持っています。
この投稿では、拡散モデルの理論的基盤、その設計、利点などについて見ていきます。 さあ行こう。
拡散モデルとは何ですか?
このモデルが拡散モデルと呼ばれる理由を理解することから始めましょう。
物理の授業で熱力学に関係する言葉に拡散という言葉があります。 香りのような物質が XNUMX つの場所に集中している場合、システムは平衡状態にありません。
システムが平衡状態に入るには、拡散が発生する必要があります。 香りの分子は、より高い濃度の領域からシステム全体に拡散し、システム全体が均一になります。
拡散により、最終的にはすべてが均一になります。
拡散モデルは、この熱力学的非平衡状態によって動機付けられます。 拡散モデルは、各変数の値が前のイベントの状態に依存する一連の変数であるマルコフ連鎖を使用します。
写真を撮ると、前方拡散フェーズ全体で特定の量のノイズを連続して追加します。
ノイズの多い画像を保存した後、追加のノイズを導入して、シリーズの次の画像を作成します。
数回、この手順が実行されます。 この方法を数回繰り返すと、純粋なノイズ画像が得られます。
では、この雑然とした画像からどのように画像を作成できるのでしょうか?
拡散プロセスは、 ニューラルネットワーク. 同じネットワークと同じ重みが後方拡散プロセスで使用され、t から t-1 までの画像が作成されます。
ネットワークに画像を予測させる代わりに、タスクをさらに簡素化するために、画像から除去する必要がある各ステップでのノイズの予測を試みることができます。
どのシナリオにおいても、 ニューラル ネットワークの設計 データの次元を維持する方法で選択する必要があります。
拡散モデルの詳細
拡散モデルの構成要素は、データ (多くの場合、画像) が徐々にノイズ化される順方向プロセス (拡散プロセスとも呼ばれます) と、ノイズが徐々にノイズ化される逆方向プロセス (逆拡散プロセスとも呼ばれます) です。ターゲットディストリビューションからサンプルに変換されます。
ノイズ レベルが十分に低い場合、条件付きガウス分布を使用して、フォワード プロセスでサンプリング チェーンの遷移を確立できます。 この知識をマルコフ仮定と結合することで、フォワード プロセスを簡単にパラメータ化できます。
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
ここに 1 ...T は、T が十分に高い場合、xT が事実上等方性ガウスであることを保証する分散スケジュール (学習または固定) です。
逆のプロセスは、拡散モデルの魔法が起こる場所です。 モデルは、新しいデータを生成するために、トレーニング中にこの拡散プロセスを逆にすることを学習します。 モデルは、同時分布を次のように学習します。 (x0:T) 純粋なガウス ノイズ方程式から始めた結果
(xT):=N(xT,0,I)。
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt、t))
ここで、ガウス遷移の時間依存パラメーターが発見されます。 特に、マルコフ定式化では、特定の逆拡散遷移分布が前の時間ステップ (または見方によっては後の時間ステップ) のみに依存することを示していることに注意してください。
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))
モデルトレーニング
トレーニング データの確率を最大化する逆マルコフ モデルを使用して、拡散モデルをトレーニングします。 実際には、トレーニングは負の対数確率の変分上限を減らすことに似ています。
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≧1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Models
目標関数の数学的基盤を確立した後、拡散モデルを実行する方法を決定する必要があります。 転送プロセスに必要な唯一の決定は、差異スケジュールを決定することです。差異スケジュールの値は通常、手順中に上昇します。
逆の手順にガウス分布のパラメーター化とモデル アーキテクチャを使用することを強く検討します。
私たちの設計の唯一の条件は、入力と出力の両方が同じ寸法であることです。 これは、拡散モデルが提供する膨大な自由度を強調しています。
以下では、これらのオプションについてさらに詳しく説明します。
転送プロセス
転送プロセスに関連する差異スケジュールを提供する必要があります。 具体的には、時間に依存する定数に設定し、学習できる可能性を無視しました。 からの時系列表
β1 = 10−4 ~ βT = 0.02.
Lt 固定分散スケジュールにより、学習可能なパラメーターのセットに関して定数になり、選択された特定の値に関係なく、トレーニング中に無視することができます。
リバースプロセス
次に、リバース プロセスを定義するために必要な決定について説明します。 逆マルコフ遷移をガウスとして説明した方法を思い出してください。
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))
機能タイプを特定したので、. パラメータ化するより複雑な手法があるという事実にもかかわらず、設定するだけです
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
別の言い方をすれば、多変量ガウス分布は、時間の経過とともに変動する可能性のある分散値である同じ分散を持つ別々のガウス分布の結果であると考えます。 これらの偏差は、転送プロセスの偏差のタイムテーブルに一致するように設定されています。
この新しい処方の結果として、 我々は持っています:
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)
これにより、以下に示す代替損失関数が得られます。著者は、より一貫したトレーニングと優れた結果を生み出すことを発見しました。
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
著者はまた、この拡散モデルの定式化とランジュバンに基づくスコアマッチング生成モデルとの間の関連性を引き出しています。 波動ベースの量子物理学と行列ベースの量子力学が独立して並行して開発され、同じ現象の XNUMX つの比較可能な定式化が明らかになったように、拡散モデルとスコアベースのモデルは同じコインの裏表であると思われます。
ネットワークアーキテクチャ
凝縮された損失関数はモデルのトレーニングを目的としているにもかかわらず、 Σθ、このモデルのアーキテクチャはまだ決定していません。 モデルの入力次元と出力次元が同じでなければならないことに注意してください。
この制約を考えると、画像拡散モデルの作成に U-Net のようなアーキテクチャが頻繁に使用されることは、おそらく予想外ではありません。
連続条件付きガウス分布を使用しながら、逆プロセスのルートに沿って多数の変更が行われます。 逆の手順の目的は、整数のピクセル値で構成される画像を作成することです。 したがって、すべてのピクセルにわたって各潜在的なピクセル値の離散 (対数) 尤度を決定することが必要です。
これは、逆拡散チェーンの最後の遷移に別のディスクリート デコーダを割り当てることによって実現されます。 特定の画像の可能性を推定する x0 与えられた x1。
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ x = 1 の場合 x + 1 255 x < 1 の場合 δ−(x) = −∞ x = −1 の場合 x − 1 x > −255 の場合 1
ここで、上付き文字 I は XNUMX つの座標の抽出を表し、D はデータの次元数を表します。
この時点での目的は、特定のピクセルの潜在的な値の分布が与えられたときに、そのピクセルの各整数値の可能性を確立することです t = 1。
最終目標
科学者によると、最大の結果は、特定のタイムステップでの画像のノイズ成分を予測することから得られました。 最終的に、彼らは次の目標を採用します。
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
次の図では、拡散モデルのトレーニングとサンプリングの手順が簡潔に示されています。
拡散モデルの利点
すでに指摘したように、拡散モデルに関する研究の量は最近倍増しています。 拡散モデルは最先端の画質を提供し、非平衡熱力学に着想を得ています。
拡散モデルは、敵対的訓練を必要としないなど、最先端の画質を持つことに加えて、他のさまざまな利点を提供します。
敵対的トレーニングの欠点は広く知られているため、同等のパフォーマンスとトレーニング効果を持つ非敵対的代替手段を選択することが望ましいことがよくあります。
拡散モデルは、トレーニングの有効性に関して、スケーラビリティと並列化の利点も提供します。
拡散モデルは一見何もないところから結果を生成するように見えますが、これらの結果の基礎は、多くの思慮深く興味深い数学的決定と微妙な点によって敷設されており、業界のベスト プラクティスはまだ開発中です。
まとめ
結論として、研究者は、非平衡熱力学からのアイデアによって動機付けられた潜在変数モデルのクラスである拡散確率モデルを利用して、高品質の画像合成の発見を示しています。
彼らは最先端の成果と非敵対的訓練のおかげで途方もないことを成し遂げてきました。
特に、拡散モデルは DALL-E 2 のような高度なモデルの機能にとって重要であることがわかっています。
ここに 完全な研究にアクセスできます。
コメントを残す