あなたはおそらくコンピュータが絵を描くことができることを知っているでしょう。
たとえば、子供と遊んでいる犬の写真は、「犬と庭の子供」と翻訳できます。 しかし、逆の方法が現在も実行可能であることをご存知ですか? いくつかの単語を入力すると、マシンは新しい画像を生成します。
既存の写真を検索するGoogle検索とは異なり、これはすべて新鮮です。 近年、OpenAIは主要な組織のXNUMXつであり、驚くべき結果を報告しています。
彼らは、大規模なテキストおよび画像データベースでアルゴリズムをトレーニングします。 彼らは、何億枚もの写真でトレーニングされたGLIDE画像モデルに関する論文を発表しました。 フォトリアリズムの点では、以前の「DALL-E」モデルよりも優れています。
この投稿では、OpenAIのGLIDEについて説明します。これは、テキストガイド付き拡散モデルを使用してフォトリアリスティックな画像を作成および変更することを目的としたいくつかの魅力的なイニシアチブのXNUMXつです。 さぁ、始めよう。
何ですか AIグライドを開く?
ほとんどの画像は単語で説明できますが、テキスト入力から画像を作成するには、専門的な知識とかなりの時間が必要です。
AIエージェントが自然言語のプロンプトからフォトリアリスティックな画像を生成できるようにすることで、人々はこれまでにないほど簡単に豊かで多様な視覚素材を作成できるだけでなく、作成された画像をより簡単に反復的に改良し、きめ細かく制御することができます。
GLIDE を使用すると、自然言語テキスト プロンプトを利用して既存の写真を編集し、新しいオブジェクトを挿入したり、影や反射を作成したり、実行したりすることができます。 画像修復、などなど。
また、基本的な線画を写実的な写真に変えることができ、複雑な状況に対応する優れたゼロサンプルの製造および修理機能を備えています。
最近の研究では、特に多様性と忠実度のバランスをとるガイドアプローチと組み合わせると、尤度ベースの拡散モデルでも高品質の合成画像を生成できることが示されています。
OpenAIは 誘導拡散モデル これにより、分類子のラベルを条件として拡散モデルを使用できます。 GLIDE は、ガイド付き拡散をテキスト条件付き画像作成の問題に持ち込むことで、この成功を改善します。
テキストエンコーダーを使用して3.5億パラメーターのGLIDE拡散モデルをトレーニングし、自然言語の説明を条件付けた後、研究者はXNUMXつの代替ガイド戦略をテストしました。CLIPガイダンスと分類子なしのガイダンスです。
CLIPは、テキストと画像の共同表現を学習するためのスケーラブルな手法であり、画像がキャプションにどれだけ近いかに基づいてスコアを提供します。
チームは、モデルを「ガイド」するCLIPモデルで分類子を置き換えることにより、拡散モデルでこの戦略を使用しました。 一方、分類器なしのガイダンスは、個別の分類器のトレーニングを伴わない拡散モデルを指示するための戦略です。
GLIDEアーキテクチャ
GLIDEアーキテクチャは、64×64画像を生成するようにトレーニングされたAblated Diffusion Model(ADM)、テキストプロンプトを介して画像生成に影響を与えるテキストモデル(トランスフォーマー)、および小さな64×64を変換するアップサンプリングモデルの256つのコンポーネントで構成されます。より解釈しやすい256xXNUMXピクセルの画像。
最初のXNUMXつのコンポーネントは連携して画像生成プロセスを制御し、テキストプロンプトを適切に反映します。後者は、作成する画像を理解しやすくするために必要です。 GLIDEプロジェクトは、 2021年に発行されたレポート これは、ADM技術が、画像サンプルの品質に関して、現在人気のある最先端の生成モデルよりも優れていることを示しています。
ADMの場合、GLIDEの作成者はDhariwalおよびNicholと同じImageNet 64 x 64モデルを採用しましたが、512ではなく64チャネルを使用しました。この結果、ImageNetモデルには約2.3億のパラメーターがあります。
GLIDEチームは、DhariwalやNicholとは異なり、画像生成プロセスをより直接制御したいと考えていたため、ビジュアルモデルと注意を有効にするトランスフォーマーを組み合わせました。 GLIDEを使用すると、テキスト入力プロンプトを処理することにより、画像生成プロセスの出力をある程度制御できます。
これは、写真とキャプションの適切に大きなデータセット(DALL-Eプロジェクトで採用されているものと同様)でトランスフォーマーモデルをトレーニングすることによって実現されます。
テキストは、条件付けを行うために、最初に一連のKトークンにエンコードされます。 その後、トークンはトランスフォーマーモデルにロードされます。 トランスの出力は、XNUMXつの方法で使用できます。 ADMモデルの場合、クラス埋め込みの代わりに最終トークン埋め込みが使用されます。
次に、トークン埋め込みの最終レイヤー(一連の特徴ベクトル)は、ADMモデルの各アテンションレイヤーのディメンションに個別に投影され、各アテンションコンテキストに連結されます。
実際には、これにより、ADMモデルは、入力された単語とそれに関連する画像の理解に基づいて、類似したテキストトークンの新しい組み合わせから独自のフォトリアリスティックな方法で画像を生成できます。 このテキストエンコーディングトランスフォーマーには1.2億個のパラメーターが含まれ、幅24の2048個の残りのブロックを使用します。
最後に、アップサンプラー拡散モデルには約1.5億のパラメーターが含まれており、基本モデルと比較して、テキストエンコーダーが小さく、幅が1024および384ベースチャネルであるという点で基本モデルとは異なります。 このモデルは、その名前が示すように、機械と人間の両方の解釈可能性を向上させるために、サンプルのアップグレードを支援します。
拡散モデル
GLIDEは、独自のバージョンのADM(「ガイド付き」の場合はADM-G)を使用して画像を生成します。 ADM-Gモデルは、拡散U-netモデルを修正したものです。 拡散U-netモデルは、VAE、GAN、トランスなどのより一般的な画像合成技術とは劇的に異なります。
彼らは拡散ステップのマルコフ連鎖を構築してランダムノイズをデータに徐々に注入し、次に拡散プロセスを逆にして、ノイズのみから必要なデータサンプルを再構築することを学びます。 順拡散と逆拡散のXNUMX段階で動作します。
サンプルの真の分布からのデータポイントが与えられた前方拡散法は、事前設定された一連のステップにわたってサンプルに少量のノイズを追加します。 ステップのサイズが大きくなり、無限大に近づくと、サンプルは認識可能なすべての特性を失い、シーケンスは等方性のガウス曲線に似始めます。
後方拡散時 フェーズ、拡散モデル 元の入力サンプル分布に似せようとすることで、画像に追加されたノイズの影響を逆転させ、生成された画像を元の形状に戻すことを学習します。
完成したモデルは、実際のガウスノイズ入力とプロンプトを使用してこれを行うことができます。 ADM-Gの方法は、CLIPまたはカスタマイズされたトランスフォーマーのいずれかのモデルが、入力されたテキストプロンプトトークンを使用することによって後方拡散フェーズに影響を与えるという点で、前の方法とは異なります。
グライド機能
1.画像の生成
GLIDEの最も一般的で広く使用されている使用法は、おそらく画像合成でしょう。 写真は控えめで、GLIDEは動物や人間の形に問題がありますが、ワンショット画像の作成の可能性はほぼ無限です。
動物、有名人、風景、建物などの写真を作成でき、さまざまなアートスタイルで写真をリアルに作成できます。 研究者の著者は、以下のサンプルに見られるように、GLIDEはさまざまなテキスト入力を解釈して視覚形式に適合させることができると主張しています。
2.グライドインペインティング
GLIDEの自動写真修復は、間違いなく最も魅力的な使用法です。 GLIDEは、既存の写真を入力として取得し、変更が必要な場所のテキストプロンプトを念頭に置いて処理し、それらの部分に簡単にアクティブな変更を加えることができます。
さらに良い結果を得るには、SDEditなどの編集モデルと組み合わせて使用する必要があります。 将来的には、このような機能を利用するアプリは、コードフリーの画像変更アプローチを開発する上で重要になる可能性があります。
まとめ
プロセスを完了したので、GLIDEがどのように機能するかの基本と、画像の作成および画像内の変更におけるその機能の幅を理解する必要があります。
コメントを残す