近年、深層学習モデルは、人間の言語を理解する上でより効果的になっています。
次のようなプロジェクトを考えてください GPT-3、記事全体とウェブサイトを作成できるようになりました。 GitHubは最近導入しました GitHubコパイロットは、必要なコードの種類を説明するだけでコード スニペット全体を提供するサービスです。
OpenAI、Facebook、および Google の研究者は、画像のキャプションという別のタスクを処理するためにディープ ラーニングを使用する方法に取り組んできました。 何百万ものエントリを含む大規模なデータセットを使用して、彼らはいくつかを考え出しました 驚くべき 結果.
最近、これらの研究者は、キャプションから画像を作成するという反対のタスクを実行しようとしました。 説明からまったく新しいイメージを作成することは可能になりましたか?
このガイドでは、テキストから画像への最も高度な 2 つのモデル、OpenAI の DALL-E XNUMX と Google の Imagen AI について説明します。 これらのプロジェクトはそれぞれ、私たちが知っている社会を変える可能性のある画期的な方法を導入しています。
しかし、まず、テキストから画像への生成が何を意味するのかを理解しましょう。
テキストから画像への生成とは
テキストから画像へのモデル コンピュータがプロンプトに基づいて新しい一意のイメージを作成できるようにします。 ユーザーは、作成したい画像の説明をテキストで入力できるようになりました。モデルは、その説明にできるだけ近いビジュアルを作成しようとします。
機械学習モデルは、画像とキャプションのペアを含む大規模なデータセットの使用を活用して、パフォーマンスをさらに向上させました。
ほとんどのテキストから画像へ モデルは変換言語モデルを使用します プロンプトを解釈します。 このタイプのモデルは、 ニューラルネットワーク 自然言語の文脈と意味を学ぼうとするものです。
次に、次のような生成モデル 拡散モデル 画像合成には敵対的生成ネットワークが使用されます。
ダル2とは?
DALL-E2 は、2022 年 XNUMX 月にリリースされた OpenAI によるコンピューター モデルです。モデルは、単語やフレーズを画像に関連付けるために、何百万ものラベル付き画像のデータベースでトレーニングされました。
ユーザーが「ラザニアを食べる猫」などの簡単なフレーズを入力すると、DALL-E 2 はそのフレーズが何を表現しようとしているのかを独自に解釈します。
ゼロから画像を作成するだけでなく、DALL-E 2 は既存の画像を編集することもできます。 以下の例では、DALL-E はソファが追加された部屋の修正された画像を生成することができました。
DALL-E 2 は、OpenAI が過去数年間にリリースした多くの同様のプロジェクトの 3 つにすぎません。 OpenAI の GPT-XNUMX は、さまざまなスタイルのテキストを生成するように見えたときに話題になりました。
現在、DALL-E 2 はまだベータ テスト中です。 興味のあるユーザーはサインアップできます 順番待ちリスト そしてアクセスを待ちます。
それがどのように動作しますか?
DALL-E 2 の結果は印象的ですが、すべてがどのように機能するのか疑問に思われるかもしれません.
DALL-E 2 は、OpenAI の GPT-3 プロジェクトのマルチモーダル実装の例です。
最初に、ユーザーのテキスト プロンプトは、プロンプトを表現空間にマップするテキスト エンコーダーに配置されます。 DALL-E 2 は、CLIP (Contrastive Language-Image Pre-Training) と呼ばれる別の OpenAI モデルを使用して、自然言語から意味情報を取得します。
次に、と呼ばれるモデル 事前の テキストエンコーディングを画像エンコーディングにマップします。 この画像エンコーディングでは、テキスト エンコーディング ステップで見つかったセマンティック情報をキャプチャする必要があります。
実際の画像を作成するために、DALL-E 2 は画像デコーダを使用して、セマンティック情報と画像エンコードの詳細を使用してビジュアルを生成します。 OpenAI は、 グライド 画像生成を行うモデル。 GLIDE は 拡散モデル イメージを作成します。
DALL-E 2 モデルに GLIDE が追加されたことで、よりフォトリアリスティックな出力が可能になりました。 GLIDE モデルは確率的またはランダムに決定されるため、DALL-E 2 モデルはモデルを何度も実行することで簡単にバリエーションを作成できます。
制限事項
DALL-E 2 モデルの印象的な結果にもかかわらず、まだいくつかの制限に直面しています。
テキストのスペル
DALL-E 2 にテキストを生成させようとするプロンプトは、単語のつづりが難しいことを明らかにします。 専門家は、スペル情報が トレーニングデータセット.
構成的推論
研究者は、DALL-E 2 が構成論的推論にまだいくらかの困難を抱えていることを観察しています。 簡単に言えば、モデルは画像の個々の側面を理解できますが、これらの側面間の関係を理解するのは困難です。
たとえば、「青い立方体の上に赤い立方体」というプロンプトが表示された場合、DALL-E は正確に青い立方体と赤い立方体を生成しますが、それらを正しく配置することはできません。 このモデルは、特定の数のオブジェクトを引き出す必要があるプロンプトに問題があることも観察されています。
データセットのバイアス
プロンプトに他の詳細が含まれていない場合、DALL-E は白人または西洋人および環境を描写していることが観察されています。 この表現上の偏りは、データセットに西洋中心の画像が豊富にあるために発生します。
このモデルは、性別の固定観念に従うことも観察されています。 たとえば、プロンプト「客室乗務員」と入力すると、主に女性の客室乗務員の画像が生成されます。
Google Imagen AI とは
Googleの イメージン AI 入力テキストから写実的な画像を作成することを目的としたモデルです。 DALL-E と同様に、このモデルも変換言語モデルを使用してテキストを理解し、拡散モデルの使用に依存して高品質の画像を作成します。
Imagen と並んで、Google は DrawBench と呼ばれるテキストから画像へのモデルのベンチマークもリリースしました。 DrawBench を使用して、人間の評価者が DALL-E 2 を含む他のモデルよりも Imagen 出力を好むことを観察できました。
それがどのように動作しますか?
DALL-E と同様に、Imagen はまず、凍結されたテキスト エンコーダーを介して、ユーザー プロンプトをテキスト埋め込みに変換します。
Imagen は、ノイズのパターンを画像に変換する方法を学習する拡散モデルを使用します。 これらの画像の最初の出力は低解像度であり、後で超解像拡散モデルと呼ばれる別のモデルに渡されて、最終画像の解像度が向上します。 最初の拡散モデルは 64×64 ピクセルの画像を出力し、後で高解像度の 1024×1024 画像に拡大されます。
Imagen チームの調査によると、テキスト データのみでトレーニングされた大規模な凍結言語モデルは、依然としてテキストから画像への生成に非常に効果的なテキスト エンコーダーです。
この研究では、動的しきい値処理の概念も導入されています。 この方法では、画像の生成時にガイダンスの重みを増やすことで、画像をより写実的に見せることができます。
DALLE 2 と Imagen のパフォーマンス
Google のベンチマークの予備的な結果によると、人間の回答者は、DALL-E 2 や、潜在拡散や VQGAN+CLIP などの他のテキストから画像へのモデルよりも、Imagen によって生成された画像を好むことが示されています。
Imagen チームからの出力は、彼らのモデルが DALL-E 2 モデルの既知の弱点であるテキストのスペリングでより優れたパフォーマンスを発揮することも示しています。
ただし、Google はまだモデルを公開していないため、Google のベンチマークがどれほど正確かはまだわかりません。
まとめ
フォトリアリスティックなテキストから画像へのモデルの台頭は、これらのモデルが非倫理的な使用の機が熟しているため、物議を醸しています。
この技術は、露骨なコンテンツの作成につながるか、偽情報のツールとして使用される可能性があります。 Google と OpenAI の両方の研究者はこのことを認識しており、これらのテクノロジがまだ誰もが利用できるわけではない理由の XNUMX つです。
テキストから画像へのモデルは、経済的にも重要な意味を持ちます。 DALL-E のようなモデルが主流になった場合、モデル、写真家、アーティストなどの職業は影響を受けますか?
現時点では、これらのモデルにはまだ制限があります。 AIが生成した画像を精査すると、その欠陥が明らかになります。 OpenAI と Google の両方が最も効果的なモデルをめぐって競合しているため、真に完璧な出力、つまり本物と見分けがつかない画像が生成されるのは時間の問題かもしれません。
テクノロジーがそこまで進んだらどうなると思いますか?
コメントを残す