私たちは、新しいジェネレーティブ AI 革命の始まりにいる可能性があります。
生成的人工知能とは、コンテンツを作成できるアルゴリズムとモデルを指します。 このようなモデルの出力には、実際の人間の出力と誤解されることが多いテキスト、音声、および画像が含まれます。
などのアプリケーション AI言語モデルを活用してコードのデバッグからデータの異常検出まで、 ジェネレーティブ AI が単なる目新しさではないことを示しています。 AIは現在、詳細な指示に従うことができ、世界がどのように機能するかを深く理解しているようです.
しかし、どうやってここまでたどり着いたのでしょうか? このガイドでは、この新しいエキサイティングなジェネレーティブ AI 革命への道を開いた、AI 研究における重要なブレークスルーのいくつかについて説明します。
ニューラル ネットワークの台頭
現代の AI の起源は、次の研究にまで遡ることができます。 深層学習とニューラル ネットワーク 2012インチ
その年、トロント大学の Alex Krizhevsky と彼のチームは、オブジェクトを分類できる非常に正確なアルゴリズムを実現することができました。
最先端のニューラル ネットワーク現在 AlexNet として知られている は、次点者よりもはるかに低いエラー率で ImageNet ビジュアル データベース内のオブジェクトを分類することができました。
ニューラルネットワーク 数学関数のネットワークを使用して、トレーニング データに基づいて特定の動作を学習するアルゴリズムです。 たとえば、がんなどの病気を診断するようにモデルをトレーニングするために、ニューラル ネットワークの医療データをフィードできます。
ニューラル ネットワークがデータ内のパターンをゆっくりと見つけ、新しいデータが与えられるとより正確になることが期待されます。
AlexNet は、 たたみ込みニューラルネットワーク またはCNN。 「畳み込み」キーワードは、互いに近いデータをより重視する畳み込み層の追加を指します。
CNN は 1980 年代にすでに構想されていましたが、最新の GPU テクノロジによってテクノロジが新たな高みに押し上げられた 2010 年代初頭に人気が高まり始めました。
の分野における CNN の成功 コンピュータビジョン ニューラルネットワークの研究への関心が高まりました。
Google や Facebook などのテクノロジー大手は、独自の AI フレームワークを一般に公開することを決定しました。 などの高レベル API ケラス ディープ ニューラル ネットワークを試すための使いやすいインターフェイスをユーザーに提供しました。
CNN は、画像認識とビデオ分析には優れていましたが、言語ベースの問題を解決するには問題がありました。 画像とテキストは実際には根本的に異なる問題であるため、自然言語処理におけるこの制限が存在する可能性があります。
たとえば、画像に信号機が含まれているかどうかを分類するモデルがある場合、問題の信号機は画像のどこにでも現れる可能性があります。 しかし、この種の寛大さは言語ではうまく機能しません。 「Bob ate fish」と「Fish ate Bob」という文は、同じ単語を使用しているにもかかわらず、意味が大きく異なります。
研究者は、人間の言語に関係する問題を解決するための新しいアプローチを見つける必要があることが明らかになりました。
トランスフォーマーはすべてを変える
2017で、へ 研究論文 「Attention Is All You Need」というタイトルで、新しいタイプのネットワーク、トランスフォーマーを提案しました。
CNN は画像の小さな部分を繰り返しフィルタリングすることで機能しますが、トランスフォーマーはデータ内のすべての要素を他のすべての要素と結び付けます。 研究者はこのプロセスを「自己注意」と呼んでいます。
文を解析しようとするとき、CNN とトランスフォーマーの動作は大きく異なります。 CNN は、互いに近くにある単語との接続の形成に焦点を当てますが、トランスフォーマーは、文内のすべての単語間の接続を作成します。
自己注意プロセスは、人間の言語を理解する上で不可欠な部分です。 ズームアウトして文全体がどのように組み合わされているかを見ることで、機械は文の構造をより明確に理解できるようになります。
最初の Transformer モデルがリリースされると、研究者はすぐに新しいアーキテクチャを使用して、インターネット上にある膨大な量のテキスト データを利用しました。
GPT-3 とインターネット
2020 年、OpenAI の GPT-3 モデルは、変圧器がいかに効果的であるかを示しました。 GPT-3 は、人間とほとんど見分けがつかないようなテキストを出力できました。 GPT-3 が非常に強力になった理由の 400 つは、使用されるトレーニング データの量です。 モデルの事前トレーニング データセットのほとんどは、XNUMX 億を超えるトークンに付属する Common Crawl として知られるデータセットから取得されます。
リアルな人間のテキストを生成する GPT-3 の能力はそれ自体が画期的でしたが、研究者は同じモデルが他のタスクをどのように解決できるかを発見しました。
たとえば、ツイートの生成に使用できる同じ GPT-3 モデルは、テキストの要約、段落の書き直し、ストーリーの完成にも役立ちます。 言語モデル 非常に強力になったため、基本的にはあらゆるタイプのコマンドに従う汎用ツールになっています。
GPT-3 の汎用性により、次のようなアプリケーションが可能になりました。 GitHub コパイロット、 これにより、プログラマーは平易な英語から機能するコードを生成できます。
拡散モデル: テキストから画像へ
トランスフォーマーと NLP の進歩は、他の分野でのジェネレーティブ AI への道も開いています。
コンピューター ビジョンの分野では、ディープ ラーニングによって機械が画像を理解する方法について既に説明しました。 ただし、AI が画像を分類するだけでなく、画像自体を生成する方法を見つける必要がありました。
DALL-E 2、Stable Diffusion、Midjourney などの生成画像モデルは、テキスト入力を画像に変換できることから人気を博しています。
これらの画像モデルは、画像とテキストの関係を理解するモデルと、入力に一致する高解像度画像を実際に作成できるモデルという XNUMX つの重要な側面に依存しています。
OpenAI CLIP (Contrastive Language–Image Pre-training) は、最初の側面を解決することを目的としたオープンソース モデルです。 画像を指定すると、CLIP モデルはその特定の画像に最も関連性の高いテキスト説明を予測できます。
CLIP モデルは、重要な画像の特徴を抽出し、画像のより単純な表現を作成する方法を学習することによって機能します。
ユーザーがサンプル テキスト入力を DALL-E 2 に提供すると、入力は CLIP モデルを使用して「画像埋め込み」に変換されます。 ここでの目標は、生成された画像の埋め込みに一致する画像を生成する方法を見つけることです。
最新の画像生成 AI は、 拡散モデル 実際にイメージを作成するタスクに取り組みます。 拡散モデルは、画像から追加されたノイズを除去する方法を知るために事前にトレーニングされたニューラル ネットワークに依存しています。
このトレーニング プロセス中に、ニューラル ネットワークは最終的に、ランダム ノイズ画像から高解像度画像を作成する方法を学習できます。 CLIP によって提供されるテキストと画像のマッピングが既にあるので、次のことができます。 拡散モデルを訓練する CLIP 画像埋め込みで、任意の画像を生成するプロセスを作成します。
ジェネレーティブ AI 革命: 次に来るものは?
私たちは現在、ジェネレーティブ AI のブレークスルーが数日おきに起きているところまで来ています。 AI を使用してさまざまな種類のメディアを生成することがますます容易になっているため、これが私たちの社会にどのように影響するかを心配する必要がありますか?
蒸気機関の発明以来、労働者が機械に取って代わられるという懸念は常に話題に上っていましたが、今回は少し違うようです。
ジェネレーティブ AI は多目的ツールになりつつあり、AI の乗っ取りから安全と見なされていた業界を混乱させる可能性があります。
AI がいくつかの基本的な命令から完璧なコードを書き始めることができる場合、プログラマーが必要になるでしょうか? ジェネレーティブ モデルを使用して必要な出力をより安く生成できる場合、人々はクリエイティブを雇うでしょうか?
ジェネレーティブ AI 革命の未来を予測することは困難です。 しかし、比喩的なパンドラの箱が開かれた今、このテクノロジーが世界にプラスの影響を与えることができる、よりエキサイティングなイノベーションを可能にすることを願っています.
コメントを残す