言語の認識と生成のために訓練された大規模なニューラルネットワークは、近年、さまざまなタスクで優れた結果を示しています。 GPT-3は、大規模な言語モデル(LLM)を数回の学習に使用でき、広範なタスク固有のデータやモデルパラメーターの変更を必要とせずに優れた結果を得ることができることを証明しました。
シリコンバレーのテクノロジーの巨人であるGoogleは、次世代のAI言語モデルとして、PaLM(Pathways Language Model)を世界中のテクノロジー業界に導入しました。 Googleは新しい 人工知能 AI言語モデルの品質を向上させることを戦略的に目的としたPaLMへのアーキテクチャ。
この投稿では、Palmアルゴリズムのトレーニングに使用されるパラメーター、解決する問題など、Palmアルゴリズムについて詳しく説明します。
何ですか GoogleのPaLMアルゴリズム?
経路言語モデルは何ですか 手のひら を意味する。 これは、PathwaysAIアーキテクチャを強化するためにGoogleが開発した新しいアルゴリズムです。 この構造の主な目標は、一度にXNUMX万の異なるアクティビティを実行することです。
これには、複雑なデータの解読から演繹的推論まで、あらゆるものが含まれます。 PaLMには、言語と推論のタスクにおいて、現在のAIの最先端および人間を凌駕する能力があります。
これには、人間が新しいことを学び、さまざまな知識を組み合わせて、これまでにない新しい課題に取り組む方法を模倣し、その知識のすべてを使用して新しい課題を解決できるマシンの利点を備えたFew-ShotLearningが含まれます。 PaLMのこのスキルの一例は、これまで聞いたことのないジョークを説明する能力です。
PaLMは、言語の理解と作成、多段階の算術コード関連のアクティビティ、常識的な推論、翻訳など、さまざまな困難なタスクで多くの画期的なスキルを示しました。
多言語NLPセットを使用して複雑な問題を解決する能力を実証しました。 PaLMは、世界中の技術市場で、原因と結果、概念の組み合わせ、個別のゲーム、およびその他の多くのものを区別するために使用できます。
また、多段階の論理的推論、深い言語、グローバルな知識、およびその他の手法を使用して、多くのコンテキストの詳細な説明を生成できます。
GoogleはどのようにしてPaLMアルゴリズムを開発しましたか?
PaLMでのGoogleの画期的なパフォーマンスのために、パスウェイは最大540億のパラメータにスケールアップするようにスケジュールされています。 これは、多数のドメインにわたって効率的かつ効果的に一般化できるXNUMXつのモデルとして認識されています。 GoogleのPathwaysは、アクセラレータ用の分散コンピューティングの開発に取り組んでいます。
PaLMは、Pathwaysシステムを使用してトレーニングされたデコーダーのみのトランスフォーマーモデルです。 Googleによると、PaLMは、いくつかのワークロードにわたって最先端の数ショットのパフォーマンスを達成することに成功しています。 PaLMは、Pathwaysシステムを使用して、トレーニングを最大のTPUベースのシステム構成(6144チップと呼ばれる)に初めて拡張しました。
AI言語モデルのトレーニングデータセットは、英語と他の多言語データセットの組み合わせで構成されています。 「ロスレス」ボキャブラリーには、高品質のWebコンテンツ、ディスカッション、書籍、GitHubコード、ウィキペディアなどが含まれています。 ロスレスボキャブラリは、空白を保持し、ボキャブラリにないUnicode文字をバイトに分割することで認識されます。
PaLMは、標準のトランスモデルアーキテクチャと、SwiGLUアクティベーション、並列レイヤー、RoPE埋め込み、共有入出力埋め込み、マルチクエリアテンションを含み、バイアスや語彙がないデコーダー構成を利用して、GoogleとPathwaysによって開発されました。 一方、PaLMは、GoogleとPathwaysのAI言語モデルの強固な基盤を提供する態勢を整えています。
PaLMのトレーニングに使用されるパラメーター
昨年、GoogleはPathwaysを立ち上げました。これは、数百万とまではいかなくても数千のことを実行するようにトレーニングできる単一のモデルです。これは、XNUMXつのことだけを実行するようにトレーニングするという既存のモデルの制限を克服できるため、「次世代AIアーキテクチャ」と呼ばれます。 。 多くの場合、現在のモデルの機能を拡張するのではなく、単一のジョブを実行するために新しいモデルをボトムアップで構築します。
その結果、彼らは何万もの異なる活動のために何万ものモデルを作成しました。 これは、時間とリソースを大量に消費するタスクです。
Googleは、Pathwaysを介して、XNUMXつのモデルでさまざまなアクティビティを処理し、現在の才能を活用して組み合わせて、新しいタスクをより迅速かつ効率的に学習できることを証明しました。
視覚、言語理解、聴覚処理をすべて同時に含むマルチモーダルモデルは、経路を通じて可能になる可能性があります。 Pathways Language Model(PaLM)は、4億のパラメーターモデルのおかげで、多数のTPUv540ポッドにわたる単一のモデルのトレーニングを可能にします。
高密度のデコーダーのみのTransformerモデルであるPaLMは、幅広いワークロードで最先端の数ショットのパフォーマンスを上回ります。 PaLMは、データセンターネットワーク(DCN)を介してリンクされている4つのTPUvXNUMXポッドでトレーニングされています。
モデルとデータの並列処理の両方を利用します。 研究者は、3072個のホストに接続されたPaLMの各ポッドに4個のTPUv768プロセッサを採用しました。 研究者によると、これはこれまでに開示された中で最大のTPU構成であり、パイプラインの並列処理を使用せずにトレーニングを拡張できます。
パイプライニングは、一般的にパイプラインを介してCPUから命令を収集するプロセスです。 モデルのレイヤーは、パイプラインモデルの並列処理(またはパイプラインの並列処理)を介して並列処理できるフェーズに分割されます。
あるステージがマイクロバッチのフォワードパスを完了すると、アクティベーションメモリが次のステップに送信されます。 次のステージが後方への伝播を完了すると、グラデーションは後方に送信されます。
PaLMの画期的な機能
PaLMは、さまざまな困難なタスクで画期的な能力を発揮します。 次にいくつかの例を示します。
1.言語の作成と理解
PaLMは、英語で29の異なるNLPタスクでテストされました。
数ショットベースで、PaLM 540Bは、オープンドメインのクローズドブックバリアントの質問応答タスクを含む3のタスクのうち28で、GLaM、GPT-29、Megatron-Turing NLG、Gopher、Chinchilla、LaMDAなどの以前の大型モデルを上回りました。 、クローズおよび文の完了タスク、Winogradスタイルのタスク、文脈内の読解タスク、常識的な推論タスク、SuperGLUEタスク、および自然な推論。
いくつかの大きなベンチタスクで、PaLMは優れた自然言語の通訳と生成のスキルを示します。 たとえば、モデルは原因と結果を区別し、特定の状況での概念的な組み合わせを理解し、絵文字から映画を推測することさえできます。 トレーニングコーパスのわずか22%が英語以外ですが、PaLMは、英語のNLPタスクに加えて、翻訳を含む多言語のNLPベンチマークで優れたパフォーマンスを発揮します。
2.推論
PaLMは、モデルサイズと思考の連鎖のプロンプトを組み合わせて、多段階の算術または常識的な推論を必要とする推論の課題に関する画期的なスキルを示します。
Gopherなどの以前のLLMは、パフォーマンスの向上という点でモデルサイズのメリットが少なかった。 思考の連鎖を促すPaLM540Bは、XNUMXつの算術データセットとXNUMXつの常識的な思考データセットでうまくいきました。
PaLMは、GPT-55 3Bモデルを175の問題のトレーニングセットで微調整し、外部の計算機および検証機能と組み合わせてGSM7500Kの問題の58%を解決することで得られた、以前の最高スコアである8%を上回っています。 8ショットのプロンプトを使用した、何千もの難しい小学校レベルの数学の質問のベンチマーク。
この新しいスコアは、60-9歳の人が経験した障害の平均12%に近づくため、特に注目に値します。 また、インターネットでは入手できないオリジナルのジョークにも対応できます。
3.コード生成
LLMは、自然言語の記述(テキストからコードへ)からのコードの生成、言語間のコードの変換、コンパイルエラーの解決など、コーディングタスクでもうまく機能することが示されています。 トレーニング前のデータセットには5%のコードしかありませんが、PaLM 540Bは、単一のモデルでコーディングと自然言語の両方のタスクでうまく機能します。
微調整されたCodex12Bと一致し、Pythonコードを50分のXNUMXに抑えてトレーニングできるため、その数ショットのパフォーマンスは驚くべきものです。 この発見は、複数のモデルからの学習をより効果的に転送できるため、大きなモデルは小さなモデルよりもサンプル効率が高いという以前の発見に裏付けられています。 プログラミング言語 と平易な言語データ。
まとめ
PaLMは、高密度デコーダーのみのTransformerモデルの十分に研究され、確立されたレシピを使用して4億のパラメーターモデルを効果的にトレーニングすることにより、540つのTPUvXNUMXポッドで数千のアクセラレータプロセッサーに拡張できるPathwaysシステムの能力を示しています。
モデルスケールの限界を押し上げることにより、自然言語処理、推論、コーディングの課題の範囲全体で画期的な数ショットのパフォーマンスを実現します。
コメントを残す