目次[隠す][見せる]
ChatGPT は注目すべき人工知能言語モデルです。 私たちは皆、さまざまなタスクで私たちを支援するためにそれを使用しています。
人間のように見える応答を生成するようにどのように訓練されているか疑問に思ったことはありませんか? この記事では、ChatGPT のトレーニングについて説明します。
それがどのようにして最も優れたもののXNUMXつに進化したかを説明します 言語モデル. ChatGPT の興味深い世界を探索しながら、発見の旅に出かけましょう。
研修概要
ChatGPT は自然言語処理モデルです。
ChatGPT を使用すると、インタラクティブな対話や人間のような議論を行うことができます。 と同様のアプローチを採用しています。 GPTに指示する、最先端の言語モデルです。 ChatGPT の少し前に開発されました。
より魅力的な方法を採用しています。 これにより、自然なユーザー操作が可能になります。 そのため、チャットボットや仮想アシスタントなどのさまざまなアプリケーションに最適なツールです.
ChatGPT のトレーニング手順は多段階プロセスです。 Generative Pretraining は、ChatGPT のトレーニングの最初のステップです。
このフェーズでは、大量のテキスト データ コーパスを使用してモデルをトレーニングします。 次に、モデルは、自然言語に見られる統計的な相関関係とパターンを発見します。 したがって、文法的に正確で首尾一貫した応答を得ることができます。
次に、監視された微調整の手順に従います。 この部分では、モデルは特定のタスクでトレーニングされます。 たとえば、言語の翻訳や質問への回答を実行できます。
最後に、ChatGPT は人間のフィードバックから学習する報酬を使用します。
それでは、これらの手順を調べてみましょう。
ジェネレーティブ プレトレーニング
トレーニングの初期レベルはジェネレーティブ プレトレーニングです。 これは、言語モデルをトレーニングするための一般的な方法です。 トークン シーケンスを作成するために、このメソッドは「次のステップの予測パラダイム」を適用します。
どういう意味ですか?
各トークンは一意の変数です。 それらは単語または単語の一部を表します。 モデルは、その前の単語を考慮して、次に来る可能性が最も高い単語を決定しようとします。 シーケンス内のすべての項にわたる確率分布を使用します。
言語モデルの目的は、トークン シーケンスを構築することです。 これらのシーケンスは、人間の言語のパターンと構造を表す必要があります。 これは、膨大な量のテキスト データでモデルをトレーニングすることで可能になります。
次に、このデータを使用して、単語が言語内でどのように分布するかを理解します。
トレーニング中、モデルは確率分布パラメーターを変更します。
また、テキスト内の単語の予想分布と実際の分布の差を縮めようとします。 これは、損失関数を使用することで可能になります。 損失関数は、予想される分布と実際の分布の差を計算します。
自然言語処理 & コンピュータビジョン Generative Pretraining を使用する分野の XNUMX つです。
アライメントの問題
アライメントの問題は、Generative Pretraining の難しさの XNUMX つです。 これは、モデルの確率分布を実際のデータの分布に一致させることの難しさを指します。
言い換えれば、モデルの生成された回答は、より人間に似ている必要があります。
モデルは、予期しない、または不適切な応答を返す場合があります。 また、これは、トレーニング データのバイアスやモデルのコンテキスト認識の欠如など、さまざまな原因によって引き起こされる可能性があります。 言語モデルの品質を向上させるには、アラインメントの問題に対処する必要があります。
この問題を克服するために、ChatGPT などの言語モデルは微調整技術を採用しています。
監視付き微調整
ChatGPT トレーニングの XNUMX 番目の部分は、教師による微調整です。 人間の開発者は、この時点で対話を行い、人間のユーザーとチャットボットの両方の役割を果たします。
これらの講演は記録され、データセットに集約されます。 各トレーニング サンプルには、「チャットボット」として機能する人間の開発者の次の回答と一致する個別の会話履歴が含まれています。
教師あり微調整の目的は、モデルによって関連付けられた回答の一連のトークンに割り当てられる確率を最大化することです。 この方法は、「模倣学習」または「行動クローニング」として知られています。
このようにして、モデルはより自然に聞こえる一貫した応答を提供することを学習できます。 それは、人間の請負業者によって与えられた応答を複製しています。
教師付き微調整では、言語モデルを特定のタスクに合わせて調整できます。
例を挙げましょう。 映画のおすすめを提供するようにチャットボットに教えたいとします。 映画の説明に基づいて映画の評価を予測するように言語モデルをトレーニングします。 そして、映画の説明と評価のデータセットを使用します。
アルゴリズムは最終的に、映画のどの側面が高評価または低評価に対応するかを突き止めます。
トレーニングが完了したら、モデルを使用して人間のユーザーに映画を提案できます。 ユーザーが好きな映画について説明すると、チャットボットは洗練された言語モデルを使用して、それに匹敵するより多くの映画を推奨します。
監督上の制限: 分配シフト
教師あり微調整は、指定された目標を実行するように言語モデルを教えることです。 これは、モデルに データセット そして、それをトレーニングして予測を行います。 ただし、このシステムには「監視制限」と呼ばれる制限があります。
その制約の一つが「流通シフト」です。 これは、トレーニング データが、モデルが遭遇する入力の実際の分布を正確に反映していない可能性があることを示しています。
先ほどの例を見てみましょう。 映画の提案の例では、モデルのトレーニングに使用されるデータセットは、チャットボットが遭遇するさまざまな映画やユーザーの好みを正確に反映していない可能性があります。 チャットボットは、期待どおりに機能しない可能性があります。
その結果、トレーニング中に観察されたものとは異なる入力を満たします。
教師あり学習の場合、モデルが特定のインスタンス セットでのみトレーニングされると、この問題が発生します。
さらに、強化学習を使用して新しいコンテキストに適応し、その間違いから学習するのに役立つ場合、モデルは分布の変化に直面してもより優れたパフォーマンスを発揮する可能性があります。
好みに基づいて、学習に報酬を与える
報酬学習は、チャットボットの開発における XNUMX 番目のトレーニング段階です。 報酬学習では、モデルは報酬信号を最大化するように教えられます。
モデルがどれだけ効果的に仕事を遂行しているかを示すスコアです。 報酬シグナルは、モデルの返信を評価または評価する人々からの入力に基づいています。
報酬学習は、人間のユーザーが好む高品質の返信を生成するチャットボットを開発することを目的としています。 これを行うために、と呼ばれる機械学習技術 強化学習—フィードバックからの学習を含む 報酬の形で—モデルのトレーニングに使用されます。
チャットボットは、たとえば、報酬学習中に提供されるタスクの現在の把握に応じて、ユーザーの問い合わせに回答します。 人間の審査員が返信を評価した後、チャットボットのパフォーマンスに基づいて報酬シグナルが与えられます。
この報酬信号は、チャットボットが設定を変更するために使用されます。 そして、それはタスクパフォーマンスを向上させます。
報酬学習に関するいくつかの制限
報酬学習の欠点は、報酬信号がまばらで遅延する可能性があるため、チャットボットの返信に対するフィードバックがしばらく届かない可能性があることです。 その結果、チャットボットが特定の返信に対するフィードバックを受け取るのはかなり後になるため、チャットボットのトレーニングを成功させるのは難しい場合があります。
もう XNUMX つの問題は、人間の審査員は、成功した応答を行うものについてさまざまな見解や解釈を持っている可能性があり、報酬シグナルに偏りが生じる可能性があることです。 これを軽減するために、より信頼性の高い報酬シグナルを配信するために、複数のジャッジによって頻繁に使用されます。
未来は何を保持しますか?
ChatGPT のパフォーマンスをさらに強化するために、いくつかの潜在的な将来のステップがあります。
モデルの理解度を高めるために、将来的に考えられる XNUMX つの方法は、より多くのトレーニング データセットとデータ ソースを含めることです。 非テキスト入力を理解し、考慮するモデルの能力を強化することも可能です。
たとえば、言語モデルはビジュアルやサウンドを理解できます。
特定のトレーニング手法を組み込むことで、ChatGPT は特定のタスクに対して改善することもできます。 たとえば、次のことができます。 感情分析 または自然言語生成。 結論として、ChatGPT と関連する言語モデルは、進歩する大きな可能性を示しています。
コメントを残す