強化学習: 間違いから学ぶ AI

目次[隠す][見せる]

強化学習とは
簡単な例: 4×4 グリッド+ -
- ポリシーと報酬
- 探査と搾取
実用化+ -
まとめ

ロボットに歩き方を教えようとしているとしましょう。コンピューターに株価の予測方法や画像の分類方法を教える場合とは異なり、ロボットのトレーニングに使用できる大規模なデータセットは実際にはありません。

当たり前のことかもしれませんが、歩くことは実際には非常に複雑な動作です。通常、XNUMX 歩歩くには、何十もの異なる筋肉が連携して働きます。ある場所から別の場所に歩くために使用される労力とテクニックは、何かを持っているかどうか、傾斜やその他の障害物があるかどうかなど、さまざまな要因によっても異なります。

このようなシナリオでは、強化学習または RL と呼ばれる方法を使用できます。 RL を使用すると、モデルで解決する特定の目標を定義し、それを達成する方法をモデルに徐々に学習させることができます。

この記事では、強化学習の基本と、実世界のさまざまな問題に RL フレームワークを適用する方法について説明します。

強化学習とは

強化学習は、特定のサブセットを指します機械学習望ましい行動には報酬を与え、望ましくない行動には罰を与えることで解決策を見つけることに焦点を当てています。

強化学習フレームワークの図

教師あり学習とは異なり、強化学習法には通常、特定の入力に対して適切な出力を提供するトレーニングデータセットがありません。トレーニングデータがない場合、アルゴリズムは試行錯誤を通じて解決策を見つけなければなりません。通常、アルゴリズムと呼ばれる エージェント、と相互作用することによって、それ自体で解決策を見つけなければなりません環境.

研究者は、特定の結果をどのようにするかを決定します 報いる そしてアルゴリズムができること。毎日 アクション アルゴリズムは、アルゴリズムがどれだけうまく機能しているかをスコアリングする何らかの形式のフィードバックを受け取ります。トレーニングプロセス中に、アルゴリズムは最終的に特定の問題を解決するための最適なソリューションを見つけます。

簡単な例: 4×4 グリッド

強化学習で解決できる問題の簡単な例を見てみましょう。

環境として 4×4 グリッドがあるとします。エージェントは、いくつかの障害物とともに正方形の XNUMX つにランダムに配置されます。グリッドには、回避しなければならない XNUMX つの「ピット」障害物と、エージェントが見つけなければならない XNUMX つの「ダイヤモンド」報酬が含まれます。私たちの環境の完全な説明は、環境の状態.

強化学習は、シミュレートされた環境と対話するエージェントに依存しています

RL モデルでは、エージェントは障害物がない限り、隣接する任意の正方形に移動できます。特定の環境で有効なすべてのアクションのセットは、 アクションスペース. エージェントの目標は、報酬への最短経路を見つけることです。

エージェントには、特定の状態でアクションスペースまたは一連の有効なアクションがあります。

私たちのエージェントは、強化学習法を使用して、必要なステップ数が最も少ないダイヤモンドへのパスを見つけます。正しいステップごとにロボットに報酬が与えられ、間違ったステップごとにロボットの報酬が差し引かれます。エージェントがダイヤモンドに到達すると、モデルは総報酬を計算します。

エージェントと環境を定義したので、現在の状態と環境に基づいてエージェントが実行する次のアクションを決定するために使用するルールも定義する必要があります。

ポリシーと報酬

強化学習モデルでは、方針エージェントが目標を達成するために使用する戦略を指します。エージェントのポリシーは、エージェントとその環境の現在の状態を考慮して、エージェントが次に何をすべきかを決定するものです。

エージェントは、考えられるすべてのポリシーを評価して、最適なポリシーを確認する必要があります。

ポリシーの評価

この単純な例では、空のスペースに着陸すると値 -1 が返されます。エージェントがダイヤモンド報酬のあるスペースに着陸すると、10 の値を受け取ります。これらの値を使用して、異なるポリシーを比較できます。 効用関数 U.

上記の XNUMX つのポリシーの有用性を比較してみましょう。

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

結果は、ポリシー A が報酬を見つけるためのより良いパスであることを示しています。したがって、エージェントはポリシー B よりもパス A を使用します。

探査と搾取

強化学習における探索と利用のトレードオフの問題は、意思決定プロセス中にエージェントが直面しなければならないジレンマです。

エージェントは新しい道や選択肢を探すことに集中すべきですか、それとも既に知っている選択肢を引き続き活用すべきですか?

エージェントが調査することを選択した場合、エージェントがより良いオプションを見つける可能性はありますが、時間とリソースを浪費するリスクもある可能性があります。一方、エージェントが既に知っているソリューションを利用することを選択した場合、より良いオプションを見逃す可能性があります。

実用化

ここにいくつかの方法があります AI研究者実世界の問題を解決するために強化学習モデルを適用しています。

自動運転車における強化学習

安全かつ効率的に運転する能力を向上させるために、強化学習が自動運転車に適用されています。この技術により、自動運転車は過ちから学び、パフォーマンスを最適化するために継続的に動作を調整することができます。

自動運転に使われる強化学習

たとえば、ロンドンを拠点とする AI 企業ウェイブ自動運転に深層強化学習モデルを適用することに成功しました。彼らの実験では、ドライバーの入力なしで車両が走行する時間を最大化する報酬関数を使用しました。

RL モデルは、自動車が障害物を回避する、交通に合流するなど、環境に基づいて決定を下すのにも役立ちます。これらのモデルは、車を取り巻く複雑な環境をモデルが理解できる代表的な状態空間に変換する方法を見つけなければなりません。

ロボティクスにおける強化学習

また、研究者は強化学習を使用して、複雑なタスクを学習できるロボットを開発しています。これらの RL モデルを通じて、ロボットは環境を観察し、観察に基づいて決定を下すことができます。

たとえば、強化学習モデルを使用して二足歩行ロボットが次のことを学習できるようにする研究が行われています。歩く自分自身で。

ロボットに歩行を教える強化学習

研究者は、RL がロボット工学の分野における重要な方法であると考えています。強化学習は、ロボットエージェントに、他の方法では設計が困難な高度なアクションを学習するためのフレームワークを提供します。

ゲームにおける強化学習

RL モデルは、ビデオゲームのプレイ方法を学習するためにも使用されています。エージェントは、自分の過ちから学び、ゲームでのパフォーマンスを継続的に向上させるように設定できます。

研究者は、チェス、囲碁、ポーカーなどのゲームをプレイできるエージェントをすでに開発しています。 2013年に、ディープマインド深層強化学習を使用して、モデルが Atari ゲームをゼロからプレイする方法を学習できるようにしました。

多くのボードゲームやビデオゲームでは、限られたアクションスペースと明確に定義された具体的な目標があります。これらの特性は、RL モデルの利点として機能します。 RL メソッドは、何百万ものシミュレートされたゲームをすばやく反復して、勝利を達成するための最適な戦略を学習できます。

まとめ

歩き方の学習であろうと、ビデオゲームのプレイ方法の学習であろうと、RL モデルは、複雑な意思決定を必要とする問題を解決するための有用な AI フレームワークであることが証明されています。

技術が進化し続けるにつれて、研究者と開発者の両方が、モデルの独学能力を利用する新しいアプリケーションを見つけ続けるでしょう。

強化学習はどのような実用的なアプリケーションに役立つと思いますか?

強化学習: 間違いから学ぶ AI

強化学習とは