強化學習：從錯誤中學習的 AI

目錄[隱藏][顯示]

什麼是強化學習？
一個簡單的例子：4×4 網格+ -
- 政策與獎勵
- 探索與開發
實際應用+ -
結論

假設您正在嘗試教機器人如何走路。與教計算機如何預測股票價格或對圖像進行分類不同，我們實際上並沒有可用於訓練機器人的大型數據集。

雖然這對您來說可能很自然，但步行實際上是一個非常複雜的動作。走一步通常需要幾十塊不同的肌肉一起工作。從一個地方步行到另一個地方所用的力氣和技巧也取決於多種因素，包括您是否背著東西，是否有斜坡或其他形式的障礙物。

在這種情況下，我們可以使用一種稱為強化學習或 RL 的方法。使用 RL，您可以定義一個您希望模型解決的特定目標，並逐漸讓模型自行學習如何完成它。

在本文中，我們將探討強化學習的基礎知識以及如何將 RL 框架應用於現實世界中的各種不同問題。

什麼是強化學習？

強化學習指的是特定的子集機器學習它著重於通過獎勵期望的行為和懲罰不期望的行為來找到解決方案。

強化學習框架圖

與監督學習不同，強化學習方法通常沒有為給定輸入提供正確輸出的訓練數據集。在沒有訓練數據的情況下，算法必須通過反複試驗找到解決方案。該算法，我們通常將其稱為 代理人，必須通過與環境.

研究人員決定什麼特定的結果獎勵以及算法能夠做什麼。每一個行動算法將收到某種形式的反饋，對算法的執行情況進行評分。在訓練過程中，算法最終會找到解決某個問題的最優解。

一個簡單的例子：4×4 網格

讓我們看一個我們可以用強化學習解決的問題的簡單例子。

假設我們有一個 4×4 的網格作為我們的環境。我們的代理被隨機放置在其中一個方塊中，並帶有一些障礙物。網格應包含三個必須避免的“坑”障礙和代理人必須找到的一個“鑽石”獎勵。對我們環境的完整描述稱為環境的為.

強化學習依賴於與模擬環境交互的代理

在我們的 RL 模型中，只要沒有障礙物阻擋，我們的智能體就可以移動到任何相鄰的方塊。給定環境中所有有效操作的集合稱為 動作空間. 我們代理的目標是找到通往獎勵的最短路徑。

代理在給定狀態下有一個動作空間或一組有效動作

我們的智能體將使用強化學習方法找到需要最少步數的通往鑽石的路徑。每走對一步都會給機器人獎勵，每走錯一步都會減去機器人的獎勵。一旦代理到達鑽石，模型就會計算總獎勵。

現在我們已經定義了代理和環境，我們還必須定義用於確定代理在給定其當前狀態和環境的情況下將採取的下一個操作的規則。

政策與獎勵

在強化學習模型中，政策是指代理人為實現其目標而使用的策略。代理的策略決定代理在給定代理及其環境的當前狀態下下一步應該做什麼。

代理必須評估所有可能的策略以查看哪個策略是最優的。

評估政策

在我們的簡單示例中，降落在空白區域將返回值 -1。當智能體降落在帶有鑽石獎勵的空間時，他們將獲得 10 的值。使用這些值，我們可以使用 實用功能 U.

現在讓我們比較上面看到的兩個策略的效用：

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

結果表明，策略 A 是獲得獎勵的更好途徑。因此，代理將使用路徑 A 而不是策略 B。

探索與開發

強化學習中的探索與利用權衡問題是智能體在決策過程中必鬚麵對的兩難選擇。

代理人應該專注於探索新的路徑或選項，還是應該繼續利用他們已經知道的選項？

如果智能體選擇探索，則智能體有可能找到更好的選擇，但也可能會浪費時間和資源。另一方面，如果代理選擇利用它已知的解決方案，它可能會錯過更好的選擇。

實際應用

這裡有一些方法人工智能研究人員已應用強化學習模型來解決現實世界的問題：

自動駕駛汽車中的強化學習

強化學習已應用於自動駕駛汽車，以提高其安全高效駕駛的能力。該技術使自動駕駛汽車能夠從錯誤中吸取教訓並不斷調整其行為以優化其性能。

用於自動駕駛的強化學習

例如，位於倫敦的 AI 公司韋韋已成功將深度強化學習模型應用於自動駕駛。在他們的實驗中，他們使用了一個獎勵函數來最大化車輛在沒有駕駛員提供輸入的情況下運行的時間。

RL 模型還可以幫助汽車根據環境做出決策，例如避開障礙物或匯入車流。這些模型必須找到一種方法，將汽車周圍的複雜環境轉換為模型可以理解的代表性狀態空間。

機器人強化學習

研究人員也一直在使用強化學習來開發可以學習複雜任務的機器人。通過這些 RL 模型，機器人能夠觀察他們的環境並根據他們的觀察做出決定。

例如，已有研究使用強化學習模型讓雙足機器人學習如何走他們自己。

強化學習教機器人走路

研究人員認為 RL 是機器人領域的關鍵方法。強化學習為機器人代理提供了一個框架來學習可能難以設計的複雜動作。

遊戲中的強化學習

RL 模型也被用於學習如何玩電子遊戲。可以設置代理從他們的錯誤中學習並不斷提高他們在遊戲中的表現。

研究人員已經開發出可以玩國際象棋、圍棋和撲克等遊戲的智能體。 2013年， DeepMind 使用深度強化學習讓模型從頭開始學習如何玩 Atari 遊戲。

許多棋盤遊戲和視頻遊戲都有有限的動作空間和明確定義的具體目標。這些特徵對 RL 模型有利。 RL 方法可以快速迭代數百萬個模擬遊戲，以學習獲得勝利的最佳策略。

結論

無論是學習如何走路還是學習如何玩視頻遊戲，RL 模型已被證明是有用的 AI 框架，可用於解決需要復雜決策的問題。

隨著技術的不斷發展，研究人員和開發人員都將繼續尋找利用模型自學能力的新應用。

您認為強化學習可以幫助哪些實際應用？

強化學習：從錯誤中學習的人工智能

什麼是強化學習？