강화 학습: 실수로부터 배우는 AI

차례[숨다][보여 주다]

강화 학습이란 무엇입니까?
간단한 예: 4×4 그리드+-
- 정책 및 보상
- 탐색 대 착취
실제 응용 프로그램+-
결론

로봇에게 걷는 법을 가르치려고 한다고 상상해 봅시다. 주가를 예측하거나 이미지를 분류하는 방법을 컴퓨터에게 가르치는 것과는 달리 로봇을 훈련시키는 데 사용할 수 있는 대규모 데이터 세트가 실제로는 없습니다.

자연스럽게 느껴질 수 있지만 걷기는 실제로 매우 복잡한 동작입니다. 한 걸음을 걷는 것은 일반적으로 수십 개의 서로 다른 근육이 함께 작용하는 것과 관련이 있습니다. 한 장소에서 다른 장소로 걸어가는 데 사용되는 노력과 기술은 또한 여러분이 물건을 들고 있는지, 경사가 있거나 다른 형태의 장애물이 있는지 등 다양한 요인에 따라 달라집니다.

이와 같은 시나리오에서는 강화 학습 또는 RL이라는 방법을 사용할 수 있습니다. RL을 사용하면 모델이 해결하고자 하는 특정 목표를 정의하고 점차적으로 모델이 이를 달성하는 방법을 스스로 학습하도록 할 수 있습니다.

이 기사에서는 강화 학습의 기본 사항과 현실 세계의 다양한 문제에 RL 프레임워크를 적용하는 방법을 살펴봅니다.

강화 학습이란 무엇입니까?

강화 학습은 특정 하위 집합을 참조합니다. 기계 학습 바람직한 행동에 대한 보상과 바람직하지 않은 행동에 대한 처벌을 통해 해결책을 찾는 데 중점을 둡니다.

강화 학습 프레임워크 다이어그램

지도 학습과 달리 강화 학습 방법에는 일반적으로 주어진 입력에 대해 올바른 출력을 제공하는 훈련 데이터 세트가 없습니다. 학습 데이터가 없는 경우 알고리즘은 시행착오를 통해 솔루션을 찾아야 합니다. 우리가 흔히 말하는 알고리즘은 대리인, 와 상호 작용하여 스스로 해결책을 찾아야 합니다. 환경.

연구원은 어떤 특정 결과에 대해 결정합니다. 보상 알고리즘이 무엇을 할 수 있는지. 모든 동작 알고리즘은 알고리즘이 얼마나 잘 수행되고 있는지 점수를 매기는 일종의 피드백을 받습니다. 학습 과정에서 알고리즘은 결국 특정 문제를 해결하기 위한 최적의 솔루션을 찾습니다.

간단한 예: 4×4 그리드

강화 학습으로 해결할 수 있는 문제의 간단한 예를 살펴보겠습니다.

환경으로 4×4 그리드가 있다고 가정합니다. 에이전트는 몇 가지 장애물과 함께 사각형 중 하나에 무작위로 배치됩니다. 그리드에는 피해야 하는 XNUMX개의 "구덩이" 장애물과 에이전트가 찾아야 하는 단일 "다이아몬드" 보상이 포함됩니다. 우리 환경에 대한 완전한 설명은 환경의 상태.

강화 학습은 시뮬레이션된 환경과 상호 작용하는 에이전트에 의존합니다.

RL 모델에서 에이전트는 장애물이 없는 한 인접한 사각형으로 이동할 수 있습니다. 주어진 환경에서 유효한 모든 행동의 집합을 행동 공간. 에이전트의 목표는 보상에 이르는 최단 경로를 찾는 것입니다.

에이전트는 주어진 상태에서 행동 공간 또는 유효한 행동 세트를 가지고 있습니다.

에이전트는 강화 학습 방법을 사용하여 최소한의 단계가 필요한 다이아몬드에 대한 경로를 찾습니다. 각 올바른 단계는 로봇에게 보상을 제공하고 각 잘못된 단계는 로봇의 보상을 뺍니다. 모델은 에이전트가 다이아몬드에 도달하면 총 보상을 계산합니다.

이제 에이전트와 환경을 정의했으므로 현재 상태와 환경에 따라 에이전트가 수행할 다음 작업을 결정하는 데 사용할 규칙도 정의해야 합니다.

정책 및 보상

강화 학습 모델에서는 정책 에이전트가 목표를 달성하기 위해 사용하는 전략을 말합니다. 에이전트의 정책은 에이전트와 해당 환경의 현재 상태가 주어졌을 때 에이전트가 다음에 수행해야 하는 작업을 결정하는 것입니다.

에이전트는 어떤 정책이 최적인지 확인하기 위해 가능한 모든 정책을 평가해야 합니다.

정책 평가

간단한 예에서 빈 공간에 착지하면 -1 값이 반환됩니다. 에이전트가 다이아몬드 보상이 있는 공간에 착지하면 값 10을 받게 됩니다. 이 값을 사용하여 다음을 사용하여 다양한 정책을 비교할 수 있습니다. 유틸리티 기능 U.

이제 위에서 본 두 정책의 유용성을 비교해 보겠습니다.

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

결과는 정책 A가 보상을 찾는 더 나은 경로임을 보여줍니다. 따라서 에이전트는 정책 B보다 경로 A를 사용합니다.

탐색 대 착취

강화 학습에서 탐색 대 착취 절충 문제는 에이전트가 의사 결정 과정에서 직면해야 하는 딜레마입니다.

에이전트는 새로운 경로나 옵션을 탐색하는 데 집중해야 합니까, 아니면 이미 알고 있는 옵션을 계속 활용해야 합니까?

에이전트가 탐색을 선택하면 에이전트가 더 나은 옵션을 찾을 가능성이 있지만 시간과 리소스를 낭비할 위험도 있습니다. 반면 에이전트가 이미 알고 있는 솔루션을 활용하기로 선택하면 더 나은 옵션을 놓칠 수 있습니다.

실제 응용 프로그램

다음은 몇 가지 방법입니다. AI 연구자 실제 문제를 해결하기 위해 강화 학습 모델을 적용했습니다.

자율주행차의 강화 학습

강화 학습은 안전하고 효율적인 운전 능력을 향상시키기 위해 자율 주행 자동차에 적용되었습니다. 이 기술을 통해 자율주행차는 실수로부터 배우고 성능을 최적화하기 위해 지속적으로 행동을 조정할 수 있습니다.

자율주행에 활용되는 강화학습

예를 들어, 런던에 본사를 둔 AI 회사 웨이브 자율주행을 위한 심층강화학습 모델을 성공적으로 적용했습니다. 실험에서 그들은 운전자가 입력을 제공하지 않고 차량이 운행하는 시간을 최대화하는 보상 기능을 사용했습니다.

RL 모델은 또한 자동차가 장애물을 피하거나 교통 체증에 합류하는 것과 같은 환경을 기반으로 결정을 내리는 데 도움이 됩니다. 이러한 모델은 자동차를 둘러싼 복잡한 환경을 모델이 이해할 수 있는 대표적인 상태 공간으로 변환하는 방법을 찾아야 합니다.

로보틱스의 강화 학습

연구원들은 또한 복잡한 작업을 학습할 수 있는 로봇을 개발하기 위해 강화 학습을 사용해 왔습니다. 이러한 RL 모델을 통해 로봇은 환경을 관찰하고 관찰을 기반으로 결정을 내릴 수 있습니다.

예를 들어 강화 학습 모델을 사용하여 이족 보행 로봇이 걷다 자신에.

로봇에게 걷는 법을 가르치는 강화 학습

연구원들은 RL을 로봇 공학 분야의 핵심 방법으로 간주합니다. 강화 학습은 로봇 에이전트에게 다른 방법으로는 엔지니어링하기 어려울 수 있는 정교한 작업을 학습할 수 있는 프레임워크를 제공합니다.

게임에서의 강화 학습

RL 모델은 또한 비디오 게임을 하는 방법을 배우는 데 사용되었습니다. 에이전트는 실수로부터 배우고 게임에서 지속적으로 성능을 개선하도록 설정할 수 있습니다.

연구원들은 이미 체스, 바둑, 포커와 같은 게임을 할 수 있는 에이전트를 개발했습니다. 2013 년에, Deepmind 심층 강화 학습을 사용하여 모델이 처음부터 Atari 게임을 플레이하는 방법을 학습할 수 있도록 했습니다.

많은 보드 게임과 비디오 게임에는 제한된 행동 공간과 잘 정의된 구체적인 목표가 있습니다. 이러한 특성은 RL 모델의 장점으로 작용합니다. RL 방법은 수백만 개의 시뮬레이션 게임을 빠르게 반복하여 승리를 달성하기 위한 최적의 전략을 학습할 수 있습니다.

결론

걷는 법을 배우든 비디오 게임을 하는 법을 배우든 RL 모델은 복잡한 의사 결정이 필요한 문제를 해결하는 데 유용한 AI 프레임워크임이 입증되었습니다.

기술이 계속 발전함에 따라 연구원과 개발자 모두 모델의 자가 교육 기능을 활용하는 새로운 응용 프로그램을 계속 찾을 것입니다.

강화 학습이 어떤 실용적인 응용 프로그램에 도움이 될 수 있다고 생각하십니까?

강화 학습: 실수로부터 학습하는 AI

강화 학습이란 무엇입니까?