본문 바로가기

프로그래머/강화학습

[강화학습] 2. 강화학습 기초 | MDP | 가치함수 | 벨만 방정식 강화학습 기초 강화학습은 순차적으로 행동을 결정해야 하는 문제를 푸는 것이다. 이를 수학적으로 표현한 것이 MDP이다. MDP는 상태, 행동, 보상함수, 상태 변환 확률(state transition probability), 감가율(Discount Factor)로 구성 상태 변환 확률 : 환경의 변화가 상태에 미치는 영향을 확률로 표현 영향을 미치지 않는 경우 상태 변환 확률은 1 상태 상태는 '자신의 상황에 대한 관찰'을 말한다. 로봇과 같은 실제 세상에서의 에이전트에게 상태는 센서 값이 된다. 행동 보통 에이전트가 할 수 있는 행동은 모든 상태에서 같다. 보상함수 보상은 에이전트가 학습할 수 있는 유일한 정보로서 환경이 에이전트에게 주는 정보이다. 보상함수는 s 상태와 a 행동일 때 받을 보상에 대한.. 더보기
[강화학습] 1. 강화학습 개요 강화학습의 개념 강화라는 것은 이전에 배우지 않았지만 직접 시도하면서 행동과 그 결과를 나타내는 좋은 보상 사이의 상관관계를 학습하는 것이다. 강화의 핵심은 바로 보상을 얻게 해주는 행동의 빈도 증가이다. 강화학습은 보상을 통해 학습한다. 보상은 컴퓨터가 선택한 행동(action)에 대한 환경의 반응이다. 이 보상은 직접적인 답은 아니지만 컴퓨터에게는 간접적인 정답의 역할을 한다. 에이전트(agent) 강화학습을 통해 스스로 학습하는 컴퓨터를 에이전트라고 한다. 에이전트는 환경에 대해 사전지식이 없는 상태에서 학습한다. 에이전트는 자신이 놓인 환경에서 자신의 상태를 인식한 후 행동한다. 환경은 에이전트에게 보상을 주고 다음 상태를 알려준다. 이 보상을 통해 에이전트는 어떤 행동이 좋은 행동인지 간접적으로.. 더보기