정책 썸네일형 리스트형 [강화학습] 1. 강화학습 개요 강화학습의 개념 강화라는 것은 이전에 배우지 않았지만 직접 시도하면서 행동과 그 결과를 나타내는 좋은 보상 사이의 상관관계를 학습하는 것이다. 강화의 핵심은 바로 보상을 얻게 해주는 행동의 빈도 증가이다. 강화학습은 보상을 통해 학습한다. 보상은 컴퓨터가 선택한 행동(action)에 대한 환경의 반응이다. 이 보상은 직접적인 답은 아니지만 컴퓨터에게는 간접적인 정답의 역할을 한다. 에이전트(agent) 강화학습을 통해 스스로 학습하는 컴퓨터를 에이전트라고 한다. 에이전트는 환경에 대해 사전지식이 없는 상태에서 학습한다. 에이전트는 자신이 놓인 환경에서 자신의 상태를 인식한 후 행동한다. 환경은 에이전트에게 보상을 주고 다음 상태를 알려준다. 이 보상을 통해 에이전트는 어떤 행동이 좋은 행동인지 간접적으로.. 더보기 이전 1 다음