sliver__

강화학습 - 강화학습 문제 본문

CS/강화학습

강화학습 - 강화학습 문제

sliver__ 2021. 10. 4. 00:06
728x90

안녕하세요~~  

디벨로퍼입니다.

오늘은 강화학습의 기본적인 개념에 대해서 다뤄볼 예정입니다.

 

=====================================================================

 

순차적 행동 결정 문제

MDP(Markov  Decision Proccess)

 

위 개념은 순차적으로 행동을 결정하는 문제를 정의할 때 사용하는 방법입니다.

사용하기 위해서 구성 요소들을 알아보겠습니다.

 

1. 상태 (state)

에이전트의 정적/동적인 요소를 표현

 

상태의 정의가 중요합니다. 그 이유는 학습하는 에이전트가

상태를 통해 상황을 판단하고 행동을 결정하기 때문입니다.

 

2. 행동 (action)

에이전트가 어떠한 상태에서 취할 수 있는 행동

 

에이전트는 어떤 행동이 좋은 행동인지 알 수 없습니다.

에이전트는 학습을 하면서 어떤 행동이 좋은 행동인지 알아갑니다.

 

3. 보상 (reward)

에이전트가 학습할 수 있는 유일한 정보입니다.

강화학습의 목표는 시간에 따라 얻는 보상들의 합을 최대로 하는 정책을 찾는 것입니다.

 

4. 정책 (policy)

모든 상태에 대해 어떤 행동을 해야 할지 아는 것이 정책입니다.

순차적 행동 결정 문제를 풀었다 = 제일 좋은 정책을 에이전트가 얻었다

최적정책 = optimal policy

 

=====================================================================

 

MDP의 간단한 내용을 정리해봤어요.

 

위 내용은 파이썬과 케라스로 배우는 강화학습의 내용을 발췌했습니다

 

그럼 이만~

728x90

'CS > 강화학습' 카테고리의 다른 글

근사함수  (0) 2021.10.11
살사(SARSA) / 큐러닝(Q-Learning)  (0) 2021.10.10
다이내믹 프로그래밍  (0) 2021.10.09
MDP / 벨만방정식  (0) 2021.10.08
바닥부터 배우는 강화학습 : 강화학습이란 (1장)  (0) 2021.09.17
Comments