'다이나믹프로그래밍' 태그의 글 목록

Notice

ReLU 함수

Recent Posts

Recent Comments

Link

250x250

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록다이나믹프로그래밍 (1)

sliver__

다이내믹 프로그래밍

안녕하세요~~ 디벨로퍼입니다~~~ 오늘은 책의 예시인 그리디 월드와 다이내믹 프로그래밍에 대해서 알아보겠습니다~! 벨만 기대 방정식을 푸는 것이 정책 이터레이션 벨만 최적 방정식을 푸는 것이 가치 이터레이션 [순차적 행동 결정 문제] 순차적 행동 문제를 푸는 방법은 아래와 같습니다. 1. MDP의 정의 2. 벨만 방정식의 계산 3. 최적 가치함수 + 최적 정책 벨만 방정식을 푼다는 것은 최적의 가치함수를 찾는 것입니다. \(v_*(s)\) = \(\underset{a}E[R_{t+1} + \gamma v_*(S_{t+1}) | S_t = s, A_t = a]\) 벨만 최적 방정식 [다이내믹 프로그래밍] DP는 쿤 문제를 작은 문제로 나누어 해결하는 방법입니다. 이를 적용한 풀이는 벨만 방정식을 푸는 것입..

CS/강화학습 2021. 10. 9. 01:01

Prev 1 Next

목록다이나믹프로그래밍 (1)

sliver__

티스토리툴바