일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 알고리즘
- 포토샵
- 강화학습
- c
- c++
- Flexbox
- Javascript
- 수학
- Prefix Sums
- 에라토스테네스의 체
- skt membership
- pandas
- Codility
- Gap
- spring
- stl
- grid
- 상태
- series
- margin
- 확률
- 소수
- dataframe
- Photoshop
- 통신사할인
- SK바이오사이언스
- Design Pattern
- align-items
- CSS
- 백준
Archives
- Today
- Total
목록다이나믹프로그래밍 (1)
sliver__
다이내믹 프로그래밍
안녕하세요~~ 디벨로퍼입니다~~~ 오늘은 책의 예시인 그리디 월드와 다이내믹 프로그래밍에 대해서 알아보겠습니다~! 벨만 기대 방정식을 푸는 것이 정책 이터레이션 벨만 최적 방정식을 푸는 것이 가치 이터레이션 [순차적 행동 결정 문제] 순차적 행동 문제를 푸는 방법은 아래와 같습니다. 1. MDP의 정의 2. 벨만 방정식의 계산 3. 최적 가치함수 + 최적 정책 벨만 방정식을 푼다는 것은 최적의 가치함수를 찾는 것입니다. \(v_*(s)\) = \(\underset{a}E[R_{t+1} + \gamma v_*(S_{t+1}) | S_t = s, A_t = a]\) 벨만 최적 방정식 [다이내믹 프로그래밍] DP는 쿤 문제를 작은 문제로 나누어 해결하는 방법입니다. 이를 적용한 풀이는 벨만 방정식을 푸는 것입..
CS/강화학습
2021. 10. 9. 01:01