일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Javascript
- stl
- Photoshop
- spring
- series
- 소수
- Flexbox
- Codility
- Prefix Sums
- dataframe
- SK바이오사이언스
- align-items
- 강화학습
- skt membership
- CSS
- 수학
- 에라토스테네스의 체
- grid
- 백준
- 확률
- c
- 상태
- Gap
- pandas
- 포토샵
- 통신사할인
- Design Pattern
- c++
- 알고리즘
- margin
Archives
- Today
- Total
목록폴리시 그레디언트 (1)
sliver__
딥살사 / 폴리시 그레디언트
[딥살사 이론] 딥살사는 살사 알고리즘을 사용하며 큐함수를 인공신경망으로 근사합니다. 적용할 환경은 에이전트, 움직이는 장애물 3개, 목적지 입니다. ==================================== 위 문제의 상태정의는 아래와 같습니다. 1. 에이전트에 대한 도착지점의 상대위치 x,y 2. 도착지점의 라벨 3. 에이전트에 대한 장애물의 상대 위치 x,y 4. 장애물의 라벨 5. 장애물의 속도 ==================================== 기존의 살사의 큐함수 업데이트는 아래와 같습니다. \(Q_t(S_t,A_t) \leftarrow Q_t(S_t, A_t) + \alpha(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t))\)..
CS/강화학습
2021. 10. 23. 13:15