'폴리시 그레디언트' 태그의 글 목록

Notice

ReLU 함수

Recent Posts

Recent Comments

Link

250x250

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록폴리시 그레디언트 (1)

sliver__

딥살사 / 폴리시 그레디언트

[딥살사 이론] 딥살사는 살사 알고리즘을 사용하며 큐함수를 인공신경망으로 근사합니다. 적용할 환경은 에이전트, 움직이는 장애물 3개, 목적지 입니다. ==================================== 위 문제의 상태정의는 아래와 같습니다. 1. 에이전트에 대한 도착지점의 상대위치 x,y 2. 도착지점의 라벨 3. 에이전트에 대한 장애물의 상대 위치 x,y 4. 장애물의 라벨 5. 장애물의 속도 ==================================== 기존의 살사의 큐함수 업데이트는 아래와 같습니다. \(Q_t(S_t,A_t) \leftarrow Q_t(S_t, A_t) + \alpha(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t))\)..

CS/강화학습 2021. 10. 23. 13:15

Prev 1 Next

목록폴리시 그레디언트 (1)

sliver__

티스토리툴바