일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Photoshop
- series
- dataframe
- 에라토스테네스의 체
- 강화학습
- 확률
- 알고리즘
- 통신사할인
- stl
- SK바이오사이언스
- CSS
- 백준
- c
- c++
- Design Pattern
- Gap
- margin
- Codility
- grid
- Flexbox
- skt membership
- 상태
- Javascript
- 소수
- pandas
- spring
- 수학
- 포토샵
- align-items
- Prefix Sums
Archives
- Today
- Total
목록큐러닝 (1)
sliver__
살사(SARSA) / 큐러닝(Q-Learning)
[강화학습] 강화학습은 환경의 모델을 몰라도 환경과의 상호작용을 통해서 최적 정책을 학습합니다. 예측은 에이전트가 환경과의 상호작용을 통해 정책에 대한 가치함수를 학습하는 과정입니다. 예측에는 몬테카를로 예측, 시간차 예측이 있습니다. 제어에는 시간차 체어(살사)가 있습니다. 그리고 오프폴리시 제어인 큐러닝이 있습니다. 강화학습에서 정책을 통해 가치함수를 구하는 과정을 에측 이라합니다. 그리고 정책 평가와 정책 발전을 합친 것을 제어 라고합니다. [몬테카를로 예측] 방정식을 알지 못해도 답을 얻을 수 있는 방법이 있습니다. 바로 몬테카를로 예측입니다. 주어진 식이 없이 무작위로 반복하여 답을 얻어낼 수 있는 방식입니다. 가치함수를 추정할 때 에이전트가 한 번 환경에서 에피소드를 진행하는 것이 샘플링입니다..
CS/강화학습
2021. 10. 10. 01:17