일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- stl
- 상태
- c
- Prefix Sums
- 확률
- 강화학습
- Photoshop
- Gap
- Codility
- 소수
- Javascript
- dataframe
- 백준
- Flexbox
- 포토샵
- spring
- grid
- pandas
- 에라토스테네스의 체
- align-items
- SK바이오사이언스
- c++
- 알고리즘
- Design Pattern
- 통신사할인
- 수학
- CSS
- skt membership
- series
- margin
Archives
- Today
- Total
목록MDP (1)
sliver__
강화학습 - 강화학습 문제
안녕하세요~~ 디벨로퍼입니다. 오늘은 강화학습의 기본적인 개념에 대해서 다뤄볼 예정입니다. ===================================================================== 순차적 행동 결정 문제 MDP(Markov Decision Proccess) 위 개념은 순차적으로 행동을 결정하는 문제를 정의할 때 사용하는 방법입니다. 사용하기 위해서 구성 요소들을 알아보겠습니다. 1. 상태 (state) 에이전트의 정적/동적인 요소를 표현 상태의 정의가 중요합니다. 그 이유는 학습하는 에이전트가 상태를 통해 상황을 판단하고 행동을 결정하기 때문입니다. 2. 행동 (action) 에이전트가 어떠한 상태에서 취할 수 있는 행동 에이전트는 어떤 행동이 좋은 행동인지 알 수 없..
CS/강화학습
2021. 10. 4. 00:06