일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 백준
- c
- skt membership
- stl
- pandas
- align-items
- 강화학습
- Javascript
- 상태
- 수학
- dataframe
- Photoshop
- Prefix Sums
- Design Pattern
- Flexbox
- spring
- SK바이오사이언스
- 포토샵
- 알고리즘
- margin
- series
- c++
- 소수
- Codility
- 통신사할인
- CSS
- 확률
- grid
- 에라토스테네스의 체
- Gap
- Today
- Total
목록강화학습 (6)
sliver__

강화학습 환경에서 중요한 것 중 하나가 에이전트를 학습시킬 수 있는 환경입니다. https://gym.openai.com/ Gym: A toolkit for developing and comparing reinforcement learning algorithms Open source interface to reinforcement learning tasks. The gym library provides an easy-to-use suite of reinforcement learning tasks. import gym env = gym.make("CartPole-v1") observation = env.reset() for _ in range(1000): env.render() action = env.ac..
[딥살사 이론] 딥살사는 살사 알고리즘을 사용하며 큐함수를 인공신경망으로 근사합니다. 적용할 환경은 에이전트, 움직이는 장애물 3개, 목적지 입니다. ==================================== 위 문제의 상태정의는 아래와 같습니다. 1. 에이전트에 대한 도착지점의 상대위치 x,y 2. 도착지점의 라벨 3. 에이전트에 대한 장애물의 상대 위치 x,y 4. 장애물의 라벨 5. 장애물의 속도 ==================================== 기존의 살사의 큐함수 업데이트는 아래와 같습니다. \(Q_t(S_t,A_t) \leftarrow Q_t(S_t, A_t) + \alpha(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t))\)..
안녕하세요~~ 디벨로퍼입니다~~~ 오늘은 책의 예시인 그리디 월드와 다이내믹 프로그래밍에 대해서 알아보겠습니다~! 벨만 기대 방정식을 푸는 것이 정책 이터레이션 벨만 최적 방정식을 푸는 것이 가치 이터레이션 [순차적 행동 결정 문제] 순차적 행동 문제를 푸는 방법은 아래와 같습니다. 1. MDP의 정의 2. 벨만 방정식의 계산 3. 최적 가치함수 + 최적 정책 벨만 방정식을 푼다는 것은 최적의 가치함수를 찾는 것입니다. \(v_*(s)\) = \(\underset{a}E[R_{t+1} + \gamma v_*(S_{t+1}) | S_t = s, A_t = a]\) 벨만 최적 방정식 [다이내믹 프로그래밍] DP는 쿤 문제를 작은 문제로 나누어 해결하는 방법입니다. 이를 적용한 풀이는 벨만 방정식을 푸는 것입..
안녕하세요~ 디벨로퍼입니다~~ 도서는 파이썬과 케라스로 배우는 강화학습, 2020 위키북스 를 참고하였어요. **************************************************************************************************************** 파이썬과 케라스로 배우는 강화학습(위키북스 데이터 사이언스 시리즈 4) | 이웅원 | 위키북스 - 교보문고 (kyobobook.co.kr) 파이썬과 케라스로 배우는 강화학습 - 교보문고 내 손으로 직접 구현하는 게임 인공지능 | ★ 이 책에서 다루는 내용 ★◎ 강화학습의 배경과 개념◎ 강화학습의 기초 이론: MDP, 벨만 방정식, 다이내믹 프로그래밍◎ 고전 강화학습 알고리즘: www.kyoboboo..
안녕하세요~~ 디벨로퍼입니다. 오늘은 강화학습의 기본적인 개념에 대해서 다뤄볼 예정입니다. ===================================================================== 순차적 행동 결정 문제 MDP(Markov Decision Proccess) 위 개념은 순차적으로 행동을 결정하는 문제를 정의할 때 사용하는 방법입니다. 사용하기 위해서 구성 요소들을 알아보겠습니다. 1. 상태 (state) 에이전트의 정적/동적인 요소를 표현 상태의 정의가 중요합니다. 그 이유는 학습하는 에이전트가 상태를 통해 상황을 판단하고 행동을 결정하기 때문입니다. 2. 행동 (action) 에이전트가 어떠한 상태에서 취할 수 있는 행동 에이전트는 어떤 행동이 좋은 행동인지 알 수 없..
안녕하세요~ 디벨로퍼가 돌아왔습니다~~~ 오늘은 제가 개인적으로 공부하고 싶어하는 강화학습에 대해서 써볼려고해요. 저는 현업에서 C/C++(14/17)을 사용한 시스템 소프트웨어를 개발하고 있어요. 이 분야도 다양한 분야가 있고 폭 넓게 공부해야 할 부분이 꽤 많이있어요. 그런데 예전부터 인공지능에 관심을 가지고 있었고 꼭 한번쯤은 해보고 싶었어요. 그리고 이제서야 시작하게 되었습니다~~ 제가 가볍게 시작할 수 있는 책들을 찾아보는 도중에 바닥부터 배우는 강화학습 위 책이 눈에 들어오더라구요. 그래서 도서관에서 바로 빌리고 공부를 하기로 다짐했어요. http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=97889..