피지여행 구현 이야기 PG Travel implementation story 구현 코드 링크 : https://github.com/reinforcement-learning-kr/pg_travel 피지여행 프로젝트에서는 다음 7개 논문을 살펴보았습니다. 각 논문에 대한 리뷰는 이전 글들에서 다루고 있습니다. [1] R. Sutton, et al., "Policy Gradient Methods for Reinforcement Learning with Function Approximation", NIPS 2000. [2] D. Silver, et al., "Deterministic Policy Gradient Algorithms", ICML 2014. [3] T. Lillicrap, et al., "Conti..
피지여행 7번째 논문 논문 저자 : John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov 논문 링크 : https://arxiv.org/pdf/1707.06347.pdf Proceeding : unpublished. 정리 : 이동민, 장수영, 차금강 1. 들어가며... Sutton_PG부터 시작하여 TRPO, GAE를 거쳐 PPO까지 대단히 고생많으셨습니다. 먼저 이 논문은 TRPO보다는 쉽습니다. cliping이라는 새로운 개념이 나오지만 크게 어렵진 않습니다. 이 논문에서는 Reinforcement Learning에서 Policy Gradient Method의 새로운 방법인 PPO를 제안합니다. 이 방법은 agent가 환경..
피지여행 6번째 논문 논문 저자 : John Schulman, Philipp Moritz, Sergey Levine, Michael I. Jordan and Pieter Abbeel 논문 링크 : https://arxiv.org/pdf/1506.02438.pdf Proceeding : International Conference of Learning Representations (ICLR) 2016 정리 : 양혁렬, 이동민 1. 들어가며... 현존하는 Policy Gradient Method들의 목적은 누적되는 reward들을 optimization하는 것입니다. 하지만 학습할 때에 많은 양의 sample이 필요로 하고, 들어오는 data가 nonstationarity임에도 불구하고 stable and ..
피지여행 5번째 논문 논문 저자 : John Schulman, Sergey Levine, Philipp Moritz, Michael Jordan, Pieter Abbeel 논문 링크 : https://arxiv.org/pdf/1502.05477.pdf Proceeding : International Conference on Machine Learning (ICML) 2015 정리 : 공민서, 김동민 1. 들어가며... Trust region policy optimization (TRPO)는 상당히 우수한 성능을 보여주는 policy gradient 기법으로 알려져 있습니다. 높은 차원의 action space를 가진 robot locomotion부터 action은 적지만 화면을 그대로 처리하여 플레이하기..