6. Trust Region Policy Optimization

피지여행 5번째 논문 논문 저자 : John Schulman, Sergey Levine, Philipp Moritz, Michael Jordan, Pieter Abbeel 논문 링크 : https://arxiv.org/pdf/1502.05477.pdf Proceeding : International Conference on Machine Learning (ICML) 2015 정리 : 공민서, 김동민 1. 들어가며... Trust region policy optimization (TRPO)는 상당히 우수한 성능을 보여주는 policy gradient 기법으로 알려져 있습니다. 높은 차원의 action space를 가진 robot locomotion부터 action은 적지만 화면을 그대로 처리하여 플레이하기..


5. Natural Policy Gradient

피지여행 4번째 논문 논문 저자 : Sham Kakade 논문 링크 : https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf Proceeding : Advances in Neural Information Processing Systems (NIPS) 2002 정리 : 김동민, 이동민, 이웅원, 차금강 1. 들어가며... 이 논문이 발표된 2002년 당시에도 많은 연구자들이 objective function의 gradient 값을 따라서 좋은 policy $\pi$를 찾고자 하였습니다. 하지만 기존의 우리가 알던 gradient descent method는 steepest descent direction이 아닐 수 있기 때문에(쉽게 말해 가장 가..


4. Deep Deterministic Policy Gradient (DDPG)

피지여행 3번째 논문 논문 저자 : Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver & Daan Wierstra 논문 링크 : https://arxiv.org/pdf/1509.02971.pdf Proceeding : International Conference on Learning Representations (ICLR) 2016 정리 : 양혁렬, 이동민, 차금강 1. 들어가며... 1.1 Success & Limitation of DQN Success sensor로부터 나오는 전처리를 거친 input 대신에 raw pixel input을 사용합니다. 이렇게..


3. Deterministic Policy Gradient Algorithms

피지여행 2번째 논문 논문 저자 : David Silver, Guy Lever, Nicloas Heess, Thomas Degris, Daan Wierstra, Martin Riedmiller 논문 링크 : main text, supplementary material Proceeding : International Conference on Machine Learning (ICML) 2014 정리 : 김동민, 공민서, 장수영, 차금강 1. 들어가며... Deterministic Policy Gradient (DPG) Theorem을 제안합니다. 중요한 점은 DPG는 Expected gradient of the action-value function의 형태라는 것입니다. Policy variance가 0에 ..

