안녕하세요! 👋 2023년 11월 25일 모두의 연구소 강남 캠퍼스에서 오랜만에 RLKorea 오프라인 세미나를 진행했습니다! 세미나의 제목은 "중요한 것은 꺾이지 않는 RL"로 총 7분의 연사분이 흥미로운 6개의 주제에 대해 발표해주셨습니다. 이번 세미나에서는 다양한 강화학습 기반 연구 내용부터 강화학습을 산업 도메인에 적용하기 위한 실용적인 내용까지 정말 재미있는 내용의 발표들이 진행되었습니다. 진행된 행사 내용은 아래의 포스터 내용과 같습니다! 이번 행사에서 연사분들이 발표해주신 내용을 아래와 같이 유튜브로 공유드립니다! 1. 2023 트렌드 강화학습 (연사: 이태학 - 스마일게이트 메가포트) https://youtu.be/rEgtNHUBXzU?si=oUrtbLUkSyCs3x-d 2. Causal ..
피지여행 구현 이야기 PG Travel implementation story 구현 코드 링크 : https://github.com/reinforcement-learning-kr/pg_travel 피지여행 프로젝트에서는 다음 7개 논문을 살펴보았습니다. 각 논문에 대한 리뷰는 이전 글들에서 다루고 있습니다. [1] R. Sutton, et al., "Policy Gradient Methods for Reinforcement Learning with Function Approximation", NIPS 2000. [2] D. Silver, et al., "Deterministic Policy Gradient Algorithms", ICML 2014. [3] T. Lillicrap, et al., "Conti..
피지여행 7번째 논문 논문 저자 : John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov 논문 링크 : https://arxiv.org/pdf/1707.06347.pdf Proceeding : unpublished. 정리 : 이동민, 장수영, 차금강 1. 들어가며... Sutton_PG부터 시작하여 TRPO, GAE를 거쳐 PPO까지 대단히 고생많으셨습니다. 먼저 이 논문은 TRPO보다는 쉽습니다. cliping이라는 새로운 개념이 나오지만 크게 어렵진 않습니다. 이 논문에서는 Reinforcement Learning에서 Policy Gradient Method의 새로운 방법인 PPO를 제안합니다. 이 방법은 agent가 환경..
피지여행 6번째 논문 논문 저자 : John Schulman, Philipp Moritz, Sergey Levine, Michael I. Jordan and Pieter Abbeel 논문 링크 : https://arxiv.org/pdf/1506.02438.pdf Proceeding : International Conference of Learning Representations (ICLR) 2016 정리 : 양혁렬, 이동민 1. 들어가며... 현존하는 Policy Gradient Method들의 목적은 누적되는 reward들을 optimization하는 것입니다. 하지만 학습할 때에 많은 양의 sample이 필요로 하고, 들어오는 data가 nonstationarity임에도 불구하고 stable and ..
피지여행 5번째 논문 논문 저자 : John Schulman, Sergey Levine, Philipp Moritz, Michael Jordan, Pieter Abbeel 논문 링크 : https://arxiv.org/pdf/1502.05477.pdf Proceeding : International Conference on Machine Learning (ICML) 2015 정리 : 공민서, 김동민 1. 들어가며... Trust region policy optimization (TRPO)는 상당히 우수한 성능을 보여주는 policy gradient 기법으로 알려져 있습니다. 높은 차원의 action space를 가진 robot locomotion부터 action은 적지만 화면을 그대로 처리하여 플레이하기..
피지여행 4번째 논문 논문 저자 : Sham Kakade 논문 링크 : https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf Proceeding : Advances in Neural Information Processing Systems (NIPS) 2002 정리 : 김동민, 이동민, 이웅원, 차금강 1. 들어가며... 이 논문이 발표된 2002년 당시에도 많은 연구자들이 objective function의 gradient 값을 따라서 좋은 policy $\pi$를 찾고자 하였습니다. 하지만 기존의 우리가 알던 gradient descent method는 steepest descent direction이 아닐 수 있기 때문에(쉽게 말해 가장 가..
피지여행 3번째 논문 논문 저자 : Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver & Daan Wierstra 논문 링크 : https://arxiv.org/pdf/1509.02971.pdf Proceeding : International Conference on Learning Representations (ICLR) 2016 정리 : 양혁렬, 이동민, 차금강 1. 들어가며... 1.1 Success & Limitation of DQN Success sensor로부터 나오는 전처리를 거친 input 대신에 raw pixel input을 사용합니다. 이렇게..
피지여행 2번째 논문 논문 저자 : David Silver, Guy Lever, Nicloas Heess, Thomas Degris, Daan Wierstra, Martin Riedmiller 논문 링크 : main text, supplementary material Proceeding : International Conference on Machine Learning (ICML) 2014 정리 : 김동민, 공민서, 장수영, 차금강 1. 들어가며... Deterministic Policy Gradient (DPG) Theorem을 제안합니다. 중요한 점은 DPG는 Expected gradient of the action-value function의 형태라는 것입니다. Policy variance가 0에 ..
피지여행 1번째 논문 논문 저자 : Richard S. Sutton, David McAllester, Satinder Singh, Yishay Mansour 논문 링크 : NIPS Proceeding : Advances in Neural Information Processing Systems (NIPS) 2000 정리 : 김동민, 이동민 1. Intro to Policy Gradient 이 논문은 policy gradient (PG) 기법의 효시와도 같으며 향후 많은 파생연구를 낳은 중요한 논문입니다. 7페이지의 짧은 논문이지만 읽기에 만만한 논문은 아닙니다. 이 논문을 이해하기 위해 필요한 배경지식을 먼저 설명하고 논문을 차근차근 살펴보도록 하겠습니다. 1.1 Value Function Approach..
Author: 김동민, 이동민, 차금강 Date: June 29, 2018 0. Policy Gradient의 세계로 반갑습니다! 저희는 PG여행을 위해 모인 PG탐험대입니다. 강화학습하면 보통 Q-learning을 떠올립니다. 그렇지만 오래전부터 Policy Gradient라는 Q-learning 못지 않은 훌륭한 방법론이 연구되어 왔고, 최근에는 강화학습의 최정점의 기술로 자리매김하고 있습니다. 강화학습의 아버지인 Sutton의 논문을 필두로 하여 기존의 DQN보다 뛰어난 성능을 내는 DPG와 DDPG, 그리고 현재 가장 주목받는 강화학습 연구자인 John Schulmann의 TRPO, GAE, PPO와 이를 이해하기 위해 필요한 Natural Policy Gardient까지 더불어 살펴보고자 합니다..