피지여행 1번째 논문 논문 저자 : Richard S. Sutton, David McAllester, Satinder Singh, Yishay Mansour 논문 링크 : NIPS Proceeding : Advances in Neural Information Processing Systems (NIPS) 2000 정리 : 김동민, 이동민 1. Intro to Policy Gradient 이 논문은 policy gradient (PG) 기법의 효시와도 같으며 향후 많은 파생연구를 낳은 중요한 논문입니다. 7페이지의 짧은 논문이지만 읽기에 만만한 논문은 아닙니다. 이 논문을 이해하기 위해 필요한 배경지식을 먼저 설명하고 논문을 차근차근 살펴보도록 하겠습니다. 1.1 Value Function Approach..
Author: 김동민, 이동민, 차금강 Date: June 29, 2018 0. Policy Gradient의 세계로 반갑습니다! 저희는 PG여행을 위해 모인 PG탐험대입니다. 강화학습하면 보통 Q-learning을 떠올립니다. 그렇지만 오래전부터 Policy Gradient라는 Q-learning 못지 않은 훌륭한 방법론이 연구되어 왔고, 최근에는 강화학습의 최정점의 기술로 자리매김하고 있습니다. 강화학습의 아버지인 Sutton의 논문을 필두로 하여 기존의 DQN보다 뛰어난 성능을 내는 DPG와 DDPG, 그리고 현재 가장 주목받는 강화학습 연구자인 John Schulmann의 TRPO, GAE, PPO와 이를 이해하기 위해 필요한 Natural Policy Gardient까지 더불어 살펴보고자 합니다..
Author: 유지원 Date: November 22, 2018 프로젝트 소개 본 게시글은 Reinforcement Learning Korea 커뮤니티의 2회 프로젝트인 각잡고 로봇팔 을 소개하는 글입니다 프로젝트 목표 강화학습을 로봇 컨트롤에 적용함 강화학습의 시작은 게임의 승리 혹은 discrete한 상황의 goal 달성을 목표로 한 task가 주를 이루었습니다. 하지만 절대적인 승패가 존재하지 않는 일반적인 상황에서는 판단하기가 힘듭니다. 이를 극복하기 위해, 정책 자체를 근사화 하는 PG(Policy Gradient)가 고안되었습니다. 현재는 이 기법을 기본으로한 연속적인 동작 제어에 관한 연구가 활발히 진행되고 있습니다. 특히, 우리는 Open AI와 BAIR의 놀라운 연구성과를 토대로 로봇팔 ..