Author: 김동민, 이동민, 차금강 Date: June 29, 2018 0. Policy Gradient의 세계로 반갑습니다! 저희는 PG여행을 위해 모인 PG탐험대입니다. 강화학습하면 보통 Q-learning을 떠올립니다. 그렇지만 오래전부터 Policy Gradient라는 Q-learning 못지 않은 훌륭한 방법론이 연구되어 왔고, 최근에는 강화학습의 최정점의 기술로 자리매김하고 있습니다. 강화학습의 아버지인 Sutton의 논문을 필두로 하여 기존의 DQN보다 뛰어난 성능을 내는 DPG와 DDPG, 그리고 현재 가장 주목받는 강화학습 연구자인 John Schulmann의 TRPO, GAE, PPO와 이를 이해하기 위해 필요한 Natural Policy Gardient까지 더불어 살펴보고자 합니다..
Author: 유지원 Date: November 22, 2018 프로젝트 소개 본 게시글은 Reinforcement Learning Korea 커뮤니티의 2회 프로젝트인 각잡고 로봇팔 을 소개하는 글입니다 프로젝트 목표 강화학습을 로봇 컨트롤에 적용함 강화학습의 시작은 게임의 승리 혹은 discrete한 상황의 goal 달성을 목표로 한 task가 주를 이루었습니다. 하지만 절대적인 승패가 존재하지 않는 일반적인 상황에서는 판단하기가 힘듭니다. 이를 극복하기 위해, 정책 자체를 근사화 하는 PG(Policy Gradient)가 고안되었습니다. 현재는 이 기법을 기본으로한 연속적인 동작 제어에 관한 연구가 활발히 진행되고 있습니다. 특히, 우리는 Open AI와 BAIR의 놀라운 연구성과를 토대로 로봇팔 ..
Author: 이승현 Date: February 13, 2019 Inverse RL 5번째 논문 Author : Jonathan Ho, Stefano Ermon Paper Link : https://papers.nips.cc/paper/6391-generative-adversarial-imitation-learning.pdf Proceeding : Advances in Neural Information Processing Systems (NIPS) 2016 0. Abstract 전문가의 시연으로부터 policy를 학습하는 문제를 해결하기 위해 사용되는 대표적인 imitation learning 방법으로는 먼저 inverse reinforcement learning으로 cost fuction을 복원하고, ..