안녕하세요! 👋 2023년 11월 25일 모두의 연구소 강남 캠퍼스에서 오랜만에 RLKorea 오프라인 세미나를 진행했습니다! 세미나의 제목은 "중요한 것은 꺾이지 않는 RL"로 총 7분의 연사분이 흥미로운 6개의 주제에 대해 발표해주셨습니다. 이번 세미나에서는 다양한 강화학습 기반 연구 내용부터 강화학습을 산업 도메인에 적용하기 위한 실용적인 내용까지 정말 재미있는 내용의 발표들이 진행되었습니다. 진행된 행사 내용은 아래의 포스터 내용과 같습니다! 이번 행사에서 연사분들이 발표해주신 내용을 아래와 같이 유튜브로 공유드립니다! 1. 2023 트렌드 강화학습 (연사: 이태학 - 스마일게이트 메가포트) https://youtu.be/rEgtNHUBXzU?si=oUrtbLUkSyCs3x-d 2. Causal ..
피지여행 구현 이야기 PG Travel implementation story 구현 코드 링크 : https://github.com/reinforcement-learning-kr/pg_travel 피지여행 프로젝트에서는 다음 7개 논문을 살펴보았습니다. 각 논문에 대한 리뷰는 이전 글들에서 다루고 있습니다. [1] R. Sutton, et al., "Policy Gradient Methods for Reinforcement Learning with Function Approximation", NIPS 2000. [2] D. Silver, et al., "Deterministic Policy Gradient Algorithms", ICML 2014. [3] T. Lillicrap, et al., "Conti..
피지여행 7번째 논문 논문 저자 : John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov 논문 링크 : https://arxiv.org/pdf/1707.06347.pdf Proceeding : unpublished. 정리 : 이동민, 장수영, 차금강 1. 들어가며... Sutton_PG부터 시작하여 TRPO, GAE를 거쳐 PPO까지 대단히 고생많으셨습니다. 먼저 이 논문은 TRPO보다는 쉽습니다. cliping이라는 새로운 개념이 나오지만 크게 어렵진 않습니다. 이 논문에서는 Reinforcement Learning에서 Policy Gradient Method의 새로운 방법인 PPO를 제안합니다. 이 방법은 agent가 환경..
피지여행 6번째 논문 논문 저자 : John Schulman, Philipp Moritz, Sergey Levine, Michael I. Jordan and Pieter Abbeel 논문 링크 : https://arxiv.org/pdf/1506.02438.pdf Proceeding : International Conference of Learning Representations (ICLR) 2016 정리 : 양혁렬, 이동민 1. 들어가며... 현존하는 Policy Gradient Method들의 목적은 누적되는 reward들을 optimization하는 것입니다. 하지만 학습할 때에 많은 양의 sample이 필요로 하고, 들어오는 data가 nonstationarity임에도 불구하고 stable and ..