논문 저자 : Will Dabney, Georg Ostrovski, David Silver, Rémi Munos 논문 링크 : ArXiv Proceeding : The 36th International Conference on Machine Learning (ICML 2018) 정리 : 민규식 Introduction 본 게시물은 2018년 6월에 발표된 논문 Implicit Quantile Networks for Distributional Reinforcement Learning 의 내용에 대해 설명합니다. Algorithm IQN의 경우 QR-DQN과 비교했을 때 크게 다음의 2가지 정도에서 차이를 보입니다. 동일한 확률로 나눈 Quantile을 이용하는 대신 확률들을 random sampling하고 ..
논문 저자 : Will Dabney, Mark Rowland, Marc G. Bellemare, Rémi Munos 논문 링크 : ArXiv Proceeding : The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18) 정리 : 민규식 Introduction 본 게시물은 2017년 10월에 발표된 논문 Distributional Reinforcement Learning with Quantile Regression(QR-DQN) 의 내용에 대해 설명합니다. Algorithm QR-DQN의 경우 C51과 비교했을 때 다음의 내용들에서 차이를 가집니다. Network의 Output Loss 위와 같이 사실상 별로 다른 점은 없습니다. 위의..
논문 저자 : Marc G. Bellemare, Will Dabney, Rémi Munos 논문 링크 : ArXiv Proceeding : International Conference on Machine Learning (ICML) 2017 정리 : 민규식 Introduction 본 게시물은 2017년에 발표된 논문 A Distributional Perspective on Reinforcement Learning 의 내용에 대해 설명합니다. Distributional RL에 대해 설명한 게시물에서도 언급했듯이 distributional RL 알고리즘은 value를 하나의 scalar 값이 아닌 distribution으로 예측합니다. 이에 따라 일반적인 강화학습에서 이용하는 bellman equation의..
Distributional RL Introduction 본 게시글은 강화학습의 한 종류 중 하나인 Distributional Reinforcement Learning에 대해서 설명하고 Deepmind에서 발표한 몇가지 알고리즘을 설명할 예정입니다. 우선 일반적인 강화학습 알고리즘과 distributional RL 알고리즘을 간단하게 그림으로 비교한 것이 다음과 같습니다. 일반적인 강화학습은 다양하게 task를 시도해보고 그 경험을 바탕으로 미래에 받을 평균 reward를 하나의 숫자(scalar)로 예측하도록 학습합니다. 그리고 이 예측을 통해 미래에 많은 reward를 받을 것이라 예측되는 action을 선택하게 됩니다. 하지만!!! 환경이 랜덤성을 포함하고 있는 경우 상황에 따라 동일한 state에서..