프로젝트 개요 Unity ML-Agents 튜토리얼 프로젝트는 Reinforcement Learning Korea 에서 진행한 프로젝트로 Unity ML-Agents 의 사용법을 정리하는 튜토리얼 프로젝트입니다. 딥러닝의 기초, 강화학습의 기초, 유니티를 이용한 환경 제작, 유니티 머신러닝 에이전트의 사용 방법 등의 내용을 포함하며 해당 내용을 정리하여 다음과 같이 텐서플로와 유니티 ML-Agents로 배우는 강화학습이라는 책을 출간하였습니다. 알고리즘 모든 알고리즘은 파이썬과 텐서플로를 통해 작성되었으며 텐서플로 1.5 이상에서 실행이 가능합니다. 이 책에서 제공하는 심층강화학습 알고리즘들은 다음과 같습니다. DQN: 소코반 환경에서 에이전트를 학습하기 위한 Deep Q Network(DQN) 알고리..
프로젝트 개요 알파오목 프로젝트는 2018년 2월부터 8월까지 약 6개월간 진행한 프로젝트로 알파고 제로 (AlphaGo Zero) 알고리즘을 오목 환경에 적용하는 것을 목표로 진행한 프로젝트 입니다. Pygame을 통해 환경을 구현하였으며 먼저 간단한 틱택토 (Tic-Tac_Toe) 환경에서 MCTS 알고리즘의 성능 검증을 진행했습니다. 틱택토 환경에서 MCTS 알고리즘을 적용한 결과는 다음과 같습니다. (O: 사람, X: MCTS) https://youtu.be/I5Bk7LW5hTo 다음으로는 동일하게 pygame으로 오목 환경을 구현하고 여기서 알파고 제로 알고리즘을 적용하였습니다. 해당 결과는 아래와 같습니다. 위와 같이 알파고 제로 알고리즘이 사람과 거의 동등한 성능을 보이거나 사람을 이기는 것..
논문 저자 : Will Dabney, Georg Ostrovski, David Silver, Rémi Munos 논문 링크 : ArXiv Proceeding : The 36th International Conference on Machine Learning (ICML 2018) 정리 : 민규식 Introduction 본 게시물은 2018년 6월에 발표된 논문 Implicit Quantile Networks for Distributional Reinforcement Learning 의 내용에 대해 설명합니다. Algorithm IQN의 경우 QR-DQN과 비교했을 때 크게 다음의 2가지 정도에서 차이를 보입니다. 동일한 확률로 나눈 Quantile을 이용하는 대신 확률들을 random sampling하고 ..
Author: 이승현 Date: February 1, 2019 Inverse RL 2번째 논문 Author : Pieter Abbeel, Andrew Y. Ng Paper Link : http://people.eecs.berkeley.edu/~russell/classes/cs294/s11/readings/Abbeel+Ng:2004.pdf Proceeding : International Conference on Machine Learning (ICML) 2004 0. Abstract reward가 주어지지 않은 Markov decision process 문제에서, 특히나 reward를 어떻게 줄지 하나하나 고려하는것이 힘들 때 전문가의 시연을 보고 학습하는것은 상당히 효과적인 접근입니다. 이러한 관점에서 ..