프로젝트 개요 Unity ML-Agents 2.0 튜토리얼 프로젝트는 기존에 진행했던 Unity ML-Agents 튜토리얼 프로젝트에서 사용한 ML-Agents 0.8.1 버전보다 더욱 업데이트된 버전인 ML-Agents 2.0 이후 버전에 대응하도록 기존 내용을 보강한 프로젝트입니다. 기존 버전에 비해 다룰 내용이 훨씬 다양해진 만큼 내용을 기초편, 응용편으로 분리해서 출시하게 되었고 기초편의 내용으로 아래와 같이 파이토치와 유니티 ML-Agents로 배우는 강화학습이라는 책과 유니티 머신러닝 에이전트 완전 정복 (기초편)이라는 인프런 강의를 출시하게 되었습니다. https://wikibook.co.kr/pytorch-mlagents/ 파이토치와 유니티 ML-Agents로 배우는 강화학습: 다양한 게..
프로젝트 개요 Unity ML-Agents 튜토리얼 프로젝트는 Reinforcement Learning Korea 에서 진행한 프로젝트로 Unity ML-Agents 의 사용법을 정리하는 튜토리얼 프로젝트입니다. 딥러닝의 기초, 강화학습의 기초, 유니티를 이용한 환경 제작, 유니티 머신러닝 에이전트의 사용 방법 등의 내용을 포함하며 해당 내용을 정리하여 다음과 같이 텐서플로와 유니티 ML-Agents로 배우는 강화학습이라는 책을 출간하였습니다. 알고리즘 모든 알고리즘은 파이썬과 텐서플로를 통해 작성되었으며 텐서플로 1.5 이상에서 실행이 가능합니다. 이 책에서 제공하는 심층강화학습 알고리즘들은 다음과 같습니다. DQN: 소코반 환경에서 에이전트를 학습하기 위한 Deep Q Network(DQN) 알고리..
프로젝트 개요 알파오목 프로젝트는 2018년 2월부터 8월까지 약 6개월간 진행한 프로젝트로 알파고 제로 (AlphaGo Zero) 알고리즘을 오목 환경에 적용하는 것을 목표로 진행한 프로젝트 입니다. Pygame을 통해 환경을 구현하였으며 먼저 간단한 틱택토 (Tic-Tac_Toe) 환경에서 MCTS 알고리즘의 성능 검증을 진행했습니다. 틱택토 환경에서 MCTS 알고리즘을 적용한 결과는 다음과 같습니다. (O: 사람, X: MCTS) https://youtu.be/I5Bk7LW5hTo 다음으로는 동일하게 pygame으로 오목 환경을 구현하고 여기서 알파고 제로 알고리즘을 적용하였습니다. 해당 결과는 아래와 같습니다. 위와 같이 알파고 제로 알고리즘이 사람과 거의 동등한 성능을 보이거나 사람을 이기는 것..
논문 저자 : Will Dabney, Georg Ostrovski, David Silver, Rémi Munos 논문 링크 : ArXiv Proceeding : The 36th International Conference on Machine Learning (ICML 2018) 정리 : 민규식 Introduction 본 게시물은 2018년 6월에 발표된 논문 Implicit Quantile Networks for Distributional Reinforcement Learning 의 내용에 대해 설명합니다. Algorithm IQN의 경우 QR-DQN과 비교했을 때 크게 다음의 2가지 정도에서 차이를 보입니다. 동일한 확률로 나눈 Quantile을 이용하는 대신 확률들을 random sampling하고 ..