'프로젝트' 카테고리의 글 목록 (5 Page)

1. Unity ML-Agents 튜토리얼 프로젝트

2023.02.19

프로젝트 개요 Unity ML-Agents 튜토리얼 프로젝트는 Reinforcement Learning Korea 에서 진행한 프로젝트로 Unity ML-Agents 의 사용법을 정리하는 튜토리얼 프로젝트입니다. 딥러닝의 기초, 강화학습의 기초, 유니티를 이용한 환경 제작, 유니티 머신러닝 에이전트의 사용 방법 등의 내용을 포함하며 해당 내용을 정리하여 다음과 같이 텐서플로와 유니티 ML-Agents로 배우는 강화학습이라는 책을 출간하였습니다. 알고리즘 모든 알고리즘은 파이썬과 텐서플로를 통해 작성되었으며 텐서플로 1.5 이상에서 실행이 가능합니다. 이 책에서 제공하는 심층강화학습 알고리즘들은 다음과 같습니다. DQN: 소코반 환경에서 에이전트를 학습하기 위한 Deep Q Network(DQN) 알고리..

프로젝트/알파오목

알파오목 (AlphaOmok)

2023.02.19

프로젝트 개요 알파오목 프로젝트는 2018년 2월부터 8월까지 약 6개월간 진행한 프로젝트로 알파고 제로 (AlphaGo Zero) 알고리즘을 오목 환경에 적용하는 것을 목표로 진행한 프로젝트 입니다. Pygame을 통해 환경을 구현하였으며 먼저 간단한 틱택토 (Tic-Tac_Toe) 환경에서 MCTS 알고리즘의 성능 검증을 진행했습니다. 틱택토 환경에서 MCTS 알고리즘을 적용한 결과는 다음과 같습니다. (O: 사람, X: MCTS) https://youtu.be/I5Bk7LW5hTo 다음으로는 동일하게 pygame으로 오목 환경을 구현하고 여기서 알파고 제로 알고리즘을 적용하였습니다. 해당 결과는 아래와 같습니다. 위와 같이 알파고 제로 알고리즘이 사람과 거의 동등한 성능을 보이거나 사람을 이기는 것..

프로젝트/Distributional RL

4. Implicit Quantile Networks for Distributional Reinforcement Learning

2023.02.19

논문 저자 : Will Dabney, Georg Ostrovski, David Silver, Rémi Munos 논문 링크 : ArXiv Proceeding : The 36th International Conference on Machine Learning (ICML 2018) 정리 : 민규식 Introduction 본 게시물은 2018년 6월에 발표된 논문 Implicit Quantile Networks for Distributional Reinforcement Learning 의 내용에 대해 설명합니다. Algorithm IQN의 경우 QR-DQN과 비교했을 때 크게 다음의 2가지 정도에서 차이를 보입니다. 동일한 확률로 나눈 Quantile을 이용하는 대신 확률들을 random sampling하고 ..

프로젝트/GAIL 하자

3. Apprenticeship Learning via Inverse Reinforcement Learning

2023.02.19

Author: 이승현 Date: February 1, 2019 Inverse RL 2번째 논문 Author : Pieter Abbeel, Andrew Y. Ng Paper Link : http://people.eecs.berkeley.edu/~russell/classes/cs294/s11/readings/Abbeel+Ng:2004.pdf Proceeding : International Conference on Machine Learning (ICML) 2004 0. Abstract reward가 주어지지 않은 Markov decision process 문제에서, 특히나 reward를 어떻게 줄지 하나하나 고려하는것이 힘들 때 전문가의 시연을 보고 학습하는것은 상당히 효과적인 접근입니다. 이러한 관점에서 ..

1. Unity ML-Agents 튜토리얼 프로젝트

알파오목 (AlphaOmok)

4. Implicit Quantile Networks for Distributional Reinforcement Learning

3. Apprenticeship Learning via Inverse Reinforcement Learning

티스토리툴바