프로젝트 개요
알파오목 프로젝트는 2018년 2월부터 8월까지 약 6개월간 진행한 프로젝트로 알파고 제로 (AlphaGo Zero) 알고리즘을 오목 환경에 적용하는 것을 목표로 진행한 프로젝트 입니다.
Pygame을 통해 환경을 구현하였으며 먼저 간단한 틱택토 (Tic-Tac_Toe) 환경에서 MCTS 알고리즘의 성능 검증을 진행했습니다.
틱택토 환경에서 MCTS 알고리즘을 적용한 결과는 다음과 같습니다. (O: 사람, X: MCTS)
다음으로는 동일하게 pygame으로 오목 환경을 구현하고 여기서 알파고 제로 알고리즘을 적용하였습니다. 해당 결과는 아래와 같습니다.
위와 같이 알파고 제로 알고리즘이 사람과 거의 동등한 성능을 보이거나 사람을 이기는 것을 확인할 수 있습니다!
Implementation
본 프로젝트의 코드는 다음의 Github를 참고해주세요.
https://github.com/reinforcement-learning-kr/alpha_omok
Reference
- Mastering the Game of Go with Deep Neural Networks and Tree Search
- Mastering the Game of Go without Human Knowledge
Team