이제는 8x8 짜리 더 큰 맵에서 DQN 을 적용해보자! 푸는 논리는 똑같다.
다만 맵이 더 커졌으니 신경망을 더 깊게 구성하고 일부 변수를 수정했다. 전체 소스코드는 다음과 같다.
이번엔 리플레이 버퍼에 충분한 데이터를 쌓고 학습하도록 500번째 에피소드부터 Training 한다. 그리고 4x4 에서는 rewar에 별도의 값을 넣었는데 이번에는 모두 0으로 놓고 오로지 Goal에 도달할 때의 reward만을 믿고 돌렸다.
또한 언제까지 돌릴지 막연하여 만번까지로 에피소드를 늘렸다. 코드의 전체 논리는 4x4 때와 똑같으니 추가 설명은 생략하도록 하겠다.
돌려보면 다음과 같은 결과가 나온다. 에피소드 900번대까지 돌려도 갈피를 못 잡는 걸 볼 수 있다..........
[인공지능] RL(강화학습) 4강 - Frozen Lake 8x8 with DQN 구현에 대한 요약내용입니다.
자세한 내용은 아래에 원문링크를 확인해주시기 바랍니다.