[쉽게 이해하는 강화학습] 2. 마르코프의 마음을 이해하자 MDP(Markov Decision Process) - 딥마인드(DeepMind) 강의
오늘은 1강 강화학습 개론에 이어 그 중에서 매우중요한 MDP 를 다루어 보도록 하겠습니다. 처음 이 글을 보시는 분은 1강의 MDP 도입부문을 봐주시면 됩니다. [쉽게 이해하는 강화학습] 1.강화학습 개론 DeepMind Learning Course 이 자료는 AI 대학원 입학전에 기초 지식(지도교수님의 연구실 온보딩 추천 자료)을 온전히 나의 것으로 ... blog.naver.com 2강은 Deepmind Reinforcement Learning 2강 MDP를 다룹니다. david 교수님의 강의자료 링크 이번 글에서는 MDP 혹은 마르코프체인부터 시작해서 강화학습에 필수적인 개념들을 다룰 예정입니다. MDP가 왜 강화학습에 등장했는지 복습차원에서 말씀드리면 강화학습이란 것은 우리가 삶을 살아가는 과정에서 배우고 행동하는 것과 유사합니다. 우리는 삶을 살아갈때 과거에 우리가 했던 것들을 고려하며 다음 행동을 정하고 미래로 나아가며 선택합니다. 다만 과거를 전부다 기억하지 않고 지금