강화학습을 공부하기에 앞서 확률적 프로세스가 무엇인지 알아야 한다. 강화학습과 확률적 프로세스 강화학습의 이론적 기반은 마코프 결정 프로세스(Markov Decision Process, MDP)이고, MDP에서 다음 상태 St+1 와 보상 Rt+1 은 현재 상태 St 와 액션 At 에 따라 확률 분포로 결정된다.
즉, MDP 자체가 확률적 프로세스에 해당하며, 강화학습 에이전트는 이 확률적 환경에서 최적 행동을 학습하려고 한다. 에이전트가 탐색을 위해 의도적으로 액션에 노이즈를 섞는 경우도 있다.
연속 행동의 경우 OU 노이즈를 넣는데 이 또한 확률적 프로세스이다. 확률적 프로세스(Stochastic Process)와 확률 미분방정식(SDE) 확률적 프로세스란, 시간 또는 어떤 인덱스를 따라 변화하는 확률변수의 모임이다.
결정론적 미분방정식에 예측 불가능한 잡음이 추가되어, 시간에 따른 상태 xt 가 확률적으로 변해가는 과정을 확률적 프로세스라고 한다. 결정론적 프로세스의 경우 동일...
#
ito
#
reinforcelearning
#
SDE
#
stochastic
#
강화학습
#
이토적분
#
확률론
#
확률미분방정식