[강화 학습 - 1] 확률적 프로세스(Stochastic Process) 이토 적분(Itô Integral)

강화학습을 공부하기에 앞서 확률적 프로세스가 무엇인지 알아야 한다. 강화학습과 확률적 프로세스 강화학습의 이론적 기반은 마코프 결정 프로세스(Markov Decision Process, MDP)이고, MDP에서 다음 상태 St+1 와 보상 Rt+1 은 현재 상태 St 와 액션 At 에 따라 확률 분포로 결정된다.

즉, MDP 자체가 확률적 프로세스에 해당하며, 강화학습 에이전트는 이 확률적 환경에서 최적 행동을 학습하려고 한다. 에이전트가 탐색을 위해 의도적으로 액션에 노이즈를 섞는 경우도 있다.

연속 행동의 경우 OU 노이즈를 넣는데 이 또한 확률적 프로세스이다. 확률적 프로세스(Stochastic Process)와 확률 미분방정식(SDE) 확률적 프로세스란, 시간 또는 어떤 인덱스를 따라 변화하는 확률변수의 모임이다.

결정론적 미분방정식에 예측 불가능한 잡음이 추가되어, 시간에 따른 상태 xt 가 확률적으로 변해가는 과정을 확률적 프로세스라고 한다. 결정론적 프로세스의 경우 동일...

요청 처리 중입니다...

[강화 학습 - 1] 확률적 프로세스(Stochastic Process) 이토 적분(Itô Integral)

등록된 다른 글