로딩
요청 처리 중입니다...

강화학습의 보상을 계산해보자_Q function, Bellman Equation

 강화학습의 보상을 계산해보자_Q function, Bellman Equation

coursera에서 deep learning.ai Andrew Ng 교수님의 [Unsupervised Learning, Recommenders, Reinforcement Learning] 강의를 듣고 정리한 내용입니다 여기서 다루는 키워드 - State Action value function - Q function - Bellman Equation 이미 최적의 정책(optimal policy)를 가지고 있다고 할 때, 어떤 행동을 한 후에 최적의 정책에 따라 행동한 후 return값을 계산해주는 함수가 있습니다 그 함수를 State Action value function, 다른말로 Q function이라고 부릅니다 State action value function: Q(s, a) 사용자가 처한 상태(s), 그 상태에 할 수 있는 행동(a) 어떤 상태에서 어떤 행동을 했을 때, 최적의 정책에 따라 Return 값을 계산하는 함수입니다 Return값 계산 방법 state s에서 시작합니...

# bellmanEquation # Q_function # Q함수 # return # 강화학습 # 딥러닝 # 머신러닝 # 보상