coursera에서 deep learning.ai Andrew Ng 교수님의 [Unsupervised Learning, Recommenders, Reinforcement Learning] 강의를 듣고 정리한 내용입니다 여기서 다루는 키워드 - State Action value function - Q function - Bellman Equation 이미 최적의 정책(optimal policy)를 가지고 있다고 할 때, 어떤 행동을 한 후에 최적의 정책에 따라 행동한 후 return값을 계산해주는 함수가 있습니다 그 함수를 State Action value function, 다른말로 Q function이라고 부릅니다 State action value function: Q(s, a) 사용자가 처한 상태(s), 그 상태에 할 수 있는 행동(a) 어떤 상태에서 어떤 행동을 했을 때, 최적의 정책에 따라 Return 값을 계산하는 함수입니다 Return값 계산 방법 state s에서 시작합니...
#
bellmanEquation
#
Q_function
#
Q함수
#
return
#
강화학습
#
딥러닝
#
머신러닝
#
보상