요청 처리 중입니다...

강화학습의 보상을 계산해보자_Q function, Bellman Equation

2024-04-09 01:34:17

coursera에서 deep learning.ai Andrew Ng 교수님의 [Unsupervised Learning, Recommenders, Reinforcement Learning] 강의를 듣고 정리한 내용입니다 여기서 다루는 키워드 - State Action value function - Q function - Bellman Equation 이미 최적의 정책(optimal policy)를 가지고 있다고 할 때, 어떤 행동을 한 후에 최적의 정책에 따라 행동한 후 return값을 계산해주는 함수가 있습니다 그 함수를 State Action value function, 다른말로 Q function이라고 부릅니다 State action value function: Q(s, a) 사용자가 처한 상태(s), 그 상태에 할 수 있는 행동(a) 어떤 상태에서 어떤 행동을 했을 때, 최적의 정책에 따라 Return 값을 계산하는 함수입니다 Return값 계산 방법 state s에서 시작합니...

# bellmanEquation # Q_function # Q함수 # return # 강화학습 # 딥러닝 # 머신러닝 # 보상

원문 링크 : 강화학습의 보상을 계산해보자_Q function, Bellman Equation

등록된 다른 글

[딥러닝 개념 1] Perceptron에 대해 알아보자

[99클럽 코테문제 10]_<프로그래머스> 짝수와 홀수(Lv1), 문자열 내 마음대로 정렬하기(Lv1) | python풀이

[딥러닝 개념 9] 신경망 구조의 문제점_Gradient Vanishing, Overfitting, Covariate Shift

패스트캠퍼스 환급챌린지 32일차 미션(3월 3일) : 한 번에 끝내는 컴퓨터비전 초격차 패키지 Online 강의후기

패스트캠퍼스 환급챌린지 43일차 미션(3월 14일) : 한 번에 끝내는 컴퓨터비전 초격차 패키지 Online 강의후기

2020 수원카페&베이커리 페어)SNS 인증 이벤트!!