이번 시간에는 TRPO 알고리즘에 대해 배워보겠습니다. TRPO(Trust Region Policy Optimization) 알고리즘은 강화학습 분야에서 많이 사용되는 정책 최적화 알고리즘입니다.
정책이란, 에이전트가 어떤 상태에서 어떤 행동을 취할지를 결정하는 것을 의미하며, TRPO는 이러한 정책을 효율적으로 개선하는 기법입니다. | TRPO 알고리즘 특징 TRPO 알고리즘의 가장 큰 특징은 정책 개선을 위한 수학적 정당성을 제공한다는 점입니다. 간단히 말해, 기존의 정책을 기반으로 새로운 정책을 생성할 때, 이 새로운 정책이 이전 정책보다 성능이 나아지도록 보장하는 것입니다.
이렇게 하기 위해 TRPO는 KL 발산(Kullback-Leibler divergence)이라는 수학적 개념을 사용하여 새로운 정책이 이전 정책과 너무 차이나지 않도록 제어합니다. 또한, TRPO는 복잡한 최적화 문제를 해결하기 위해 자연 경로(Gradient) 방법을 사용합니다.
이는 다양한 문제에서 효...
원문 링크 : TRPO 알고리즘 개요