강화학습의 한계를 넘어 ‘자기 개선 AI’로 - AI의 검증 능력을 키우는 구글 딥마인드 RLV 기술 최근 들어 대형 언어 모델을 더 똑똑하게 만들기 위해 ‘강화학습(Reinforcement Learning)’을 활용하는 사례가 늘어나고 있습니다. 특히 DeepSeek-R1과 같은 모델에서는 GRPO(Group Relative Policy Optimization) 같은 contents.premium.naver.com 최근 들어 대형 언어 모델을 더 똑똑하게 만들기 위해 ‘강화학습(Reinforcement Learning)’을 활용하는 사례가 늘어나고 있습니다.
특히 DeepSeek-R1과 같은 모델에서는 GRPO(Group Relative Policy Optimization) 같은 강화학습 기법을 사용해 모델이 수학 문제를 푸는 능력이나 추론 과정을 개선하고 있습니다. GRPO는 기존의 대표적인 알고리즘인 PPO(Proximal Policy Optimization)에서 더 발전된 방...