강화학습 & 로봇 AI (인공지능 / 알파고 / 시뮬레이션 / 에이전트 / 트랜스포머 신경망 / 데이터 / 게임 자율주행 반도체 설계 휴머노이드 / 구글 딥마인드 메타 테슬라)

1. 강화학습 (Reinforcement Learning) - 일반적인 신경망과는 매우 다른 종류의 알고리즘으로 쉽게 말하면 시행착오법이라 할 수 있음.

학습하는 시스템을 에이전트(Agent)라고 부르며, 에이전트가 환경을 관찰해서 행동을 실행하고 그 결과로 보상 또는 벌점을 받음 - 시뮬레이션 상에 에이전트를 놓고 아주 적은 정보(미션, 행동 제약 등)만을 제공한 다음, 에이전트가 알아서 무작위로 행동하도록 함. 그리고 그 행동의 결과가 미션을 수행하는데 도움이 되면 보상을 주어 그와 같은 행동을 더욱 하도록 강화, 그 반대의 경우엔 벌점을 주어 하지 않도록 학습시키는 구조 - 이를 통해 계속 시행착오를 겪다 보면 에이전트는 가장 큰 보상을 얻기 위해 정책(policy)이라고 부르는 최상의 전략을 스스로 터득.

정책은 주어진 상황에서 에이전트가 어떤 행동을 해야 할지 정의 - 강화학습은 실패해도 다시 시도하면 되는 게임 등에서는 매우 효과가 있지만, 실제 사람이 사는 세계에 적용하...

요청 처리 중입니다...

강화학습 & 로봇 AI (인공지능 / 알파고 / 시뮬레이션 / 에이전트 / 트랜스포머 신경망 / 데이터 / 게임 자율주행 반도체 설계 휴머노이드 / 구글 딥마인드 메타 테슬라)

등록된 다른 글