1. 강화학습 (Reinforcement Learning) - 일반적인 신경망과는 매우 다른 종류의 알고리즘으로 쉽게 말하면 시행착오법이라 할 수 있음.
학습하는 시스템을 에이전트(Agent)라고 부르며, 에이전트가 환경을 관찰해서 행동을 실행하고 그 결과로 보상 또는 벌점을 받음 - 시뮬레이션 상에 에이전트를 놓고 아주 적은 정보(미션, 행동 제약 등)만을 제공한 다음, 에이전트가 알아서 무작위로 행동하도록 함. 그리고 그 행동의 결과가 미션을 수행하는데 도움이 되면 보상을 주어 그와 같은 행동을 더욱 하도록 강화, 그 반대의 경우엔 벌점을 주어 하지 않도록 학습시키는 구조 - 이를 통해 계속 시행착오를 겪다 보면 에이전트는 가장 큰 보상을 얻기 위해 정책(policy)이라고 부르는 최상의 전략을 스스로 터득.
정책은 주어진 상황에서 에이전트가 어떤 행동을 해야 할지 정의 - 강화학습은 실패해도 다시 시도하면 되는 게임 등에서는 매우 효과가 있지만, 실제 사람이 사는 세계에 적용하...
#
휴머노이드
#
로봇
#
자율주행
#
메타
#
인공지능
#
반도체
#
시뮬레이션
#
신경망
#
알파고
#
딥마인드
#
데이터
#
AI
#
페이스북
#
트랜스포머
#
테슬라
#
에이전트
#
강화학습
#
게임
#
구글
#
지도학습
#
웨이모
#
어텐션
#
모빌아이
#
모방학습
#
리얼월드
#
Transformer
#
GNN
#
Gato
#
CNN
#
AGI
원문 링크 : 강화학습 & 로봇 AI (인공지능 / 알파고 / 시뮬레이션 / 에이전트 / 트랜스포머 신경망 / 데이터 / 게임 자율주행 반도체 설계 휴머노이드 / 구글 딥마인드 메타 테슬라)