개요 객체 탐지 문제를 공부하기 이전에 우선 전통적인 이미지 분류 문제를 한번 생각해봐야한다. 위 그림은 CNN Architecture를 사용하여 분류를 하는 과정을 간단하게 보인 것이다.
CNN을 거치고 난 후의 Feature Map을 Flatten하여 생성되는 Output Vector로 N개의 클래스를 분류하는 것이 위 그림의 목표인데 "만약 CNN을 거치고 난 후의 Feature Map에서 위치 정보까지 근사시킬 수 있다면 어떻게 될까?"에서 시작된 것이 바로 Object Detection의 아이디어라고 생각하면 될 것 같다.
그럼 가중치 업데이트는 어떤 방식으로 진행을 하게 될까? Object Detection의 결과값에는 분류 정보와 위치 정보가 모두 포함되어있다.
바로 아래의 그림과 같이 말이다. 당연히 학습하기 전이기 때문에 위치 정보나 분류 정보가 이상하게 나올 것이다.
이렇게되면 당연하게 우리의 목표는 우리가 원하는 값을 얻는 방향으로 가중치를 업데이트하는 것이 된다...
원문 링크 : (객체 탐지) Object Detection 개요