이번 포스팅에서는 서포트 벡터머신의 오류인 분류 오류와 마진 오류에 대해서 알아보고 이를 최소화하는 방법을 알아볼 것이다. "서포트벡터머신의 오류= 마진오류 + 분류오류" 로 이루어져있다.
당연히 오류이니까 두개를 최소화 하는 것이 가장 좋을 것이다. 그렇다면 분류오류는 무엇이고 마진오류는 무엇일까?
분류오류: 데이터가 들어왔을 때 잘못 분류 됌 마진오류: 마진이 작아서 데이터가 잘못 분류 됌 우리는 지금까지 마진을 최대화 하는것이 가장 좋다고 했다. 1번 선처럼 마진을 최대화하여 마진오류를 작게하였다. 그렇다면 두 서포트벡터 사이의 거리가 커지기 때문에 데이터가 들어왔을 때 잘못 분류가 될 수 있다.(1번선을 넘은 동그라미는 네모로 분류된다) 이것을 분류오류라고 한다. 2번 선처럼 마진을 작게하면 데이터가 들어왔을 때 잘못분류될 일은 없을 것이다.
그래서 분류오류는 최소화가 된다. 그러나 마진이 작아지기에 마진오류가 커지게 된다.
즉, 두개의 오류들은 서로 트레이드 오프관계이다. ...
원문 링크 : 분류 오류와 마진 오류의 최소화