머신러닝의 모델은 대부분 매우 유연하기 때문에 훈련데이터에 지나치게 최적화 되기가 쉽다. 그러나 이는 바람직하지 않다.
왜냐하면 훈련데이터는 모집단의 일부일 경우가 많고 설령 모집단이라고 하더라도, 설명변수와 반응변수에 측정오차(measurement error)들이 있을 수 있으며, 반응변수는 설명변수가 설명하지 못하는 오차(error)를 필연적으로 가질수 밖에 없기 때문이다. 즉, 통계학적인 관점에서 봤을때 보통 반응변수 Y는 Y=f(X)+ϵ 과 같이 필연적으로, X가 설명하지 못하는 무작위적인 랜덤한 오차가 더해지게 된다.
그런데 만약 모델이 관측된 X와 Y만 가지고 지나치게 이들의 규칙을 따라가다 보면, 무작위적인 랜덤한 오차가 만들어내는 규칙까지 따라갈수가 있다. 이는 우리가 원래 찾고자 한 규칙인 함수 f가 아닐 것이다.
그러면 우리가 이 숨겨진 함수 f를 찾기 위해서는 어떻게 해야 할까? 모델을 적당히 유연하게 만들어야 할것이다.
그렇다면 여기서 적당히의 기준이 무엇일까....
#
머신러닝
#
튜닝의중요성
원문 링크 : 머신러닝에서 튜닝의 필요성