머신러닝에서 튜닝의 필요성

머신러닝의 모델은 대부분 매우 유연하기 때문에 훈련데이터에 지나치게 최적화 되기가 쉽다. 그러나 이는 바람직하지 않다.

왜냐하면 훈련데이터는 모집단의 일부일 경우가 많고 설령 모집단이라고 하더라도, 설명변수와 반응변수에 측정오차(measurement error)들이 있을 수 있으며, 반응변수는 설명변수가 설명하지 못하는 오차(error)를 필연적으로 가질수 밖에 없기 때문이다. 즉, 통계학적인 관점에서 봤을때 보통 반응변수 Y는 Y=f(X)+ϵ 과 같이 필연적으로, X가 설명하지 못하는 무작위적인 랜덤한 오차가 더해지게 된다.

그런데 만약 모델이 관측된 X와 Y만 가지고 지나치게 이들의 규칙을 따라가다 보면, 무작위적인 랜덤한 오차가 만들어내는 규칙까지 따라갈수가 있다. 이는 우리가 원래 찾고자 한 규칙인 함수 f가 아닐 것이다.

그러면 우리가 이 숨겨진 함수 f를 찾기 위해서는 어떻게 해야 할까? 모델을 적당히 유연하게 만들어야 할것이다.

그렇다면 여기서 적당히의 기준이 무엇일까....

요청 처리 중입니다...

머신러닝에서 튜닝의 필요성

등록된 다른 글