저번 포스팅에서는 state 데이터로 회귀모델을 만들고 회귀모형의 가정사항 만족여부에 대한 진단을 실시해보았다. 이번 포스팅에서는 특이한 관찰값의 존재유무를 확인하는 방법을 포스팅해보겠다.
특이한 관찰값이란? 회귀계수의 추정에 과도하게 큰 영향을 미치는 관찰값 혹은 추정된 회귀모형으로는 설명이 잘 안되는 이상값이다.
데이터가 주어져있을 때 상황상 당연하게 나와야 하는 관찰값을 제거하여 모형을 적합하면 모형은 좋아질 수 있다. 그러나 모형에 대하여 설명력이 좋아지지 않을 수 있다.
만약 이상값에 해당되는 관찰값의 영향력이 크다면 회귀계수의 추정을 왜곡시켜 그렇게 크지 않은 잔차를 갖게 될 수 도 있다. 그래서 이상값을 판단할 때는 일반적인 잔차가아닌 스튜던트화 잔차를 이용해야한다.
영향력이 큰 관찰값을 발견하는데 필요한 통계량으로는 4가지가 있다. - DFBETAS: i번째 관찰값을 포함한 상태와 제외한 상태에서 각각 추정한 개별 회귀계수의 차이 1번째 관찰값을 넣고 추정한 회귀모형과...
원문 링크 : 특이한 관찰값 탐지와 회귀모형 예측