이번 포스팅에서는 이항반응변수의 범주에서 우리가 관심을 갖는 '성공'의 비율인 Event범주가 '실패'의 범주인 NonEvent 범주의 발생가능성보다 현저하게 낮은 경우에 어떤식으로 자료분석을 해야하는지 포스팅 해볼 것이다. 보통 Event 범주와 NonEvent 범주의 비율이 비슷하거나 크게 차이가 나지 않는 경우가 대부분일 것이다.
하지만 보험사기를 판별하는 때라던지 약품의 부작용 발생, 카드의 부정 사용같은 경우에는 Event 사건이 발생할 확률이 NonEvent 사건이 발생할 확률보다 현저하게 낮을 것이다. 위와같이 Event 범주가 발생할 가능성이 매우 낮은 희귀사건은 통계적 분류모형의 활용도에 큰 문제가 생길 수 있다.
모형에서 Event 범주에 대한 확률이 매우 낮게 추정될 가능성이 있고, 모든 자료를 NonEvent로 분류하여 민감도가 너무 낮아질 수 있다. 이렇게되면 분류를 하는 의미가 없어지게 되는 것이다.
따라서 우리는 희귀사건의 영향을 낮출 수 있는 대안을 찾아...
원문 링크 : 로지스틱 회귀모형 희귀사건 분류