이진 분류 문제에서 분류기는 1,0이 아닌 특정 클래스에 해당하는 확률로 예측값을 줍니다. 보통은 0.5를 기준으로 1,0으로 나누지만 데이터 불균형이나 문제에 따라 어느 지점부터 1로 처리할지 결정해야 합니다.
아래는 train set에서 실제 Y 값과 모델을 통해 얻은 score 값입니다. 이를 통해 ROC를 그려보고 AUC와, 그 계산에 있어 맨-휘트니 통계량과의 연관성을 확인해 보도록 하겠습니다.
전공 시험 등 컴퓨터 없이 ROC와 AUC를 계산해야 하는 경우 유용한 방법입니다. 실제 Y 1 0 0 1 1 0 1 0 0 0 예측 Y .96 .94 .89 .84 .71 .45 .39 .37 .23 .03 threshold는 0과 1을 가르는 기준점으로 이보다 크면 1로, 작으면 0으로 판정합니다.
ROC는 Y축이 sensitivity, X축이 1-specificity입니다. 예측 score를 내림차순으로 정렬했다고 생각하고 threshold 값을 최대치인 1에서 0으로 감소시킨...