ROC, AUC와 맨 휘트니 통계량 (Mann-whitney U)
이진 분류 문제에서 분류기는 1,0이 아닌 특정 클래스에 해당하는 확률로 예측값을 줍니다. 보통은 0.5를 기준으로 1,0으로 나누지만 데이터 불균형이나 문제에 따라 어느 지점부터 1로 처리할지 결정해야 합니다. 아래는 train set에서 실제 Y 값과 모델을 통해 얻은 score 값입니다. 이를 통해 ROC를 그려보고 AUC와, 그 계산에 있어 맨-휘트니 통계량과의 연관성을 확인해 보도록 하겠습니다. 전공 시험 등 컴퓨터 없이 ROC와 AUC를 계산해야 하는 경우 유용한 방법입니다. 실제 Y 1 0 0 1 1 0 1 0 0 0 예측 Y .96 .94 .89 .84 .71 .45 .39 .37 .23 .03 threshold는 0과 1을 가르는 기준점으로 이보다 크면 1로, 작으면 0으로 판정합니다. ROC는 Y축이 sensitivity, X축이 1-specificity입니다. 예측 score를 내림차순으로 정렬했다고 생각하고 threshold 값을 최대치인 1에서 0으로 감소시킨