label이 불균형한 분포를 가진 데이터세트는 이상 레이블을 가지는 데이터 수가 정상 레이블을 가진 데이터 수에 비해 너무 적기 때문에 예측 성능의 문제가 발생할 수 있다. 왜냐 이상 레이블 데이터 수는 적기에 다양한 유형을 학습하지 못하고 정상 레이블 데이터 수는 많기에 정상 레이블로 치우친 학습을 수행해 제대로 된 이상 데이터 검출이 어렵기 때문이다.
지도학습에서 불균형한 레이블 값 분포로 인한 문제점을 해결하기 위해서는 적절한 학습 데이터를 확보하는 방안이 필요한데 대표적인 것인 oversampling(오버 샘플링)과 언더 샘플링(Undersampling) 방법이 있다. 보통 오버 샘플링 방식이 예측 성능상 더 유리한 경우가 많아서..........
[ML] 언더 샘플링, 오버 샘플링에 대한 요약내용입니다.
자세한 내용은 아래에 원문링크를 확인해주시기 바랍니다.