오늘은 데이터 불균형 해소 방법에 대해 포스팅하려고 합니다. 데이터 불균형은 sampling(over sampling, under sampling, 복합 샘플링)을 통해 해결할 수 있습니다.
이번 포스팅에서는 Over Sampling에 대해서 먼저 알아보고, 이후에 Under Sampling, 복합 샘플링을 차례로 포스팅하겠습니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** ** 본 포스팅은 고려대학교 김성범 교수님 유튜브 강의를 참고해 정리한 글입니다. ** 들어가기 전에 Sampling, 왜 필요할까? 불균형 데이터 문제 해결!
Sampling에 대해 알아보기 전에 Sampling이 왜 필요한지 먼저 알아봅시다. 결론부터 말씀드리자면, 불균형 데이터의 문제점을 해결하기 위해서입니다.
그림1 [그림1]을 보시면, 이상 데이터가 정상 데이터에 비해 적습니다. 이 경우, 분류 경계선이 다음과 같이 형성됩니다.
이때 회색점들은 아직 발견되지는 않았지만 이상 관측치인 경우...
#
oversampling
#
sampling
#
undersampling
#
공부블로그
#
대학생
#
데이터
#
불균형
#
전처리
#
통계학과