파이썬 데이터 분석과 머신러닝 과정에서 필수적으로 수행되는 결측치(NaN) 처리와 이상치(Outlier) 처리 방법을 다룹니다. 데이터에 결측치나 이상치가 많으면 모델 성능이 저하되거나 통계적 왜곡이 일어날 수 있으므로, 이에 대한 적절한 대응 방안을 마련해야 합니다.
이 글에서는 평균, 중앙값 등 간단한 대체 방식, 모델 예측을 이용한 고급 대체 방식, 그리고 이상치 탐지(박스플롯, 표준편차 등) 기법을 예시 코드와 함께 상세히 설명합니다. 4.2 결측치(NaN)와 이상치(Outlier) 처리 1) 결측치(NaN)란 무엇인가? 결측치(Missing Value)는 관측되지 않은 데이터나, 측정이 실패하여 존재하지 않는 값(NaN: Not a Number, None, null 등)을 말합니다.
머신러닝에서는 결측치를 적절히 처리하지 않으면 모델 학습이나 예측 과정에서 에러가 발생하거나, 왜곡된 결과를 초래할 수 있습니다. (1) 결측치 발생 원인 설문조사에서 응답자가 답변을 생략 측정...
원문 링크 : 파이썬과 함께하는 머신러닝:4.2 결측치와 이상치 처리