한번 잘 만든 머신러닝 모델은 오랫동안 안정적으로 작동할 거라고 생각하기 쉽습니다. 하지만 시간이 지나면서 모델의 예측이 점점 빗나가고 있다면, '데이터 드리프트(Data Drift)'가 발생했을 가능성이 큽니다.
마치 내비게이션이 오래된 지도만 참고하다가 새로 생긴 길을 제대로 안내하지 못하는 것과 비슷한 상황입니다. 데이터 드리프트란 무엇일까요?
데이터 드리프트는 모델이 학습했던 데이터와 실제 운영 환경에서 들어오는 데이터의 분포가 달라지는 현상을 의미합니다. 그 원인은 여러 가지가 있습니다.
환경 변화 – 계절에 따라 소비 패턴이 바뀌거나, 새로운 트렌드가 생길 때 데이터 수집 방식 변화 – 설문 조사 방식이 달라지거나, 센서 장비가 교체될 때 사용자 행동 변화 – 소비자 취향이 변하면서 기존 패턴이 더 이상 유효하지 않을 때 이러한 변화가 발생하면, 기존 모델이 더 이상 데이터를 제대로 해석하지 못하고 성능이 떨어질 수밖에 없습니다. 데이터 드리프트가 모델에 미치는 영향...
원문 링크 : 데이터 드리프트: 머신러닝 모델의 숨은 위협과 대응 전략