이번 포스팅은 데이터 스케일링 중 하나인 로그 변환을 굉장히 잘 활용한 대표 예시를 보여 주며, 머신러닝 공부를 한다면 한 번 쯤 언급될 데이터셋 중 하나이다. Kaggle에서 열리는 대회 중 하나 인 자전거 공유 수요는 상당한 수준의 인기와 참여를 보여준다.
날씨, 시간 및 기타 관련 데이터와 함께 과거 사용 패턴을 분석하여 참가자들이 워싱턴 DC의 자전거 대여 수요를 예측하는 과제이다. 특히 가장 높은 Vote를 받은 카글의 "EDA & Ensemble Model (Top 10 Percentile)"은 데이터 스케일링을 가장 적절히 활용하였다.
Kaggle : Bike Sharing Demand https://www.kaggle.com/c/bike-sharing-demand/discussion?sort=votes Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 훈련 데이터는 하기 링크에서 받으면...
#
데이터
#
로그변환
#
머신러닝
#
스케일링
#
정규화
#
중요성