개인적으로 랜덤포레스트와 앙상블은 진짜 많이 사용하기 때문에 제대로 공부할 필요가 있다고 생각한다. Ensemble 정의 : 약한 분류기들을 결합하여 강한 분류기로 만드는 것 종류 Bagging : Boostrap + Aggregation Boosting Stacking Bagging 배깅은 부트스트랩을 기반으로 진행하기 때문에 부트스트랩이 뭔지 파악해야한다.
Bootstrap random sampling을 적용하는 방법으로 Train data에서 여러 번 복원 추출하는 기법이다. 추출되는 샘플들을 부트스트랩 샘플이라 부르며 이론적으로 36.8%의 샘플이 뽀ㅃ히지 않게 된다고 한다.
(Out-of-Bag 생플) OOB 평가 추출되지 않는 샘플을 이용해 Cross-Validation(교차 검증)에서 Valid 데이터로 사용 가능하다 Aggregation Voting을 통해서 약 분류기들의 예측 결과를 통합한다 Hard Voting : 다수의 분류기가 결정한 값을 최종 예측값으로 선정 ...
#
랜덤포레스트
#
배깅
#
부트스트랩
#
앙상블