지금까지의 데이터과학에서는 통계학,머신러닝,딥러닝 각각에 훌륭한 예측모델 후보군들이 있다. 예를들면, 통계학에서는 커널을 이용한 모형(SVM 및 커널머신 또는 gaussian process), 머신러닝에서는 트리를 이용한 랜덤포레스트, 딥러닝에서는 여러 layer들을 이용한 DNN(Deep Neural Network) 이 있다.
뭐 이 외에도 많은 모델들이 있겠지만 내가 생각했을때 대표주자로 생각되는 모델들이다. 그런데 통계학에서의 모델인 SVM은 커널을 이용해서 꽤나 유연한 함수(반응변수와 설명변수의 관계)를 잡아내지만 데이터가 커지면 시간이 오래걸리고(튜닝때문에 배로 걸리지만, 이는 연산 병렬처리로 해결이 되는듯 하다.
하지만 연산 시간이 데이터의 개수에 세제곱배로 늘어나는거로 알고 있다.) 성능도 랜덤포레스트에 미치지 못하는것 같다.
(개인적인 경험으로는 그렇다.) 한편, 랜덤포레스트는 그냥 무난하다.
별도의 튜닝을 하지 않아도 꽤나 좋은 성능을 내며 데이터가 커지면 좀 오래 걸...
#
데이터사이언스
#
예측모델
원문 링크 : 예측모델 만들기.