로딩
요청 처리 중입니다...

[자연언어처리 개론] (12) 딥러닝 모델의 하이퍼파라미터와 과적합 (hyperparameter, overfitting)

 [자연언어처리 개론] (12) 딥러닝 모델의 하이퍼파라미터와 과적합 (hyperparameter, overfitting)

1. Mini-batch 딥러닝 모델에서 알맞은 weight를 찾아내는 학습 과정은 다음과 같습니다. computational graph / loss function 정의 forward 계산 loss 계산 backward 계산 weight 재조정 이때 학습 데이터 전체를 forward -> loss -> backward 계산해서 업데이트 할 수도 있습니다.

이렇게 모든 학습 데이터를 사용하는 것을 batch 라고 합니다. 그러나 학습 데이터를 작게 쪼개서 사용하는 것을 mini-batch라고 합니다.

보통 batch 크기는 2^4 ~2^5 정도입니다. batch 단위로 오류를 계산하고 W를 조정하는 것을 mini-batch stochastic gradient descent라고 부릅니다. 만약 10만개를 32개 단위의 mini-batch로 학습시킨다면, 3,125번의 반복이 필요합니다.

또 전체 학습 데이터에 대한 수행 횟수를 epoch라고 합니다. 만약 epoch=10이라면 총 31...

# AI # hyperparameter # minibatch # overfitting # 과적합 # 딥러닝 # 머신러닝 # 하이퍼파라미터