로딩
요청 처리 중입니다...

(딥 러닝) gradient clipping

 (딥 러닝) gradient clipping

개요 RNN의 경우에는 BPTT라는 역전파 방식을 사용하여 기울기를 계산한다. (딥 러닝) 순환 신경망(RNN) 개념 수정 : `22.03.05 순환 신경망 (RNN : Recurrent Neural Network) 심층 신경망의 기본 단위는 ... blog.naver.com 매 time-step(sequence) 마다 파라미터에 기울기가 더해지기 때문에 입력의 길이에 따라 기울기의 크기가 달라진다.

즉, 길이가 기울기 값에 영향을 미칠 수 있다는 것인데 길이가 길면 길 수록 기울기가 급격하게 커질 수 있으므로, 학습률을 조절하여 경사하강을 통한 step을 조절할 필요가 있다. 또한 학습률이 너무 커져버리면 한 번 step에 파라미터 값이 지나치게 커져버려서 자칫하다간 잘못된 방향으로 학습되거나 발산해버릴 수 있다.

기울기의 크기인 norm이 너무 커지는 것에 대한 한가지 대책으로 학습률을 아주 작게 설정하는 방법이 있다. 하지만 작은 학습률을 사용하게 된다면 정상적인 기울기 크기를...