기울기 소멸 문제를 해결하기 위해서 깊은 신경망 구조에서는 ReLU 활성 함수를 사용하는 것이 일반적이었다. 하지만 언제부턴가 언어모델(LM)의 활성 함수로 GELU를 사용하는 빈도가 점차 늘어나기 시작했는데 이번 포스트에서는 GELU에 대해 공부해보도록 하자.
관련 논문 : https://arxiv.org/pdf/1606.08415.pdf GELU(Gaussian Error Linear Uint) 최신의 언어 모델(LM)이 주로 사용하는 함수인 GELU는 2016년에 나온 꽤 오래된 함수이다. GELU를 자세히 공부해기 전에 ReLU와 dropout의 정의에 대해 잠깐만 훑어보고 가보자.
ReLU 함수의 특징은 c 값의 부호에 따라 0 또는 1을 곱하고 dropout의 특징은 c 값에 확률적으로 0 또는 1을 곱한다는 특징을 가진다. 즉, ReLU는 deterministic한 연산이고 dropout은 stochastic한 연산이라고 말할 수 있다.
여기서 GELU는 c의 부호에 영...
원문 링크 : (딥 러닝) 은닉층 활성 함수 / GELU 함수