0. Introduction 0.1.
Gradient Vanishing / Exploding Neural Network의 Train시에 Gradient 값의 변화를 보고 Parameter를 조절합니다. Gradient는 변화량, 즉 미분값입니다.
Neural Network의 깊이가 깊어질수록 Backpropagation시에 Gradient 값들이 Input Layer의 입력값의 변화를 적절하게 학습에 반영하지 못합니다. Backpropagation시에, Non-Linear Activation Function(Ex.
Sigmoid / Tanh )들을 사용하면 Layer를 지날수록 Gradient 값들이 점점 작아지거나(Gradient Vanishing) 혹은 반대로 Gradient 값들이 점점 커져서(Gradient Exploding), Input Layer의 변화량에 따른 Output Layer의 변화량을 Neural Network의 Parameter에 제대로 반영을 하지 못하는 상...
#
Activation
#
LearningRate
#
Mean
#
NeuralNetworks
#
Normalization
#
Optimization
#
Overfitting
#
PyTorch
#
Regularization
#
Residual
#
Smoothing
#
TensorFlow
#
Variance
#
Weight
#
Learning
#
Landscape
#
ActivationDistributions
#
Backpropagation
#
Batch
#
BatchNormalization
#
Connection
#
Covariate
#
CovariateShift
#
Deep
#
DeepLearning
#
Gradient
#
ICS
#
InternalCovariateShift
#
Keras
#
WeightsInitialization
원문 링크 : Batch Normalization