Attention에 대해 공부하다보니 어느정도 블로그에 간략하게 올려볼까 생각이 들어 포스트해봅니다. 이 글을 보고 대략적으로 감만 잡고 참고한 링크들을 살펴보면 더 이해가 잘 되지 않을까 생각합니다.
[Attention 등장 배경] - 문장과 같은 순서가 중요한 sequence data에는 RNN 계열 모델이 많이 사용됨 - 앞의 데이터와 거리가 멀어질수록 예측 정확도가 떨어지는 long-term dependency problem이 존재 - 위의 문제를 해결하기 위해 LSTM, GRU 등이 등장 -> 그러나 완벽하게 이 문제를 해결하지는 못함 - RNN에 기반한 seq2seq 모델의 대표적인 문제점 2가지 > 1. 하나의 고정된 크기 벡터에 모든 정보를 압축하려다보니 정보 손실이 발생 > 2.
고질적 문제인 기울기값이 사라지는 문제(vanishing gradient)가 존재 [- 이를 해결하고자 Attention 메커니즘 등장 -] [Attention 아이디어, 개요] - 디코더에...
#
attention
#
translate
#
value
#
기계번역
#
기계학습
#
디코더
#
딥러닝
#
머신러닝
#
번역
#
어텐션
#
오토인코더
#
은닉
#
인코더
#
입력
#
softmax
#
seq2seq
#
autoencoder
#
decoder
#
deep
#
deeplearning
#
encoder
#
gradient
#
gru
#
hiddenstate
#
lstm
#
machinelearning
#
query
#
rnn
#
score
#
출력