[Attention, 어텐션] Neural Machine Translation by Jointly Learning to Align and Translate

Attention에 대해 공부하다보니 어느정도 블로그에 간략하게 올려볼까 생각이 들어 포스트해봅니다. 이 글을 보고 대략적으로 감만 잡고 참고한 링크들을 살펴보면 더 이해가 잘 되지 않을까 생각합니다.

[Attention 등장 배경] - 문장과 같은 순서가 중요한 sequence data에는 RNN 계열 모델이 많이 사용됨 - 앞의 데이터와 거리가 멀어질수록 예측 정확도가 떨어지는 long-term dependency problem이 존재 - 위의 문제를 해결하기 위해 LSTM, GRU 등이 등장 -> 그러나 완벽하게 이 문제를 해결하지는 못함 - RNN에 기반한 seq2seq 모델의 대표적인 문제점 2가지 > 1. 하나의 고정된 크기 벡터에 모든 정보를 압축하려다보니 정보 손실이 발생 > 2.

고질적 문제인 기울기값이 사라지는 문제(vanishing gradient)가 존재 [- 이를 해결하고자 Attention 메커니즘 등장 -] [Attention 아이디어, 개요] - 디코더에...

요청 처리 중입니다...

[Attention, 어텐션] Neural Machine Translation by Jointly Learning to Align and Translate

등록된 다른 글