Transformer #1 - Attention Mechanism

0. Background Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다.

Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다.

입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 출발합니다.

이렇게 하면, 문장이 길어져도 앞쪽의 Data들도 제대로 Decoder의 입력으로 사용할 수 있다는 것입니다. 짧게 이야기했지만, Attention Mechanism에 대해서 잘 설명해 주...

요청 처리 중입니다...

Transformer #1 - Attention Mechanism

등록된 다른 글