이번 글에서는 attention score를 구하는 다양한 방법들에 대해서 알아보겠습니다. 총 3가지의 메커니즘을 다룰 것입니다.
하나는 이전 글에서도 사용했던 dot product이며 가장 기본적인 방법일 것입니다. 두 번째는 그 dot product를 조금 더 일반화한 방법입니다.
마지막은 두 hidden 벡터를 concatenation하여 구하는 방법입니다. 자세한 내용은 아래에서 다루겠습니다. dot product 이전 글에서 확인했듯이 어텐션 스코어를 구하는 가장 기본적인 방법입니다.
잠깐 다시 복습하자면 디코더의 h 벡터를 인코더의 h 벡터들과 스칼라곱을 하여 어텐션 스코어를 구하는 방식이었죠. general 다음은 general한 dot product를 사용하는 방법입니다. dot product의 일반적인 표현은 다음과 같습니다. 두 벡터를 스칼라곱하는 과정 사이에 항등행렬 I를 사이에 곱하는 것입니다.
직접 계산해봐도 결과는 같습니다. 만약 가운데에 있는 행렬의 원소 ...
#
attention
#
어텐션
#
스칼라곱
#
메커니즘
#
기울기문제
#
기계번역
#
general
#
dotproduct
#
concate
#
해석가능성
원문 링크 : attention mechanism