RNN 의 장기의존성 문제를 해결하는 트랜스포머 아키텍처에서 사용되는 어텐션 메커니즘의 한 변경. 입력 시퀀스의 다른 위치들 간 상대적인 중요성을 계산하고 이를 기반으로 가중합을 수행하여 출력 생성.
정의 트랜스포머의 핵심 구성 요소, 입력 시퀀스 다른 위치들 간 관계 모델링 여러 개의 어텐션 헤드를 병렬로 사용하여 입력에 대한 다양한 관점 고려 각 어텐션 헤드는 다른 가중치 행렬을 가지고 독립적으로 어텐션 연산을 수행해 결과 결합하여 출력 생성 구조 3가지 단계 : 선형 변환 입력을 다른 차원으로 매핑하기 위해 각각의 어텐션 헤드에 대해 선형 변환을 수행 어텐션 계산 각 어텐션 헤드는 쿼리, 키, 벨류를 사용하여 어텐션 스코어 계산 출력 생성 각 어텐션 헤드의 출력을 결합하고 선형변환을 통해 최종 출력 생성 계산 방법 선형변환 입력에 대해 각 어텐션 헤드에 대한 가중치 행렬을 곱하여 다른 차원으로 매핑 어텐션 스코어 계산 쿼리, 키, 벨류를 사용하여 각 어텐션 헤드에 대한 어텐션 ...
원문 링크 : Multi Head Attention