로딩
티스토리 데이터 처리 중입니다.

[개발자를 위한 LLM] 멀티 헤드 어텐션 상세 동작 과정 (Transformer Multi-head Attention Detailed Process)

 [개발자를 위한 LLM] 멀티 헤드 어텐션 상세 동작 과정 (Transformer Multi-head Attention Detailed Process)

멀티 헤드 어텐션의 상세 동자 과정에 대해서 알아보겠습니다. 멀티 헤드 어텐션 (Multi-head Attention)멀티 헤드 어텐션을 간단히 말하면 셀프 어텐션을 여러번 수행하는것 입니다.

마스크드 멀티 헤드 어텐션은 멀티 헤드 어텐션과 동일한 과정을 수행하지만 타겟의 일부를 마스킹 처리하는것이 멀티 헤드 어텐션과 다른 점입니다. 멀티 헤드 어텐션은 수행 순서는 다음과 같습니다.각 헤드는 독립적으로 셀프 어텐션을 수행.

각 헤드는 동일한 입력에 대해 다른 Q,K,V 가중치 행렬을 사용하여 셀프 어텐션 계산모든 헤드의 셀프 어텐션 출력 결과를 이어 붙여 각 헤드의 분석결과 통합도출한 결과에 최종 가중치 W0를 곱하여 최종 출력 만듦결과적으로 결과는 각각의 헤드가 분석한 결과의 총 합멀티 헤드 어텐션은 .....