0. Introduction 안녕하세요, 이번 Post에서는 Transformer의 Decoder에 대해서 자세히 알아보도록 하겠습니다.
Transformer Decoder의 각 부분을 구체적으로 하나씩 알아보도록 하겠습니다. Encoder에서 살펴본 구조도 몇몇 보이지만, Decoder는 이전의 Decoder 출력을 기반으로 현재 출력을 생성해 내는 자기 회귀적 특징으로 인해 조금씩 다른 부분이 있습니다.
Decoder에서 이런 자기 회귀적인 특징이 가장 많이 반영되어 있는 부분이 Masked Multi-Head Attention 부분이니 먼저 이 부분을 자세히 알아보도록 하겠습니다. 1. Masked Multi-Head Attention 1.0.
Shifted Right Decoder 입력은 최초 Token으로 시작하게 됩니다. Decoder는 자기 회귀적 특성상 이전 단어가 있어야 현재 단어를 예측할 수 있으므로 최초 시작을 뜻하는 ‘SOS’ Token으로 시작하게 되고 실제 ...
#
attention
#
인코더
#
어텐션
#
디코더
#
Transformer
#
ReLU
#
Positional
#
Normalizaton
#
Multi
#
Head
#
GPT
#
Encoder
#
Embedding
#
Decoder
#
chatgpt
#
트랜스포머
원문 링크 : Transformer #5 - Decoder Detail