1. 서론: 순차 처리의 한계와 트랜스포머의 탄생 기존의 시퀀스 모델링은 RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit)에 기반하였다.
이들은 시계열적 특성을 반영할 수 있는 구조로 설계되었으나, 병렬처리가 어렵고, 장기 의존성(long-term dependency)을 학습하는 데 있어 기울기 소실/폭주(gradient vanishing/explosion) 문제에 취약하다. 이를 극복하기 위해 Vaswani et al. (2017)은 “Attention Is All You Need”라는 논문에서 트랜스포머(Transformer)를 제안하였다.
이 모델은 순환 구조 없이 attention 메커니즘만으로 시퀀스를 처리함으로써, 병렬성, 확장성, 학습 효율성을 획기적으로 개선하였다. 2. 트랜스포머의 구조 트랜스포머는 크게 인코더(Encoder)와 디코더(Decoder)로 구성되며,...