딥시크가 설명하는 LLM의 새로운 성장 공식: 메모리 중심 스케일링 요즘 대형 언어 모델은 단순히 연산 성능만 높인다고 해서 계속 좋아지지는 않는 단계에 들어섰다는 의견들이 많은데요. 예를 들어 “Alexander the Great” 같은 고정된 고유명사나 자주 반복되는 관용구는 사전에서 바로 찾아보듯이 꺼내 쓰면 되는 정보에 가까운데 contents.premium.naver.com 요즘 대형 언어 모델은 단순히 연산 성능만 높인다고 해서 계속 좋아지지는 않는 단계에 들어섰다는 의견들이 많은데요.
예를 들어 “Alexander the Great” 같은 고정된 고유명사나 자주 반복되는 관용구는 사전에서 바로 찾아보듯이 꺼내 쓰면 되는 정보에 가까운데, 기존 트랜스포머(Transformer) 구조에는 이런 정보를 바로 불러오는 기능이 없어서 여러 층의 어텐션(Attention)과 피드포워드 네트워크(FFN)를 거치며 하나씩 조합해 다시 만들어 냅니다. 이는 이미 알고 있는 내용을 매번 ...