SK하이닉스의 ‘H3’: HBM과 HBF를 결합한 AI 추론 하이브리드 아키텍처 최근 대규모 언어 모델 추론(inference) 환경에서는 연산 성능보다 ‘메모리 문제’가 더 빠르게 한계에 다다르고 있음을 여러 차례 설명 드리고 있는데요. 모델 파라미터와 중간 계산 결과, 특히 긴 문맥을 처리하기 위해 쌓이는 ‘KV 캐시 (KV Cache)’가 기 contents.premium.naver.com 최근 대규모 언어 모델 추론(inference) 환경에서는 연산 성능보다 ‘메모리 문제’가 더 빠르게 한계에 다다르고 있음을 여러 차례 설명 드리고 있는데요.
모델 파라미터와 중간 계산 결과, 특히 긴 문맥을 처리하기 위해 쌓이는 ‘KV 캐시 (KV Cache)’가 기하급수적으로 늘어나면서, 아무리 빠른 HBM을 사용하더라도 용량 부족으로 인해 GPU를 추가로 붙이거나 시스템 비용을 크게 감수해야 하는 상황이 반복되고 있습니다. 이러한 배경에서 최근 SK하이닉스는 기존의 메모리 계층을 조금 ...