LLM 모델 용어 총정리 — 양자화 MoE FP16 MTP 뜻 (요약)

요즘 AI 뉴스를 보면 이런 문장이 나옵니다. "DeepSeek-V3는 671B MoE 모델로 FP8 학습을 적용했고 MTP로 추론 속도를 1.8배 높였다" ...뭔 소리지?

싶으셨죠? 하나씩 뜯어보면 생각보다 어렵지 않아요.

오늘은 핵심만 쏙 뽑아서 5가지로 정리해 볼게요. 1. 파라미터 — 모델의 "뇌세포" 개수 AI 모델이 학습한 기억의 단위. 7B = 70억 개, 671B = 6710억 개.

많을수록 똑똑하지만 그만큼 GPU 메모리를 많이 먹어요. 2. FP32 → FP16 → INT8 → INT4 숫자를 저장하는 정밀도 단계예요.

FP32 (32비트): 가장 정밀, 7B 모델 = 28GB BF16 (16비트): 최근 학습 표준, 14GB INT8 (8비트): 추론 배포용, 7GB INT4 (4비트): 로컬 실행용, 3.5GB 오른쪽으로 갈수록 가볍고 빠르지만 정확도가 조금씩 떨어져요. 3. 양자화 — 모델 압축 기술 FP32 → INT8처럼 높은 정밀도를 ...

요청 처리 중입니다...

LLM 모델 용어 총정리 — 양자화 MoE FP16 MTP 뜻 (요약)

등록된 다른 글