바쁘신 분들을 위한 요약 제가 아는 지식으로는 아니라고 생각합니다. 기반 지식 출처 https://youtu.be/LPZh9BOjkQs?
si=timeE4X1tRSekEJN 3Blue1Brown 이 채널은 수학 기술에 대한 채널인데 이번에 LLM 관련된 내용들을 매우 흥미롭게 지켜봤다. 수학적인 데이터 처리 과정을 시각적으로 잘 나타내줘서 분명히 이해가 되었다기보단 이해에 필요한 어떠한 직관을 가지게 되었달까?
한국어로 된 채널도 있지만 본 채널 쪽의 업데이트가 훨씬 빠르고 유튜브 자체의 한글 번역으로도 충분히 볼 만해서 추천한다. LLM 모델(대형 언어 모델)의 작동 방식 사용자의 입력에 대해 다음 단어를 예측하는 수학적 함수이다.
이 모델은 결정론적이지만 같은 입력에 대해 매번 다른 결과를 생성할 수도 있다. 대형 언어 모델의 학습 과정 방대한 양의 텍스트를 처리하여 예측을 학습한다.
(GPT-3의 훈련에 사용된 텍스트를 사람이 읽는다면 2600년이 걸린다) 이러한 모델은 매개변수...