안녕하세요, MoonLight입니다. 이번 Post에서는 지난 달 카카오브레인에서 발표한 Multimodal LLM Honeybee에 대해서 알아보도록 하겠습니다.
Multimodal Model이란 다양한 입력의 형태를 받아들여서 결과를 내는 Model을 뜻합니다. 예를 들어, 이미지, 텍스트, 소리 등의 입력을 받아서 학습한 Model을 뜻합니다.
Honeybee의 경우에는 이미지와 텍스트를 입력으로 받아서 텍스트를 출력하는 LLM입니다. 카카오브레인에서 Honeybee를 Open Source로 공개하였고, 실제로 어느 정도 성능인지 제가 한 번 Test해 보도록 하겠습니다.
카카오브레인 Blog 멀티모달 언어모델 오픈소스 프로젝트‘허니비’ 공개 - 카카오브레인 Blog – 이미지와 명령어 입력하면 텍스트로 답변하는 멀티모달 언어모델 오픈소스 프로젝트 ‘허니비’ 깃허브에 공개– MME, MMBench, SEED-Bench 등 벤치마크에서 타 모델 대비 최고 성능 달성– 카카오브레인...
#
bert
#
카카오브레인
#
멀티모달
#
VQA
#
transformer
#
question
#
prompt
#
NLP
#
Multimodal
#
LLM
#
kakaobrain
#
Honeybee
#
gpt
#
dall
#
chatgpt
#
허니비