CLIP은 OpenAI에서 2021년에 공개한 멀티모달 AI 모델로, 텍스트와 이미지 간의 의미적 연결을 학습하여 다양한 작업(이미지 분류, 이미지 검색, Zero-shot 인식 등)을 수행할 수 있도록 설계된 모델이다. CLIP은 이미지와 텍스트를 공동 임베딩 공간(Shared Embedding Space)에 매핑함으로써, 이미지와 텍스트 사이의 유사성을 계산한다.
CLIP의 주요 특징으로는, 1) 멀티모달 임베딩 : 이미지와 텍스트 데이터를 동일한 임베딩 공간에 매핑하여 의미적 유사성을 평가 가능하게 함. 2) 대규모 웹 데이터 학습 : 인터넷상에 존재하는 수억 개의 이미지-텍스트 쌍을 통해 학습함으로써, 광범위한 도메인과 문맥에서 일반화 성능이 뛰어남. 3) Zero-shot Learning : 별도의 추가 학습(fine-tuning) 없이 처음 보는 클래스도 텍스트 설명만으로 바로 인식 가능....