GPT 멀티모달 실전 프롬프트 ― 이미지·음성·파일 분석 활용법 텍스트만 입력하던 시대는 끝났습니다. GPT-4o와 Gemini는 이미지, 음성, 실시간 대화까지 이해합니다.
이번 편에서는 GPT의 멀티모달 능력을 최대한 활용하는 실전 프롬프트를 소개합니다. 멀티모달이란?
AI의 최신 모델로, 사람이 다양한 감각을 통합적으로 인식하는 것 처럼 텍스트 + 이미지 + 음성 + 비디오 등 다양한 입력을 한 번에 처리할 수 있습니다. 지원되는 입력 입력 타입 설명 텍스트 일반 텍스트 프롬프트 이미지 스크린샷, 사진, 차트, 문서 이미지 등 음성 마이크 입력 또는 오디오 텍스트 변환 파일 PDF, CSV 등 업로드 가능 (ChatGPT Plus 전용) 1.
이미지 분석 활용 이미지 내의 텍스트, 그래픽, 구조 등을 해석할 수 있습니다. 단, 프롬프트로 “관점”을 제시해야 효과적입니다.
예시 1) UI 스크린샷 분석 <이미지 업로드> 이 이미지의 UI 구성 요소를 분석해줘. - 버튼, 메뉴,...