언어를 넘어 영상까지: 구글 Veo 3, 범용 비전 모델의 가능성을 열다 언어 영역에서 GPT-3가 처음으로 보여준 혁신은 하나의 모델이 단순히 지시문(프롬프트)을 받는 것만으로도 여러 작업을 처리할 수 있음을 증명했다는 점입니다. 그런데 이와 비슷한 전환이 이제 비전, 즉 영상을 다루는 영역에서도 일어나고 있다는 것이 구글 딥마인드 연구진 contents.premium.naver.com 언어 영역에서 GPT-3가 처음으로 보여준 혁신은 하나의 모델이 단순히 지시문(프롬프트)을 받는 것만으로도 여러 작업을 처리할 수 있음을 증명했다는 점입니다.
그런데 이와 비슷한 전환이 이제 비전, 즉 영상을 다루는 영역에서도 일어나고 있다는 것이 구글 딥마인드 연구진의 주장입니다. 몇 달 전 공개된 구글의 ‘Veo 3’ 비디오 생성 모델은 별도의 추가 학습이나 수정 없이 단순한 지시만으로 다양한 시각 과제를 수행하는 능력을 보여주며 큰 인기를 끌고 있는데요.
단순히 물체를 구분하거나 선을 찾아내는...