텍스트 투 비디오 모델, Sora의 정확도 비밀은 구글의 비전트랜스포머의 고도화

‘소라(Sora)’가 뛰어난 성능을 발휘할 수 있었던 것은 ‘비전 트랜스포머(ViT)’ 아키텍처를 고도화한 결과로 알려졌다. 이는 구글이 고안한 기술로, 오픈AI는 '챗GPT'가 그랬던 것처럼 구글 기술로 먼저 제품을 내놓는 데 성공했다.

‘시공간 패치(Spacetime Patch)’ 기술 기술 전문 매체 미디엄은 최근 오픈AI의 비디오 생성 AI 모델 소라의 핵심 요소인 ‘시공간 패치(Spacetime Patch)’ 기술을 이용해, 텍스트 프롬프트를 분석해 주제, 행동, 장소, 시간, 분위기 등 관련 키워드를 추출한다. 그 다음 데이터셋에서 키워드와 일치하는 가장 적합한 동영상을 검색하고 이를 혼합하여 새로운 동영상을 만든다.

사용자의 선호도에 따라 비디오의 모양과 느낌을 수정할 수 있으며, 이미지를 기반으로 비디오를 만들거나 새로운 자료로 기존 영상을 확장도 가능하다. '디퓨전 트랜스포머' 소라는 노이즈처럼 보이는 비디오로 시작, 여러 단계를 거쳐 노이즈를 제거해 점차 비디오로 ...

요청 처리 중입니다...

텍스트 투 비디오 모델, Sora의 정확도 비밀은 구글의 비전트랜스포머의 고도화

등록된 다른 글