Gemini 2.0 Flash 이미지 생성, 텍스트와 이미지를 동시에 이해하는 멀티모달 AI의 놀라움

지난 주 공개된 Gemini 2.0 Flash의 네이티브 이미지 생성 기능이 돌풍을 일으키고 있습니다. 이 기능은 텍스트와 이미지를 동시에 이해하고 활용하는 멀티모달 AI 모델을 기반으로 합니다.

이러한 모델은 단순히 텍스트 프롬프트에 따라 이미지를 생성하는 것을 넘어, 이미지와 텍스트 간의 복잡한 관계를 파악하고, 이를 바탕으로 더욱 정교하고 창의적인 결과물을 만들어냅니다. Google AI Studio로 들어가서, Gemini 2.0 Flash (Image Generation) Experimental 모델을 선택하고, Output format에서 Images and text를 선택하면 간편하게 시작됩니다.

이전의 AI들과 차별화되는 이미지 편집(Image Editing) 기능을 활용해보겠습니다. 이미지를 업로드하고 다양한 명령어를 입력했습니다.

Prompt: 자전거를 없애고 스포츠카를 넣어줘. Prompt: 보물상자의 뚜껑을 열고 위에서 상자 안의 보물들을 보여줘.

Prompt:...

요청 처리 중입니다...

Gemini 2.0 Flash 이미지 생성, 텍스트와 이미지를 동시에 이해하는 멀티모달 AI의 놀라움

등록된 다른 글