오늘은 텍스트 생성 AI에 대해 제 생각을 정리해 보려고 합니다. 영상이나 사운드보다 언어를 먼저 다루는 게 맞다고 느낀 이유는, 예전 이미지 생성 모델이 태그 기반으로 직관적으로 캐릭터나 배경의 디테일을 만들 수 있었고, 단독 컷으로도 비교적 활용이 가능했기 때문입니다. 다만 현실성은 떨어지는 편이고, 디테일은 좋지만 현실감이 떨어지는 경향이 있어 노이즈나 필터를 더해 현실감을 보완하곤 했습니다. 그래도 태그 기반의 한계를 넘으려 언어모델을 끼워 이미지를 학습한 모델들이 나오긴 했고, 이 흐름은 여전히 진행 중입니다. 저는 우선 언어 모델에 익숙해지는 것이 더 현실적이라고 봅니다. 프롬프트 입력 방식 자체가 핵심이니까요. 이 글은 누구나 바로 따라하기 위한 매뉴얼은 아니고, 이미지 생성보다는 편하게 활용 가능한 기본 세팅을 말해 주는 정도로 이해해 주시길 바랍니다. 다만 언어 모델을 제대로 활용하기 위해서는 크게 두 가지 조건이 필요합니다. 최소 16기가 이상의 VRAM이 있거나, 8기가 이하라도 충분한 영어 읽기·작문 능력이 된다면 가능한 한 폭넓은 선택지가 열린다는 점입니다. 로컬에서 프라이빗하게 돌리는 것이 목표이니, 한국어를 입력하면 완벽히 이해하지만 한국어로 응답하지 못하는 모델이 많다는 현실도 있습니다. 따라서 영어 능력이 있으면 선택지가 훨씬 넓어집니다.
이번 글의 중점은 RP 로컬 구동입니다. 제미나이(Gemini)가 대화형 API 서비스로 점유율이 높아진 현상을 보며, API를 통해 이미지 생성이나 코드 작성 등 모든 것을 합친 것보다 RP에 쓰이는 비중이 더 크다고 들었습니다. RP, 즉 롤플레잉은 AI에게 특정 역할을 부여하고 연기하게 하는 서비스로, 가상의 배경이나 유명한 세계관을 시스템 프롬프트에 입력해 두고 AI가 그 세계의 캐릭터로 살아가게 하는 것입니다. 로그라이트 비주얼 노벨처럼 즐길 수 있죠. 오늘은 이 RP를 로컬 환경에서 간단히 돌려보려 합니다. 우선 도구를 몇 가지 소개하면, LLM 사용 방식은 크게 두 가지로 나뉩니다. 엔진 역할의 LLM 모델(Llama, Ollama 등)을 직접 구동하는 방법과, 이 API 신호를 받아서 작동하는 도구를 사용하는 방법입니다. 엔진과 자동차 프레임에 비유할 수 있습니다. 엔진이 붙은 자동차로 바로 가는 경우도 있지만, 대부분은 엔진 없이도 충분히 활용 가능한 프레임이 존재합니다. 대표적인 프레임으로는 oobabooga, Ollama, LM Studio, Kobold 등이 있고, 가정용으로는 LisuAI, SillyTavern, Open WebUI 같은 조합도 있습니다. 저는 대부분 LM Studio를 활용합니다. LM Studio는 자체적으로 언어 모델을 다운로드해 가동하고, 다른 도구에 API를 제공하는 형태로 작동합니다. 설치를 마친 뒤 좌측 메뉴의 돋보기를 통해 Model Search를 실행하면, LM Studio가 공식적으로 제공하는 모델들 중 앞에 보라색 로봇 아이콘이 있는 것을 볼 수 있습니다. 여기서 추천 모델을 선택해도 좋고, 위에 모델명이나 제작자를 검색하면 허깅스페이스의 모델들을 바로 확인할 수 있습니다.
원문 링크 : 로컬 텍스트 AI 시작하기.