음성 인식 + TTS + 음성변조 + 에코 제거까지 한 번에! 요약: 우리가 만들 기능은?
마이크로 내가 말하면, 코난 목소리로 바뀌어 스피커로 출력되고, 에코 없이 깔끔하게 작동한다! 전체 기술 구성도 [마이크 입력] ↓ ① 음성 인식 (STT, Whisper 등) ↓ ️ ② 텍스트 처리 (정제 또는 그대로 사용) ↓ ③ 음성 합성 (TTS, YourTTS 등) ↓ ④ 스피커 출력 (변조된 음성) ︎ ⑤ 에코 제거 (AEC, RNNoise, WebRTC 등) 1.
음성 인식 (STT) OpenAI의 Whisper 모델을 활용하면, 자연스러운 한국어/영어 음성도 높은 정확도로 인식할 수 있습니다. 2. 음성 합성 (TTS, Voice Cloning) YourTTS 같은 오픈소스 모델을 사용해 코난 목소리를 학습해두면, 내가 말한 문장을 코난 목소리로 합성할 수 있습니다. 3.
스피커 출력 (sounddevice) 4. 에코 제거는 필수!
(AEC) 왜 필요할까? ...
원문 링크 : 현실판 ‘코난 음성변조기’ 만들기