MFCC란? 음성 인식의 핵심 특징 추출 알고리즘

우리는 사람의 목소리를 들으면 단번에 말하는 사람이 누군지, 어떤 감정인지, 무슨 단어를 말했는지를 대략 알아차립니다. 하지만 컴퓨터는 인간의 귀처럼 듣지 못합니다.

그래서 인간의 청각 특성을 모델링한 알고리즘이 필요한데, 그 중 하나가 바로 MFCC(Mel-Frequency Cepstral Coefficients)입니다. MFCC란?

MFCC는 "멜 주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficients)"의 약자입니다. 이는 음성 신호를 사람의 청각 특성에 맞춰 디지털 숫자로 표현한 대표적인 음향 특징입니다.

핵심 아이디어 사람의 귀는 고주파보다는 저주파에 더 민감합니다. 따라서 멜 스케일이라는 단위를 통해 고주파를 압축하고, 저주파는 더 자세히 분석합니다. ️

MFCC 추출 과정 (쉽게 설명하면) 프레임 분할: 음성은 시간에 따라 변하므로, 20~30ms 단위로 잘라서 처리. 윈도잉(Windowing): 각 프레임에 해밍 윈도우 등을 곱해 경계에...

요청 처리 중입니다...

MFCC란? 음성 인식의 핵심 특징 추출 알고리즘

등록된 다른 글