우리는 사람의 목소리를 들으면 단번에 말하는 사람이 누군지, 어떤 감정인지, 무슨 단어를 말했는지를 대략 알아차립니다. 하지만 컴퓨터는 인간의 귀처럼 듣지 못합니다.
그래서 인간의 청각 특성을 모델링한 알고리즘이 필요한데, 그 중 하나가 바로 MFCC(Mel-Frequency Cepstral Coefficients)입니다. MFCC란?
MFCC는 "멜 주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficients)"의 약자입니다. 이는 음성 신호를 사람의 청각 특성에 맞춰 디지털 숫자로 표현한 대표적인 음향 특징입니다.
핵심 아이디어 사람의 귀는 고주파보다는 저주파에 더 민감합니다. 따라서 멜 스케일이라는 단위를 통해 고주파를 압축하고, 저주파는 더 자세히 분석합니다. ️
MFCC 추출 과정 (쉽게 설명하면) 프레임 분할: 음성은 시간에 따라 변하므로, 20~30ms 단위로 잘라서 처리. 윈도잉(Windowing): 각 프레임에 해밍 윈도우 등을 곱해 경계에...
원문 링크 : MFCC란? 음성 인식의 핵심 특징 추출 알고리즘