Voice Activity Detection (VAD)는 오디오 신호에서 음성이 존재하는 구간과 무음/소음 구간을 판별하는 기술입니다. VAD는 음성 인식(ASR), 음성 코딩, 회의 시스템, 통신 시스템(AEC/NS), 음성 품질 향상 기술에서 핵심 전처리 단계로 사용됩니다. 1.
왜 VAD가 중요한가? VAD는 불필요한 비음성 구간을 제거함으로써: 통신 대역폭을 줄이고 음성 인식 정확도를 높이며 후처리 알고리즘(AEC, NS, AGC 등)의 성능을 향상시킵니다. ️ 2.
VAD의 핵심 아이디어 기본적인 VAD는 프레임 단위로 신호를 분석하여, 각 프레임이 음성인지 아닌지를 결정합니다. 전형적인 흐름은 다음과 같습니다: 프레임 분할: 10~30ms 단위로 신호 분할 특징 추출: 에너지, 제로 크로싱율(ZCR), SNR, MFCC 등 판별: 특징 기반의 thresholding 또는 머신러닝 기반 분류 후처리: hang-over(잔향), smoothing 처리 3.
에너지 기반 V...