화자 인식에 대한 연구는 많이 진행되었습니다. 그러나 이번 글 에서는 많이 연구된 복잡한 방법이 아닌, 간단히 딥러닝에 모든 것을 맡기는 형태의 구현을 해보도록 하겠습니다.
일단, 생각한 설계는 간단합니다. "MFCC 계수 추출 - 화자 학습" 전처리 (노이즈 제거 등), 후처리(확률 보정)를 추가할 수도 있지만, 가장 간단한 뼈대만 만들어 보겠습니다.
아래 두 개의 파일을 통해 학습해보겠습니다. 첨부파일 woman_8k_train.wav 파일 다운로드 첨부파일 man_8k_train.wav 파일 다운로드 그리고 학습이 얼마나 잘 되었는지에 대한 테스트는 아래의 두 개의 파일을 통해 진행해 보겠습니다.
첨부파일 woman_8k_test.wav 파일 다운로드 첨부파일 man_8k_test.wav 파일 다운로드 먼저 mfcc 데이터 셋을 만들어 보겠습니다. # 데이터 셋 만들기 import librosa from python_speech_features import mfcc import...