kkes0220의 등록된 링크

키자드에 등록된 총 16개의 포스트를 확인하실 수 있습니다.

Naver Blog

RNN-Transducer for ASR

RNN-T for ASR 은 크게 Audio Encoder, Test Predictor 및 Joiner의 세 가지로 구성되어 있다....

Naver Blog

[ICASSP 2018] High-Quality Nonparallel Voice Conversion based on Cycle-Consistent GAN

Naver Blog

[INTERSPEECH 2018] Speech Emotion Recognition using GAN

On Enhancing Speech Emotion Recognition using Generative Adversarial Networks, INTERS...

Naver Blog

ICASSP 2019 Hierarchical Residual-Pyramidal Model for Large Context Based Media Presence Detection

“We develop[ed] a way to better characterize media audio by examining longer-duration audio stream...

Naver Blog

ICASSP 2019 논문들 (Keyword Spotting)

SLP-P9: Keyword Spotting and Embedded ASR SystemsSession Chair: Sabato Marco Sinisca...

Naver Blog

[음성처리개발] 고려해온 것들

1. 음성처리 관련 이론 지식 - 음향모델, 언어모델, 디코더, 단일채널 노이즈 제거, 멀티채널 노이즈 제거,...

Naver Blog

Decoding-graph creation recipe (test time)

여기에서는 정상적인 그래프 생성 접근 방식과 관련된 특정 data-preparation stages를 단계별로 설명합니...

Naver Blog

음성인식기(ASR) 구현하기 위한 모듈 정리

Smart speaker 혹은 음성인식 시스템을 만들기 위해서 필요한 알고리즘을 정리해보자.알고리즘 중심으로...

Naver Blog

Microphones 사용 시 확인 사항

General challenges in incorporating microphones제품에 들어가는 엔지니어링 마이크는 일반적으로 마...

Naver Blog

[ICASSP 2019] End-to-End Streaming Keyword Spotting

기본적으로 SVDF Layer의 계산은 Time step t마다, DNN의 각 node 마다, rank-1 SVDF Layer...

Naver Blog

Kaldi의 디코딩 그래프 구성 (Decoding graph construction in Kaldi)

먼저, 유한 상태 변환기와 음성 인식에 사용되는 방법을 소개 할 수는 없습니다.이에 대한 내용은 "...

Naver Blog

RNN-T Beam search decoding

몇 년 전, Alex Graves가 길이가 다른 input/output sequences 를 잘 mapping 할 수 있는 RNN-T 모델...

Naver Blog

Improved RNN-T Beam search decoding (Facebook)

앞서 메모한 #RNN-T Beam search [1] 글에 이어, 최근 facebook AI 팀에서 ICASSP 2020에 제...

Naver Blog

[진양곤 회장님] 코스닥 1위 넘보는 이노베이터

Q : 기업경영 과정에 철학을 적용한다면.A :“세상엔 크게 두 개의 안경이 있다. 현미경과 망원경이다....

1