QUICK REVIEW

[논문 리뷰] Data Augmentation for Robust Keyword Spotting under Playback Interference

Anirudh Raju, Sankaran Panchapagesan|arXiv (Cornell University)|2018. 08. 01.

Speech and Audio Processing참고 문헌 18인용 수 31

한 줄 요약

이 논문은 신호 대 간섭비(SIR)를 다양하게 조절하여 연설 데이터를 음악 및 TV/영화 음성과 인위적으로 혼합함으로써 재생 간섭 상황에서 키워드 검색(KWS)의 강인성을 향상시키는 데이터 증강 전략을 제안한다. 이 방법은 런타임 복잡도를 증가시키지 않으면서도 거짓 기각률을 크게 감소시켜 AUC에서 상대적으로 47.6% 향상시키며, AEC 처리가 실패할 경우에도 기준 모델을 능가한다.

ABSTRACT

Accurate on-device keyword spotting (KWS) with low false accept and false reject rate is crucial to customer experience for far-field voice control of conversational agents. It is particularly challenging to maintain low false reject rate in real world conditions where there is (a) ambient noise from external sources such as TV, household appliances, or other speech that is not directed at the device (b) imperfect cancellation of the audio playback from the device, resulting in residual echo, after being processed by the Acoustic Echo Cancellation (AEC) system. In this paper, we propose a data augmentation strategy to improve keyword spotting performance under these challenging conditions. The training set audio is artificially corrupted by mixing in music and TV/movie audio, at different signal to interference ratios. Our results show that we get around 30-45% relative reduction in false reject rates, at a range of false alarm rates, under audio playback from such devices.

연구 동기 및 목표

실제 환경의 재생 간섭, 특히 음향 에코 제거(AEC) 후 잔류 에코가 존재하는 상황에서 키워드 검색(KWS) 성능을 향상시키기 위해.
원거리 환경에서 사용자가 음악, TTS 등 재생을 중단할 경우 낮은 거짓 기각률(FRR)을 유지하는 데 도전하는 것.
추가적인 런타임 계산 또는 메모리가 필요 없이, 장치 내에서 구동 가능한 노이즈 강인 KWS 시스템을 개발하기 위해.
AEC가 효과가 없을 경우를 포함한 실제 재생 조건으로의 일반화 능력을 향상시키기 위해 음악 및 영화 음성으로의 데이터 증강이 효과적인지 평가하기 위해.

제안 방법

다양한 신호 대 간섭비(SIR)에서 랜덤으로 잘라낸 반향 처리된 음악 및 영화/음성 클립과 음성 문장을 혼합하여 훈련 데이터를 인위적으로 손상시킨다.
SIR 값은 균일 분포를 사용하여 두 범위 [0, 40] dB 및 [-20, 40] dB에서 샘플링하며, 재생 및 비재생 조건에서의 성능 균형을 고려해 [0, 40] dB 범위를 선택한다.
증강된 데이터로 딥 네ural 네트워크(DNN) 기반 음성 모델을 훈련하고, HMM 기반 디코딩을 사용하여 실시간으로 장치 내에서 키워드를 탐지한다.
재생 유무에 따라 테스트 세트에서 성능을 비교하며, DET 곡선과 AUC를 평가 지표로 사용한다.
AEC 실패 상황을 시뮬레이션하기 위해 처리되지 않은 음성 데이터를 사용하여 AEC가 효과가 없을 경우의 강인성도 평가한다.
제안된 증강 전략의 효과를 검증하기 위해 fMMLR 및 기타 표준 특징 적응 기법을 기준 모델로 비교한다.

실험 결과

연구 질문

RQ1음악 및 영화 음성으로의 데이터 증강이 재생 간섭 상황에서 KWS의 강인성을 향상시키는가?
RQ2더 넓은 SIR 범위(예: [-20, 40] dB)로 훈련하면 재생 테스트 세트에서 성능 향상이 이루어지지만, 청소년 데이터에서는 성능 저하가 발생하는가?
RQ3AEC 처리가 실패하거나 존재하지 않을 경우에도 제안된 증강 전략이 효과적인가?
RQ4손상 원천으로서 음악과 영화 음성 중 어떤 것이 성능 향상에 더 유리한가?
RQ5이 증강 전략은 추론 복잡도를 증가시키지 않고도 엔드 투 엔드 라우드 오디오 KWS 모델에 효과적으로 적용 가능한가?

주요 결과

음악 오디오로의 데이터 증강을 통해 재생 테스트 세트에서 AUC가 청소년 기준 모델 대비 상대적으로 47.6% 감소시켰다.
영화 오디오로의 손상 처리를 통해 AUC는 상대적으로 40.0% 감소시켰으며, 음악 기반 증강 대비 다소 낮은 성능 향상을 보였다.
[0, 40] dB SIR 범위가 [-20, 40] dB 범위보다 더 우수한 성능 균형을 확보하여 청소년 데이터에서의 성능 저하를 방지함으로써 선택되었다.
이 방법은 AEC가 효과가 없거나 존재하지 않을 경우를 포함한 실제 사용 환경에서 거짓 기각률을 개선했으며, 잔류 재생 간섭에 대한 강인성을 입증했다.
다양한 거짓 경고율(FAR) 운영 지점에서 성능 향상이 일관되게 유지되어, 다양한 탐지 임계값에서의 일반화 능력을 보였다.
이 방법은 낮은 런타임 복잡도를 유지하여 추론 시 추가 메모리나 CPU 오버헤드 없이도 장치 내 배포에 적합했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.