QUICK REVIEW

[논문 리뷰] Contextual ASR Adaptation for Conversational Agents

Anirudh Raju, Behnam Hedayatnia|arXiv (Cornell University)|2018. 06. 26.

Speech Recognition and Synthesis인용 수 1

한 줄 요약

이 논문은 대화형 에이전트의 자동 음성 인식(ASR)에서 언어 모델을 동적으로 예측된 맥락 의존적 LM 혼합 가중치를 통해 적응시키기 위한 DNN 기반 방법을 제안한다. 사용자-에이전트 상호작용 맥락(예: 응용 프로그램 유형 또는 주제)을 주제 분류기를 통해 활용함으로써, 1패스 기준 3%의 상대적 WER 향상과 2패스 기준 6%의 상대적 향상을 달성하였으며, 명명된 실체 인식 분야에서 최대 15%의 상대적 향상을 이룩하였다.

ABSTRACT

Statistical language models (LM) play a key role in Automatic Speech Recognition (ASR) systems used by conversational agents. These ASR systems should provide a high accuracy under a variety of speaking styles, domains, vocabulary and argots. In this paper, we present a DNN-based method to adapt the LM to each user-agent interaction based on generalized contextual information, by predicting an optimal, context-dependent set of LM interpolation weights. We show that this framework for contextual adaptation provides accuracy improvements under different possible mixture LM partitions that are relevant for both (1) Goal-oriented conversational agents where it's natural to partition the data by the requested application and for (2) Non-goal oriented conversational agents where the data can be partitioned using topic labels that come from predictions of a topic classifier. We obtain a relative WER improvement of 3% with a 1-pass decoding strategy and 6% in a 2-pass decoding framework, over an unadapted model. We also show up to a 15% relative improvement in recognizing named entities which is of significant value for conversational ASR systems.

연구 동기 및 목표

다양한 말하기 스타일, 도메인, 어휘를 가진 대화형 에이전트에서 ASR 정확도를 향상시키기 위해.
다양한 사용자 상호작용과 맥락 변화에 걸쳐 높은 인식 정확도를 유지하는 데 도전하는 데에.
실시간 맥락 신호에 맞게 LM 가중치를 맞춤형으로 조정하는 동적 언어 모델 적응 프레임워크를 개발하기 위해.
목표 중심 및 목표 중심이 아닌 대화형 에이전트 시나리오 양쪽 모두에서 방법을 평가하기 위해.
단어 오류률(WER)과 명명된 실체 인식 성능 향상에 있어 뚜렷한 개선 효과를 입증하기 위해.

제안 방법

심층 신경망(DNN)은 사용자-에이전트 상호작용의 맥락 특징을 기반으로 언어 모델 혼합체에 대한 최적의 혼합 가중치를 예측하기 위해 훈련된다.
맥락 정보는 목표 중심 에이전트의 경우 응용 프로그램별 파artition, 목표 중심이 아닌 에이전트의 경우 주제 분류기가 예측한 주제 레이블로부터 유도된다.
이 방법은 사용자 턴마다 동적으로 LM 혼합 가중치를 적응시켜 모델의 현재 맥락에 대한 관련성을 향상시킨다.
이 방법은 1패스 및 2패스 복구 전략을 모두 지원하며, 후자는 반복적 개선을 가능하게 한다.
DNN는 맥락 임bedding을 입력으로 받아 사전 훈련된 언어 모델의 가중 조합을 출력한다.
프레임워크는 맥락적으로 관련된 훈련 데이터에서 WER를 최소화하도록 종단 간(end-to-end)으로 훈련된다.

실험 결과

연구 질문

RQ1맥락 인식 LM 적응이 다양한 말하기 스타일과 도메인에서 대화형 에이전트의 ASR 정확도를 향상시킬 수 있는가?
RQ2고정된, 적응되지 않은 모델 대비 DNN 기반의 LM 혼합 가중치 예측이 WER 향상에 얼마나 효과적인가?
RQ3이 방법은 대화형 ASR의 핵심 구성 요소인 명명된 실체 인식에서 더 큰 향상을 이끌어내는가?
RQ4제안된 프레임워크에서 1패스와 2패스 복구 전략 간 성능은 어떻게 다를까?
RQ5분류기에서 유도된 주제 기반 맥락이 목표 중심이 아닌 대화에서 LM 적응을 효과적으로 이끌 수 있는가?

주요 결과

제안된 방법은 적응되지 않은 모델 대비 1패스 복구 전략을 사용할 경우 상대적 단어 오류률(WER) 향상 3%를 달성하였다.
2패스 복구 프레임워크를 사용할 경우 상대적 WER 향상 6%를 달성하였으며, 반복적 개선의 이점을 입증하였다.
명명된 실체 인식 분야에서 최대 15%의 상대적 향상을 보였으며, 임무 중심 ASR 구성 요소로서의 가치를 입증하였다.
응용 프로그램 또는 주제 기반 맥락을 활용하여 목표 중심 및 목표 중심이 아닌 대화형 에이전트 양쪽 모두에 효과적으로 적응하였다.
DNN 기반의 혼합 가중치 예측은 다양한 상호작용 맥락에서 일관되게 인식 정확도를 향상시켰다.
프레임워크는 실시간 사용자 상호작용 맥락에 언어 모델을 적응시키는 데 있어 강건성과 확장성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.