QUICK REVIEW

[논문 리뷰] "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in Conversational Agents.

Ashish Shenoy, Sravan Bodapati|arXiv (Cornell University)|2021. 04. 21.

Topic Modeling인용 수 2

한 줄 요약

이 논문은 다중 대화 터미널 기록을 LSTM 및 Transformer-XL 아키텍처를 사용하여 통합함으로써 작업 지향 대화에서 음성 인식(ASR) 재평가를 위한 맥락 인식 신경어휘모델(NLMs)을 제안한다. 어휘 메타데이터에 대한 어텐션, 대화 액션 기반 증강, 사전 훈련된 마스킹 언어 모델 인코딩과의 융합을 통해 성능을 향상시켜 비맥락 기반 기준 대비 상대적 WER 감소 1.6–9.1% 및 슬롯 레이블링에서 4%의 F1 향상을 달성한다.

ABSTRACT

Neural Language Models (NLM), when trained and evaluated with context spanning multiple utterances, have been shown to consistently outperform both conventional n-gram language models and NLMs that use limited context. In this paper, we investigate various techniques to incorporate turn based context history into both recurrent (LSTM) and Transformer-XL based NLMs. For recurrent based NLMs, we explore context carry over mechanism and feature based augmentation, where we incorporate other forms of contextual information such as bot response and system dialogue acts as classified by a Natural Language Understanding (NLU) model. To mitigate the sharp nearby, fuzzy far away problem with contextual NLM, we propose the use of attention layer over lexical metadata to improve feature based augmentation. Additionally, we adapt our contextual NLM towards user provided on-the-fly speech patterns by leveraging encodings from a large pre-trained masked language model and performing fusion with a Transformer-XL based NLM. We test our proposed models using N-best rescoring of ASR hypotheses of task-oriented dialogues and also evaluate on downstream NLU tasks such as intent classification and slot labeling. The best performing model shows a relative WER between 1.6% and 9.1% and a slot labeling F1 score improvement of 4% over non-contextual baselines.

연구 동기 및 목표

다중 대화 터미널 기록을 통합한 장기 맥락 신경어휘모델을 활용하여 작업 지향 대화에서 ASR 재평가를 향상시키는 것.
맥락 기반 NLM에서 발생하는 '근처는 명확하고 먼 곳은 흐린' 문제를 해결하기 위해 어휘 메타데이터에 대한 어텐션을 도입하여 더 나은 맥락 가중치를 제공하는 것.
NLU 모델에서 유래한 구조화된 대화 정보(예: 봇 응답, 시스템 대화 액션)를 통합하여 기능 기반 증강을 향상시키는 것.
사용자별 음성 패턴에 적응하기 위해 사전 훈련된 마스킹 언어 모델의 표현과 Transformer-XL 기반 NLM을 융합하는 것.
제안된 모델의 성능 평가를 ASR 메트릭뿐만 아니라 의도 분류 및 슬롯 레이블링과 같은 후행 NLU 작업에도 적용하는 것.

제안 방법

LSTM 및 Transformer-XL 기반 NLM을 다중 대화 터미널에 걸친 맥락을 처리하도록 적응시켜 장거리 의존성 모델링을 가능하게 한다.
맥락적 특징의 동적 가중치를 부여하고 '먼 곳은 흐린' 문제를 완화하기 위해 어휘 메타데이터(예: 대화 액션, 시스템 응답)에 대한 어텐션 메커니즘을 도입한다.
사용자별 음성 패턴을 보다 잘 포착하고 강건성을 향상시키기 위해 사전 훈련된 마스킹 언어 모델(예: BERT)의 임베딩을 NLM 입력에 증강한다.
기본 NLM을 재학습하지 않고도 맥락 표현을 향상시키기 위해 사전 훈련된 마스킹 언어 모델 인코딩과 Transformer-XL NLM 간의 후기 융합을 수행한다.
N-best ASR 가설 재평가를 통해 모델 성능을 평가하며, 맥락 기반 NLM 점수에 따라 디코딩을 유도한다.
최종 모델의 성능을 ASR(WER) 및 후행 NLU 작업(의도 분류, 슬롯 레이블링) 모두에서 평가하여 일반화 능력을 검증한다.

실험 결과

연구 질문

RQ1NLM에 다중 대화 터미널 맥락을 통합함으로써 작업 지향 대화에서 ASR 단어 오류율(WER)을 상당히 감소시킬 수 있는가?
RQ2표준 맥락 집계 방식과 비교했을 때, 어휘 메타데이터에 대한 어텐션은 NLM에서 장기 맥락 의존성 모델링을 어떻게 향상시키는가?
RQ3대화 액션과 봇 응답을 활용한 기능 기반 증강은 ASR 재평가에서 NLM 성능을 얼마나 향상시키는가?
RQ4사전 훈련된 마스킹 언어 모델 인코딩과의 융합은 종합적인 ASR 시스템에서 사용자별 음성 패턴에 대한 강건성을 향상시키는가?
RQ5제안된 맥락 기반 NLM 아키텍처는 ASR 및 후행 NLU 작업 모두에서 일관된 성능 향상을 이끌어내는가?

주요 결과

가장 성능이 뛰어난 모델은 비맥락 기반 기준 대비 ASR 재평가에서 상대적 단어 오류율(WER) 감소 1.6%에서 9.1%를 기록한다.
비맥락 NLM 기준 대비 슬롯 레이블링 F1 점수를 4%포인트 향상시켜 대화 의미 이해 능력 향상을 입증한다.
어휘 메타데이터에 대한 어텐션은 '먼 곳은 흐린' 문제를 상당히 완화시켜 장시간 대화에서 더 정확한 맥락 가중치를 제공한다.
대화 액션과 봇 응답을 활용한 기능 기반 증강은 특히 복잡한 다중 터미널 상호작용에서 NLM 성능 향상에 기여한다.
사전 훈련된 마스킹 언어 모델 인코딩과의 융합은 특히 자원이 적거나 도메인이 다른 환경에서 사용자별 음성 패턴에 대한 강건성을 향상시킨다.
제안된 맥락 기반 NLM은 ASR 및 후행 NLU 작업 모두에서 일관된 성능 향상을 제공하여 대화형 AI 시스템에서의 일반화 능력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.