QUICK REVIEW

[論文レビュー] "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in Conversational Agents.

Ashish Shenoy, Sravan Bodapati|arXiv (Cornell University)|Apr 21, 2021

Topic Modeling被引用数 2

ひとこと要約

本稿では、マルチターン対話履歴をLSTMおよびTransformer-XLアーキテクチャを用いて統合することで、タスク指向対話における自動音声認識（ASR）の再スコアリングのための文脈認識型ニューラル言語モデル（NLM）を提案する。アテンションを用いた語彙的メタデータの処理、対話行動に基づく特徴拡張、事前学習済みマスク言語モデルのエンコーディングとの融合により、非文脈的ベースラインと比較して相対的WER低下率1.6–9.1%、スロットラベルリングで4%のF1スコア向上を達成する。

ABSTRACT

Neural Language Models (NLM), when trained and evaluated with context spanning multiple utterances, have been shown to consistently outperform both conventional n-gram language models and NLMs that use limited context. In this paper, we investigate various techniques to incorporate turn based context history into both recurrent (LSTM) and Transformer-XL based NLMs. For recurrent based NLMs, we explore context carry over mechanism and feature based augmentation, where we incorporate other forms of contextual information such as bot response and system dialogue acts as classified by a Natural Language Understanding (NLU) model. To mitigate the sharp nearby, fuzzy far away problem with contextual NLM, we propose the use of attention layer over lexical metadata to improve feature based augmentation. Additionally, we adapt our contextual NLM towards user provided on-the-fly speech patterns by leveraging encodings from a large pre-trained masked language model and performing fusion with a Transformer-XL based NLM. We test our proposed models using N-best rescoring of ASR hypotheses of task-oriented dialogues and also evaluate on downstream NLU tasks such as intent classification and slot labeling. The best performing model shows a relative WER between 1.6% and 9.1% and a slot labeling F1 score improvement of 4% over non-contextual baselines.

研究の動機と目的

マルチターン対話履歴を統合した長文脈NLMを活用することで、タスク指向対話におけるASR再スコアリングを向上させること。
文脈認識NLMにおける「近くは鋭いが遠くはぼやける」問題を解消するため、語彙的メタデータへのアテンションを導入してより良い文脈重み付けを実現すること。
NLUモデルから得られるボットの応答やシステム対話行動といった構造化された対話情報を取り入れることで、特徴ベースの拡張を強化すること。
事前学習済みマスク言語モデルの表現とTransformer-XLベースのNLMを融合することで、ユーザー固有の発話パターンに適応した文脈認識NLMを構築すること。
提案モデルの評価をASR指標に加え、意図分類やスロットラベルリングといった下流NLUタスクに対しても行い、一般化能力を検証すること。

提案手法

LSTMおよびTransformer-XLベースのNLMを、複数ターンにわたる対話文脈を処理できるように変更し、長距離依存性のモデリングを可能にする。
語彙的メタデータ（例：対話行動、システム応答）へのアテンション機構を導入し、文脈特徴の動的重み付けを実現。これにより「ぼやけた遠方の文脈」問題を緩和する。
ユーザー固有の発話パターンを捉えるために、事前学習済みマスク言語モデル（例：BERT）からの埋め込みをNLMの入力に追加し、モデルのロバストネスを向上させる。
ベースとなるNLMを再学習せずに、事前学習済みマスク言語モデルのエンコーディングとTransformer-XL NLMの出力を後段で融合することで、文脈表現を強化する。
N-best ASR仮説の再スコアリングを実施し、文脈認識NLMスコアをデコーディングのガイドとして用いる。
最終モデルの評価をASR（WER）および下流NLUタスク（意図分類、スロットラベルリング）の両方で行い、一般化能力を検証する。

実験結果

リサーチクエスチョン

RQ1マルチターン対話文脈をNLMに統合することで、タスク指向対話におけるASRの単語誤り率（WER）を顕著に低減できるか？
RQ2標準的な文脈集約と比較して、語彙的メタデータへのアテンションは、NLMにおける長文脈依存性のモデリングをどのように向上させるか？
RQ3対話行動やボットの応答を用いた特徴ベースの拡張は、ASR再スコアリングにおけるNLM性能をどの程度向上させるか？
RQ4事前学習済みマスク言語モデルのエンコーディングと融合することで、エンドツーエンドASRシステムにおけるユーザー固有の発話パターンへのロバストネスが向上するか？
RQ5提案された文脈認識NLMアーキテクチャは、ASRおよび下流NLUタスクの両方で一貫した向上をもたらすか？

主な発見

最良のモデルは、非文脈的ベースラインと比較して、ASR再スコアリングにおいて1.6%～9.1%の相対的WER低下を達成する。
スロットラベルリングのF1スコアは、非文脈的NLMベースラインと比較して4ポイント向上し、対話の意味的理解が向上していることを示している。
語彙的メタデータへのアテンションは「ぼやけた遠方の文脈」問題を顕著に緩和し、長ターン対話におけるより正確な文脈重み付けを実現している。
対話行動やボットの応答を用いた特徴ベースの拡張は、特に複雑でマルチターンな対話においてNLM性能の向上に寄与している。
事前学習済みマスク言語モデルのエンコーディングとの統合により、ローカルリソースやドメイン外の状況においても、ユーザー固有の発話パターンへのロバストネスが向上している。
提案された文脈認識NLMは、ASRおよび下流NLUタスクの両方で一貫した向上をもたらし、会話型AIシステムにおける一般化能力を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。