QUICK REVIEW

[論文レビュー] Contextual ASR Adaptation for Conversational Agents

Anirudh Raju, Behnam Hedayatnia|arXiv (Cornell University)|Jun 26, 2018

Speech Recognition and Synthesis被引用数 1

ひとこと要約

本稿では、ユーザー・エージェント相互作用の文脈（アプリケーションの種別やトピックなど）を、トピック分類器を用いて活用することで、会話型エージェントにおける自動音声認識（ASR）の言語モデル（LM）を動的に予測する文脈依存のLM混合重みを用いたDNNベースの手法を提案する。この手法により、1パスでは相対的に3%、2パスでは6%のWER改善が達成され、名前付きエンティティ認識では最大15%の相対的向上が得られた。

ABSTRACT

Statistical language models (LM) play a key role in Automatic Speech Recognition (ASR) systems used by conversational agents. These ASR systems should provide a high accuracy under a variety of speaking styles, domains, vocabulary and argots. In this paper, we present a DNN-based method to adapt the LM to each user-agent interaction based on generalized contextual information, by predicting an optimal, context-dependent set of LM interpolation weights. We show that this framework for contextual adaptation provides accuracy improvements under different possible mixture LM partitions that are relevant for both (1) Goal-oriented conversational agents where it's natural to partition the data by the requested application and for (2) Non-goal oriented conversational agents where the data can be partitioned using topic labels that come from predictions of a topic classifier. We obtain a relative WER improvement of 3% with a 1-pass decoding strategy and 6% in a 2-pass decoding framework, over an unadapted model. We also show up to a 15% relative improvement in recognizing named entities which is of significant value for conversational ASR systems.

研究の動機と目的

多様な話し方、分野、語彙を想定した会話型エージェントにおけるASR精度の向上を図ること。
多様なユーザー相互作用や文脈の変化に対しても高い認識精度を維持する課題に対処すること。
リアルタイムの文脈的ヒントに応じてLM重みをカスタマイズする動的言語モデル適応フレームワークの開発。
目的志向型および非目的志向型の会話型エージェントの両環境で、この手法を評価すること。
語彙誤り率（WER）および名前付きエンティティ認識性能における顕著な向上を示すこと。

提案手法

文脈特徴をユーザー・エージェント相互作用から得て、その文脈に基づいて最適なLM混合重みを予測するための深層ニューラルネットワーク（DNN）を訓練する。
目的志向型エージェントではアプリケーション固有のパーティション、非目的志向型エージェントではトピック分類器が予測するトピックラベルを文脈情報として用いる。
各ユーザーの発話ごとに動的にLM混合重みを適応させる一般化されたフレームワークを採用し、現在の文脈に適合したモデルの関連性を向上させる。
1パスおよび2パスのデコード戦略を両方サポートしており、後者は反復的精錬を可能にする。
DNNは文脈埋め込みを入力とし、事前に学習済みの言語モデルの重み付き組み合わせを出力する。
フレームワークは、文脈的に関連する訓練データにおけるWERを最小化するようにエンドツーエンドで訓練される。

実験結果

リサーチクエスチョン

RQ1文脈認識型LM適応は、多様な話し方や分野における会話型エージェントのASR精度向上に有効か？
RQ2静的で適応しないモデルと比較して、DNNベースのLM混合重み予測はWERの向上にどの程度有効か？
RQ3名前付きエンティティ認識（会話型ASRの重要なコンponents）において、この手法はより大きな向上をもたらすか？
RQ4提案されたフレームワークにおいて、1パスと2パスのデコード戦略の性能にはどのような差が生じるか？
RQ5分類器からのトピックベースの文脈は、非目的志向対話におけるLM適応を効果的に導くことができるか？

主な発見

提案手法は、未適応モデルと比較して1パスデコード戦略を用いることで、相対的語彙誤り率（WER）を3%改善した。
2パスデコードフレームワークでは、相対的WER改善が6%に達し、反復的精錬の利点を示した。
名前付きエンティティ認識において最大15%の相対的改善が得られ、タスクに不可欠なASRコンponentsにおける価値を強調した。
アプリケーションやトピックに基づく文脈を活用することで、目的志向型および非目的志向型の会話型エージェントの両方に対して効果的に適応した。
DNNベースの混合重み予測は、多様な相互作用文脈において一貫して認識精度を向上させた。
フレームワークは、リアルタイムのユーザー相互作用文脈への言語モデル適応において、頑健性とスケーラビリティを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。