QUICK REVIEW

[論文レビュー] Dialogue Act Modeling for Automatic Tagging and Recognition of Conversational Speech

Andreas Stolcke, K. Ries|arXiv (Cornell University)|Jan 1, 2000

Speech and dialogue systems参考文献 13被引用数 87

ひとこと要約

この論文は、隠れマルコフモデルとn-gram文法を用いて語彙的、プロソディック的、話法的レベルの手がかりを統合する統計的会話行動モデリングフレームワークを提示する。このフレームワークにより、会話的音声における自動タギングと認識の精度が向上し、転写された音声において71%の会話行動分類精度を達成した。これは偶然の水準（35%）を著しく上回り、人間水準の性能（84%）に近づいた。また、単語誤り率はわずかに低下した。

ABSTRACT

We describe a statistical approach for modeling dialogue acts in conversational speech, i.e., speech-act-like units such as Statement, Question, Backchannel, Agreement, Disagreement, and Apology. Our model detects and predicts dialogue acts based on lexical, collocational, and prosodic cues, as well as on the discourse coherence of the dialogue act sequence. The dialogue model is based on treating the discourse structure of a conversation as a hidden Markov model and the individual dialogue acts as observations emanating from the model states. Constraints on the likely sequence of dialogue acts are modeled via a dialogue act n-gram. The statistical dialogue grammar is combined with word n-grams, decision trees, and neural networks modeling the idiosyncratic lexical and prosodic manifestations of each dialogue act. We develop a probabilistic integration of speech recognition with dialogue modeling, to improve both speech recognition and dialogue act classification accuracy. Models are trained and evaluated using a large hand-labeled database of 1,155 conversations from the Switchboard corpus of spontaneous human-to-human telephone speech. We achieved good dialogue act labeling accuracy (65% based on errorful, automatically recognized words and prosody, and 71% based on word transcripts, compared to a chance baseline accuracy of 35% and human accuracy of 84%) and a small reduction in word recognition error.

研究の動機と目的

自然な会話的音声における自動会話行動タギングのための統計的フレームワークの開発。
語彙的、プロソディック的、話法的レベルの複数の手がかりを統合した一貫した確率的モデルの構築。
認識プロセスに会話行動の文脈を組み込むことで、音声認識精度の向上。
自然な電話会話の手動ラベル付き大規模コーパスを用いたモデルの評価。
連続音声認識における会話行動モデリングの制約としての実用可能性の検討。

提案手法

話法的構造は、会話行動を隠れ状態からの観測出力としてモデル化する隠れマルコフモデル（HMM）として扱う。
会話行動のn-gramを用いて、会話行動の系列に制約を設け、話法的整合性を捉える。
語彙的およびプロソディック的特徴は、自動認識された音声およびプロソディック的手がかりを用いてトレーニングされた単語n-gram、決定木、ニューラルネットワークでモデル化する。
会話行動モデリングと連続音声認識を確率的に統合するため、話法的文脈を用いて単語の仮説を制約する。
モデルは、Switchboardコーパスの1,155件の手動ラベル付き会話データを用いてトレーニングおよび評価された。
ニューラルネットワークは、プロソディック的および語彙的特徴を含む多様な知識源を統合するために、後方確率推定を用いてトレーニングされた。

実験結果

リサーチクエスチョン

RQ1統計的モデルは、自然な音声における会話行動認識に、語彙的、プロソディック的、話法的レベルの手がかりを効果的に統合できるか？
RQ2会話行動モデリングを統合することで、音声認識精度はどの程度向上するか？
RQ3話法文法（n-gram制約）は、会話行動分類性能にどのような影響を与えるか？
RQ4異なるモデリングコンポーネント（例：バックオフn-gram対最大エントロピーモデル）は、分類精度にどのように影響するか？
RQ5会話行動モデリングは、自動音声認識における単語誤り率をどの程度低減できるか？

主な発見

自動認識された単語とプロソディークを用いた場合、会話行動分類精度は65%に達したが、これは35%の偶然の水準を大幅に上回った。
自動認識ではなく、単語の転写を用いた場合、精度は71%に向上し、人間水準の性能（84%）に近づいた。
会話行動モデリングを音声認識プロセスに統合することで、単語誤り率にわずかだが測定可能な低下が見られた。
モデルの性能は、モデリングコンポーネントの選択（例：バックオフn-gram対最大エントロピーモデル）に対してほとんど頑健であった。
後方確率に基づいてトレーニングされたニューラルネットワークは、多様な特徴を統合する上で有望な結果を示したが、その向上は限定的であった。これは、より良い特徴抽出法があればさらなる改善が可能であることを示唆している。
特に「発言」の優勢な偏りがある会話行動の分布は、音声認識における会話行動モデリングの全体的な利点を制限していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。