[論文レビュー] Detecting User Engagement in Everyday Conversations
本稿では、連続的会話からの会話的関与を推定するために、感情分類にサポートベクターマシン(SVM)を、会話的関与を推定するために結合された隠れマルコフモデル(CHMM)を組み合わせた多段階の機械学習フレームワークを提案する。参加者間の時間的ダイナミクスと相互影響をモデル化することで、分離された発話に対してベースラインのSVMよりも顕著に優れた63%の正確性を達成し、音声通信システムにおけるリアルタイムのユーザ関与推定において、プロソディック、時間的ダイナミクス、相互作用的特徴を統合することの価値を示している。
This paper presents a novel application of speech emotion recognition: estimation of the level of conversational engagement between users of a voice communication system. We begin by using machine learning techniques, such as the support vector machine (SVM), to classify users' emotions as expressed in individual utterances. However, this alone fails to model the temporal and interactive aspects of conversational engagement. We therefore propose the use of a multilevel structure based on coupled hidden Markov models (HMM) to estimate engagement levels in continuous natural speech. The first level is comprised of SVM-based classifiers that recognize emotional states, which could be (e.g.) discrete emotion types or arousal/valence levels. A high-level HMM then uses these emotional states as input, estimating users' engagement in conversation by decoding the internal states of the HMM. We report experimental results obtained by applying our algorithms to the LDC Emotional Prosody and CallFriend speech corpora.
研究の動機と目的
- リアルタイムの音声通信において会話的関与を推定するシステムを開発すること。特に、モバイルおよび即興的な状況を想定する。
- 従来の感情認識手法が分離された発話を分析するのに対し、関与を動的で連続的なプロセスとしてモデル化することで、その限界を克服すること。
- 時間的連続性、個々の感情状態、および他者との影響を統合したフレームワークを構築し、関与推定の精度を向上させること。
- 本手法を、実際の電話通話から得た即興的で話者に依存しない発話データ上で評価し、実用的妥当性を確保すること。
提案手法
- 最初の段階では、SVM分類器を用いて、音声特徴(例:プロソディック)を離散的 emotions や覚醒度/価値レベルといった感情状態にマッピングする。
- 高レベルの隠れマルコフモデル(HMM)は、予測された感情状態を処理し、ユーザーの関与レベルの時間的変化を連続的で動的なプロセスとしてモデル化する。
- 2人の会話参加者の関与状態を同時にモデル化するため、結合されたHMM(CHMM)を採用し、相互影響と相互作用のダイナミクスを捉える。
- フレームワークは、低レベルのプロソディック特徴、感情状態の時間的進行、および人間関係の相互作用効果を統合した一括確率的推論メカニズムを統合する。
- 本システムは、2つのコーパスを用いて訓練および評価される:LDC Emotional Prosody(演技された発話)およびCallFriend(即興的で実際の電話通話)。話者に依存する設定と依存しない設定の両方で評価される。
- 性能評価は、1〜5の関与スケールにおける分類正確度を用い、ランダムベースラインは20%である。
実験結果
リサーチクエスチョン
- RQ1プロソディック特徴のみで、即興的で連続的な発話における会話的関与を信頼性高く推定できるか?
- RQ2関与の時間的ダイナミクスをモデル化することで、分離された発話を分類する手法と比較して、検出正確度がどの程度向上するか?
- RQ3会話参加者間の相互影響を組み込むことで、関与推定の精度はどの程度向上するか?
- RQ4演技された発話と即興の発話、話者に依存する設定と依存しない設定の間で、性能指標はどのように変化するか?
- RQ5SVMとHMMを組み合わせた多段階アーキテクチャは、音声的、時間的、相互作用的特徴を効果的に統合し、関与推定に役立つか?
主な発見
- プロソディック特徴のみを用いたベースラインSVM分類器は、関与検出で47%の正確度を達成し、20%のランダムベースラインを著しく上回った。
- 多段階HMMベースの手法により、関与状態の連続的時間的ダイナミクスをモデル化することで正確度が61%に向上した。
- 参加者間の相互影響をモデル化するための結合HMMを追加することで、正確度はさらに63%に向上し、相互作用をモデル化することの価値を示した。
- 話者に依存しないモードでの即興発話(CallFriendコーパス)では、5つの離散的 emotions に対して51%、5つの覚醒度レベルに対して58%の正確度を示し、話者変動に対して中程度の耐性を示した。
- 価値レベルの認識は、覚醒度(3レベルで67%)よりも正確度が低く(54%)あり、心理的知見と整合的で、覚醒度の知覚的顕著性が高いためである。
- 演技された話者に依存するデータ(例:EPコーパスで75%の正確度)からの結果は、現実世界の即興的で話者に依存しない状況には一般化せず、性能が著しく低下することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。