QUICK REVIEW

[論文レビュー] ASR for Affective Speech: Investigating Impact of Emotion and Speech Generative Strategy

Ya-Tse Wu, Chi-Chun Lee|arXiv (Cornell University)|Jan 28, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

この論文は、合成された感情的な音声がASRに与える影響を分析し、置換エラーを主要な問題として特定し、2つの戦略ベースのデータ選択手法（転写正確性と感情顕性）が、ニュートラルな発話を損なうことなく実際の感情音声データに対するASR性能を向上させることを示し、最も効果的な効果はTTS-EMO-Gの組み合わせによるものである。

ABSTRACT

This work investigates how emotional speech and generative strategies affect ASR performance. We analyze speech synthesized from three emotional TTS models and find that substitution errors dominate, with emotional expressiveness varying across models. Based on these insights, we introduce two generative strategies: one using transcription correctness and another using emotional salience, to construct fine-tuning subsets. Results show consistent WER improvements on real emotional datasets without noticeable degradation on clean LibriSpeech utterances. The combined strategy achieves the strongest gains, particularly for expressive speech. These findings highlight the importance of targeted augmentation for building emotion-aware ASR systems.

研究の動機と目的

実世界の対話における感情変動に対するASRの堅牢性を動機付ける。
合成音声の感情がASRのエラーパターンに与える影響を特徴づけ、主要なエラータイプを特定する。
ASR訓練用に感情表現豊かでありつつ語彙的に信頼できるサンプルを選択するデータ生成戦略を開発・評価する。
戦略を合成データから実データの感情音声へ一般化できることを示す。

提案手法

3つのTTSモデル（CosyVoice2、EmoVoice、MaskGCT）からLibriSpeechの文字起こしを用いて5つの感情（怒り、喜び、中立、悲しみ、驚き）で感情音声を合成する。
ASRのエラーパターン（置換、挿入、削除）を分析し、感情顕性を次元的感情回帰（Act、Val、Dom）で評価して合成データ品質を特徴づける。
2つの生成戦略を定義：TTS-G（置換が多く、削除/挿入が増えない発話を選択）とEMO-G（平均から1標準偏差を超えて感情スコアが逸脱する発話を選択）。
結合TTS-EMO-Gサブセットを作成し、各合成サブセットで事前学習済みQwen2-audio-7BASRモデル（最終0.1%パラメータを除くAudioEncを凍結解除）をファインチューニング。
合成テストセットと実データセット（MSP Podcast Test1/2、IEMOCAP）でWERを評価し、一般化を検証。
Vanilla（フィルタリングなし）と比較し、AudioEncファインチューニングの有無を報告。

実験結果

リサーチクエスチョン

RQ1合成された音声の感情表現力はASRのエラータイプと全体的な認識精度にどのように影響するか？
RQ2転写正確性と感情顕性に基づくターゲットデータ選択戦略は、感情的発話に対するASRの堅牢性を向上させるか？
RQ3合成データでの感情を考慮した拡張の改善は実データの感情音声データにも転移するか？

主な発見

合成された感情音声はニュートリルなLibriSpeechデータに比べ置換エラーを増加させる。
感情的に顕著で、かつ正しく転写されたサンプルはASR訓練においてより効果的である。
フィルタリングされた合成データは実データの感情音声認識を改善し、ニュートラル音声（LibriSpeech）の性能を損なわない。
組み合わせのTTS-EMO-G戦略は、特に高度に表現力のある発話に対して、合成データと実データの両方で最も強い効果を生む。
MaskGCTは3つのTTSモデルの中で最も良い総合性能を提供し、感情分布のバランスが堅牢性に寄与する。
実データの感情ベンチマークで、TTS-EMO-Gは他の戦略を一貫して上回り、実世界の感情表現音声への一般化が良好であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。