QUICK REVIEW

[논문 리뷰] ASR for Affective Speech: Investigating Impact of Emotion and Speech Generative Strategy

Ya-Tse Wu, Chi-Chun Lee|arXiv (Cornell University)|2026. 01. 28.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

본 논문은 합성된 감정 표현 음성이 ASR에 미치는 영향을 분석하고, 치환 오류가 주요 이슈임을 확인하며, 두 가지 전략 기반 데이터 선택 방법(전사 정확도 및 감정 주도성)이 실제 감정 데이터에서의 ASR 성능을 향상시키되 중립적 음성에는 영향을 주지 않음을 보이고, 결합된 TTS-EMO-G 접근법에서 최고의 이득이 나타남을 보여준다.

ABSTRACT

This work investigates how emotional speech and generative strategies affect ASR performance. We analyze speech synthesized from three emotional TTS models and find that substitution errors dominate, with emotional expressiveness varying across models. Based on these insights, we introduce two generative strategies: one using transcription correctness and another using emotional salience, to construct fine-tuning subsets. Results show consistent WER improvements on real emotional datasets without noticeable degradation on clean LibriSpeech utterances. The combined strategy achieves the strongest gains, particularly for expressive speech. These findings highlight the importance of targeted augmentation for building emotion-aware ASR systems.

연구 동기 및 목표

현실 세계의 상호작용에서 감정적 변동성에 대한 ASR의 강건성을 촉진한다.
합성 음성의 감정이 ASR 오류 패턴에 미치는 영향을 특성화하고 지배적인 오류 유형을 식별한다.
ASR 학습을 위한 정서적으로 표현되면서도 언어적으로 신뢰할 수 있는 샘플을 선택하기 위한 데이터 생성 전략을 개발하고 평가한다.
합성에서 실제 감정 음성 데이터셋으로의 전략 일반화를 보인다.

제안 방법

LibriSpeech 전사를 이용하여 세 개의 TTS 모델(CosyVoice2, EmoVoice, MaskGCT)로 다섯 가지 감정(Angry, Happy, Neutral, Sad, Surprise)에 대한 감정 음성을 합성한다.
ASR 오류 패턴(대치, 삽입, 삭제)을 분석하고 차원적 감정 회귀(Act, Val, Dom)를 통해 정서적 주도성(emotional salience)을 평가하여 합성 데이터 품질을 특성화한다.
생성 전략 두 가지 정의: TTS-G(치환이 더 많고 삭제/삽입이 없는 발화를 선택)와 EMO-G(평균에서 한 표준편차를 넘는 감정 점수의 발화를 선택).
각 합성 하위집합에서 사전학습된 Qwen2-audio-7B ASR 모델의 AudioEnc를 마지막 0.1% 매개변수를 제외하고 해제된 상태로 미세 조정한다.
합성 테스트 세트와 실제 감정 데이터셋(MSP Podcast Test1/2, IEMOCAP)에 대한 WER으로 일반화를 평가한다.
필터링 없음인 Vanilla과의 비교 및 AudioEnc 미세 조정 여부에 따른 성능 보고.

실험 결과

연구 질문

RQ1합성 음성의 정서적 표현성이 ASR 오류 유형 및 전체 인식 정확도에 어떤 영향을 미치는가?
RQ2전사 정확도와 정서적 주도성을 기반으로 한 타깃 데이터 선택 전략이 정서적 발화에 대한 ASR 강건성을 향상시킬 수 있는가?
RQ3합성 기반의 정서 인지 보강으로부터의 향상이 실제 감정 음성 데이터셋으로 전이되는가?

주요 결과

합성된 정서 음성은 중립적 LibriSpeech 데이터와 비교하여 치환 오류를 증가시킨다.
정서적으로 주도적이고 정확하게 전사된 샘플이 ASR 학습에 더 효과적이다.
필터링된 합성 데이터는 실제 감정 음성 인식에서 인식을 향상시키고 중립(LibriSpeech) 성능에는 영향을 주지 않는다.
결합된 TTS-EMO-G 전략이 합성 데이터와 실제 데이터셋 전반에 걸쳐 특히 표현력이 높은 발화에서 가장 큰 이득을 낸다.
MaskGCT는 세 TTS 모델 중 설정에서 가장 우수한 전반 성능을 제공하며, 균형 잡힌 감정 분포가 강건성에 기여한다.
실제 감정 벤치마크에서 TTS-EMO-G가 다른 전략을 일관되게 능가하여 실제 정서 음성에 대한 일반화가 우수함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.