QUICK REVIEW

[论文解读] Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Haoyuan Yang, Mu Yang|arXiv (Cornell University)|Mar 10, 2026

Emotion and Mood Recognition被引用 0

一句话总结

本论文提出基于 Deep-Prefix Prompting 的情感感知前缀（Emotion-Aware Prefix），在两阶段的 VEVO 语音转换系统中实现显式情感控制，在情感转换准确性（ECA）方面取得显著提升，同时保持说话人身份和语质。

ABSTRACT

Recent advances in zero-shot voice conversion have exhibited potential in emotion control, yet the performance is suboptimal or inconsistent due to their limited expressive capacity. We propose Emotion-Aware Prefix for explicit emotion control in a two-stage voice conversion backbone. We significantly improve emotion conversion performance, doubling the baseline Emotion Conversion Accuracy (ECA) from 42.40% to 85.50% while maintaining linguistic integrity and speech quality, without compromising speaker identity. Our ablation study suggests that a joint control of both sequence modulation and acoustic realization is essential to synthesize distinct emotions. Furthermore, comparative analysis verifies the generalizability of proposed method, while it provides insights on the role of acoustic decoupling in maintaining speaker identity.

研究动机与目标

激发零样本语音转换中的显式情感控制，以在不牺牲语言内容或说话人身份的前提下提升表达能力。
在 VEVO 中扩展一个内容不变的情感前缀，以引导序列调制。
研究情感前缀在序列调制与声学实现两个阶段的分层影响。
评估对情感控制的普适性以及声学解耦在身份保护中的作用。

提出的方法

通过增加一个情感感知前缀编码器扩展 VEVO，从参考梅尔谱图中提取说话级情感嵌入。
使用时序洗牌 Transformer、一个 Perceiver 层和一个情感融合层来生成固定长度的情感前缀 E。
实现 Deep-Prefix Prompting，将 E 作为层间 KV-cache 注入自回归 token 生成器以进行序列调制。
让声学实现阶段以参考音频 token 和真实梅尔谱为条件，以实现最终语音并保留说话人身份。
仅对情感感知前缀编码器进行微调，并对 AR Transformer 应用 LoRA 实现轻量级适配，同时保持骨干网络冻结。
在 Emotion Speech Dataset (ESD) 上训练，包含 10 位说话人、5 种情感、每个说话人情感对的训练语句数为 300 条。

实验结果

研究问题

RQ1通过引入情感感知前缀，在两阶段语音转换框架中是否能够实现显式情感控制？
RQ2序列级调制相对于声学实现对于情感转换性能的相对贡献有多大？
RQ3声学解耦是否有助于在加入显式情感控制时保护说话人身份？
RQ4与 VEVO 及其他基线相比，在情感、音质和身份等客观与主观指标上，该方法的表现如何？

主要发现

情感转换准确性（ECA）从 42.40%（VEVO）提升至 85.50%（所提方法）。
Deep-Prefix Prompting 进一步提升了 ECA 和情感相似度（Emo SIM），且不牺牲音质或可懂度。
序列调制是情感层次化表达的主要驱动因素，阶段间联合控制的非加性增益最大。
声学解耦有助于保持说话人身份，因为缺少独立声学实现阶段的方法在身份保持方面表现更差。
主观评估显示所提方法在情感相似性和说话人偏好方面有提升（MOS 和 ABX 测试）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。