QUICK REVIEW

[论文解读] SingingBot: An Avatar-Driven System for Robotic Face Singing Performance

Zhuoxiong Xu, Xuanchen Li|arXiv (Cornell University)|Jan 5, 2026

Social Robot Interaction and HRI被引用 0

一句话总结

SingingBot 使用视频扩散头像通过语义分段映射驱动机器人歌唱表达，实现强口型对齐和丰富情感；通过新的情感动态范围（EDR）在情感-价值（Valence-Arousal, VA）空间进行量化。

ABSTRACT

Equipping robotic faces with singing capabilities is crucial for empathetic Human-Robot Interaction. However, existing robotic face driving research primarily focuses on conversations or mimicking static expressions, struggling to meet the high demands for continuous emotional expression and coherence in singing. To address this, we propose a novel avatar-driven framework for appealing robotic singing. We first leverage portrait video generation models embedded with extensive human priors to synthesize vivid singing avatars, providing reliable expression and emotion guidance. Subsequently, these facial features are transferred to the robot via semantic-oriented mapping functions that span a wide expression space. Furthermore, to quantitatively evaluate the emotional richness of robotic singing, we propose the Emotion Dynamic Range metric to measure the emotional breadth within the Valence-Arousal space, revealing that a broad emotional spectrum is crucial for appealing performances. Comprehensive experiments prove that our method achieves rich emotional expressions while maintaining lip-audio synchronization, significantly outperforming existing approaches.

研究动机与目标

将数字化头像歌唱与物理机器人脸部结合，以在歌唱过程中实现持续的情感表达。
利用视频扩散模型中的大规模人类先验，生成可控的头像歌唱动画。
通过语义导向的分段映射，将头像面部特征映射到机器人电机空间，以实现鲁棒的口型对齐和表情表现。
在 VA 空间引入并验证情感动态范围（EDR）作为情感广度的量化度量，并进行验证。

提出的方法

以音频、参考人像和提示词为条件，使用预训练的视频扩散模型生成头像歌唱视频。
用 MediaPipe 从头像视频中提取 52 维 ARKit 混合形状系数。
应用语义导向的分段映射，将混合形状转换为机器人电机指令，并与休息姿态混合。
将 3 自由度头部位姿线性映射到颈部电机，以实现自然头部运动。
使用一个 32 自由度的人形机器人头部来实现面部表情和口型同步，扩散先验提升驱动质量。
通过口型对齐指标（LSE-D、LSE-C）和在 VA 空间中的提出的情感动态范围（EDR）进行评估。

实验结果

研究问题

RQ1头像驱动结合扩散先验如何提升机器人歌唱中的情感表现力和口型同步？
RQ2相较于直接回归或最近邻方法，基于语义分段映射将头像表达映射到机器人执行器，是否具有更好的泛化性和真实感？
RQ3情感广度（VA 空间中的 EDR）在评估机器人歌唱表现中的作用是什么？
RQ4参考人像风格控制在保持同步的同时能否实现不同的演唱表现？
RQ5与基线方法相比，所提出系统在客观口型同步与主观真实感/情感方面的表现如何？

主要发现

我们的方法在口型-音频同步方面优于基线方法，表现为更低的 LSE-D 和更高的 LSE-C。
我们的方法在情感动态范围（EDR）方面显著更高，情感表达更丰富。
用户研究显示我们的方法在真实感、情感共鸣和口型同步方面优于基线。
消融分析表明扩散先验和头像驱动驱动机制显著提升了性能，相较于无这些组件的变体。
可视化定性结果显示比基线更自然的口形和微表情。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。