Skip to main content
QUICK REVIEW

[论文解读] VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots

Peizhen Li, Cao, Longbing|arXiv (Cornell University)|Feb 7, 2026
Social Robot Interaction and HRI被引用 0
一句话总结

VividFace 通过 X2CNet++ 实现实时、细腻的 humanoid 面部表情影射,结合微调运动转移与特征自适应训练,在真实场景演示中达到 0.05s 的仿真。

ABSTRACT

Humanoid facial expression shadowing enables robots to realistically imitate human facial expressions in real time, which is critical for lifelike, facially expressive humanoid robots and affective human-robot interaction. Existing progress in humanoid facial expression imitation remains limited, often failing to achieve either real-time performance or realistic expressiveness due to offline video-based inference designs and insufficient ability to capture and transfer subtle expression details. To address these limitations, we present VividFace, a real-time and realistic facial expression shadowing system for humanoid robots. An optimized imitation framework X2CNet++ enhances expressiveness by fine-tuning the human-to-humanoid facial motion transfer module and introducing a feature-adaptation training strategy for better alignment across different image sources. Real-time shadowing is further enabled by a video-stream-compatible inference pipeline and a streamlined workflow based on asynchronous I/O for efficient communication across devices. VividFace produces vivid humanoid faces by mimicking human facial expressions within 0.05 seconds, while generalizing across diverse facial configurations. Extensive real-world demonstrations validate its practical utility. Videos are available at: https://lipzh5.github.io/VividFace/.

研究动机与目标

  • 通过栩栩如生且具有响应性的面部表情模仿,推动人机交互的现实感与互动性。
  • 缩小实时性能与表达力在 humanoid 面部影射中的差距。
  • 增强从人类到 humanoid 面孔的细节传递(皱纹、目光、头部姿态)。
  • 开发能够与实时视频数据兼容的端到端流式管道,以实现实时控制。

提出的方法

  • 使用优化的两阶段模仿框架(运动转移 M1 与映射网络 M2)从驱动帧生成 humanoid 控制值。
  • 通过自监督图像重建任务结合 GAN 训练,在 humanoid 数据(X2C 数据集)上对运动转移模块进行微调。
  • 引入特征自适应训练策略,使映射网络的特征对齐推理输入与训练输入的特征分布。
  • 实现与视频流兼容的异步 I/O 流水线,达到 0.05 s 的实时影射。
  • 预计算并缓存 humanoid 源关键点与特征体积,加速逐帧处理。
  • 形成可从实时视频源(iPhone)到 humanoid 机器人(Ameca)实时影射的工作流。

实验结果

研究问题

  • RQ1是否能够在跨多种脸型的情形下实现实时、高保真的 humanoid 面部影射,复现皱纹、目光、头部姿态等微妙表情线索?
  • RQ2相对于基线,微调运动转移与特征自适应训练在提升真实感方面的效果有多大?
  • RQ3端到端的延迟是多少,在不同 CPU 负载下系统鲁棒性如何?
  • RQ4流式、异步管线在实际运行中能否保持稳定性与真实感?

主要发现

  • X2CNet++ 在真实感方面优于基线,获得更高的 Average User Rating (AUR) 与更低的 MAID。
  • X2CNet++ 的平均 AUR 为 4.76 ± 0.40,MAID 为 0.1810,相较基线。
  • 微调运动转移模块对于保留鼻部皱纹等细微细节至关重要。
  • 特征自适应训练提升训练输入与推理输入在特征空间的对齐,提升真实感(在消融实验中有体现)。
  • 端到端实时延迟在 CPU 负载从空闲到 90% 时仍低于 0.05 s(平均约 0.034–0.046 s)。
  • 定性演示表明在 Ameca 上能够真实再现皱眉、目光、头部姿态和鼻部皱纹等特征,且在真实世界测试中表现良好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。