QUICK REVIEW

[論文レビュー] VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots

Peizhen Li, Cao, Longbing|arXiv (Cornell University)|Feb 7, 2026

Social Robot Interaction and HRI被引用数 0

ひとこと要約

VividFace は X2CNet++ を導入し、モーション転送の微調整と特徴適応トレーニングを適用することで、 humanoid ロボットのリアルタイムかつニュアンスのある表情影の再現を実現。実世界デモで 0.05s の模倣を達成。

ABSTRACT

Humanoid facial expression shadowing enables robots to realistically imitate human facial expressions in real time, which is critical for lifelike, facially expressive humanoid robots and affective human-robot interaction. Existing progress in humanoid facial expression imitation remains limited, often failing to achieve either real-time performance or realistic expressiveness due to offline video-based inference designs and insufficient ability to capture and transfer subtle expression details. To address these limitations, we present VividFace, a real-time and realistic facial expression shadowing system for humanoid robots. An optimized imitation framework X2CNet++ enhances expressiveness by fine-tuning the human-to-humanoid facial motion transfer module and introducing a feature-adaptation training strategy for better alignment across different image sources. Real-time shadowing is further enabled by a video-stream-compatible inference pipeline and a streamlined workflow based on asynchronous I/O for efficient communication across devices. VividFace produces vivid humanoid faces by mimicking human facial expressions within 0.05 seconds, while generalizing across diverse facial configurations. Extensive real-world demonstrations validate its practical utility. Videos are available at: https://lipzh5.github.io/VividFace/.

研究の動機と目的

lifelike な表情模倣を通じた現実的で応答性の高い人間–ロボット対話の動機付け。
リアルタイム性能と表現力のギャップを埋める。
人間から humanoid 顔への微細なディテール（皺、視線、頭部姿勢）の転送を強化。
リアルタイム制御のためのライブ映像データと互換性のあるエンドツーエンドのストリーミングパイプラインを開発。

提案手法

駆動フレームから humanoid 制御値を生成する最適化された二段 imitation フレームワーク（モーション転送 M1 とマッピングネットワーク M2）を使用。
GAN ベースの訓練を伴う自己教師付き画像再構成タスクにより humanoid データ（X2C データセット）上でモーション転送モジュールを微調整。
推論入力と訓練入力の特徴を整合させるための特徴適応トレーニング戦略をマッピングネットワークに導入。
0.05 s のリアルタイム影を実現するための動画ストリーミング対応の非同期 I/O パイプラインを実装。
per-frame 処理を加速するために humanoid ソースのキーポイントと特徴ボリュームを事前計算・キャッシュ。
ライブ映像（iPhone）から humanoid ロボット（Ameca）へのリアルタイム影を可能とするワークフローを実現。

実験結果

リサーチクエスチョン

RQ1多様な顔に対して、リアルタイムで高忠実な humanoid 表情影が皺・視線・頭部姿勢といった微細な表現を再現できるか。
RQ2モーション転送の微調整と特徴適応トレーニングが、ベースラインと比較してリアリズムをどの程度向上させるか。
RQ3エンドツーエンドの待機 latency と、CPU負荷の変動下でのロバスト性はどの程度か。
RQ4ストリーミング型の非同期パイプラインは実運用で安定性と現実感を維持できるか。

主な発見

Method	AUR (Mean ± SD) ↑	MAID ↓
X2CNet++ (Ours)	4.76 ± 0.4027	0.1810
X2CNet [5]	3.53 ± 0.4988	0.2315
Smile [6]	2.23 ± 0.7498	0.2698
Coexpression [8]	1.77 ± 0.7039	0.2496

X2CNet++ はベースラインより現実感が高く、平均ユーザ評価（AUR）と MAID が改善。
X2CNet++ の MAID 0.1810、平均 AUR 4.76 ± 0.40（ベースライン比較）。
鼻の皺のような微細なディテールを保持するにはモーション転送モジュールの微調整が必須。
特徴空間の整合を訓練入力と推論入力の間で改善する特徴適応トレーニングは現実感を高める（アブレーションで示される）。
アイドルから 90% 稼働負荷までの CPU 負荷下でもエンドツーエンドのリアルタイム遅延は 0.05 s 未満を維持（平均約 0.034–0.046 s）。
実世界のデモは Ameca における顔のしかめっつら、視線、頭部姿勢、鼻の皺の正確な再現を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。