QUICK REVIEW

[論文レビュー] SingingBot: An Avatar-Driven System for Robotic Face Singing Performance

Zhuoxiong Xu, Xuanchen Li|arXiv (Cornell University)|Jan 5, 2026

Social Robot Interaction and HRI被引用数 0

ひとこと要約

SingingBotはビデオ拡散アバターを用いて、セマンティックな分割マッピング経由でロボットの歌唱表現を駆動し、リップシンクと豊かな感情表現を高く実現。新しいEmotion Dynamics Range (EDR) 指標で定量化。

ABSTRACT

Equipping robotic faces with singing capabilities is crucial for empathetic Human-Robot Interaction. However, existing robotic face driving research primarily focuses on conversations or mimicking static expressions, struggling to meet the high demands for continuous emotional expression and coherence in singing. To address this, we propose a novel avatar-driven framework for appealing robotic singing. We first leverage portrait video generation models embedded with extensive human priors to synthesize vivid singing avatars, providing reliable expression and emotion guidance. Subsequently, these facial features are transferred to the robot via semantic-oriented mapping functions that span a wide expression space. Furthermore, to quantitatively evaluate the emotional richness of robotic singing, we propose the Emotion Dynamic Range metric to measure the emotional breadth within the Valence-Arousal space, revealing that a broad emotional spectrum is crucial for appealing performances. Comprehensive experiments prove that our method achieves rich emotional expressions while maintaining lip-audio synchronization, significantly outperforming existing approaches.

研究の動機と目的

デジタルアバター歌唱を物理的ロボットの顔表現と結びつけ、歌唱中の連続的な感情表現を可能にする。
ビデオ拡散モデルの大規模な人間プリオリを活用して、制御可能なアバター歌唱アニメーションを生成する。
アバターの facial features を意味論的指向の分割関数でロボットのモータ空間にマッピングし、リップシンクと表現力を robust にする。
Emotion Dynamic Range (EDR) をValence-Arousal空間で感情の幅の定量指標として導入・検証する。

提案手法

音声、参照肖像、プロンプトを条件とする事前学習済みビデオ拡散モデルでアバター歌唱ビデオを生成する。
MediaPipeを用いてアバター動画から52次元のARKitブレンドシェイプ係数を抽出する。
意味論的指向の分割マッピングを適用し、ブレンドシェイプをロボットのモーター命令へ変換し、レストポーズとブレンドする。
自然な首の動きのために3自由度ヘッドポーズを頸部モータへ線形マッピングする。
32自由度のヒューマノイド頭部を用いて表情とリップシンクを実現し、拡散 priors が駆動品質を改善する。
リップシンク指標（LSE-D, LSE-C）と提案手法のEmotion Dynamic Range (EDR) を VA空間で評価する。

実験結果

リサーチクエスチョン

RQ1拡散 priors を用いたアバター駆動は、ロボット歌唱における感情表現とリップシンクをどのように改善するか。
RQ2意味論的分割マッピングは、アバター表現をロボットアクチュエータへ翻訳する際、直接回帰や最近傍法よりも一般化と現実感を向上させるか。
RQ3感情の幅（VA空間のEDR）がロボット歌唱のパフォーマンス評価においてどのような役割を果たすか。
RQ4参照肖像スタイルコントロールは同期を維持しつつ、異なる歌唱パフォーマンスを可能にするか。
RQ5提案システムは、客観的なリップシンクと主観的な現実感/感情の点でベースラインとどう比較されるか。

主な発見

Method	LSE-D	LSE-C	EDR
RT	14.892	0.196	0.0044
NNR	12.834	1.481	0.0030
Zhu et al. [ 26 ]	12.428	1.504	0.0021
Ours	11.095	2.313	0.0389

我々の手法はベースラインよりリップ-音声同期が良く、LSE-D が低く、LSE-C が高いことを示している。
提案手法は感情表現の幅を示すEDRを有意に高くし、豊かな感情表現を示す。
ユーザー調査は、現実感・感情の共鳴・リップシンクの点でベースラインより優れていると評価。
アブレーション解析により、拡散 priors とアバター駆動の駆動が、これらなしの場合と比べて性能を大幅に向上させることを示す。
視覚的な定性的結果として、ベースラインより口形状やマイクロ表情がより説得力を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。