QUICK REVIEW

[논문 리뷰] SingingBot: An Avatar-Driven System for Robotic Face Singing Performance

Zhuoxiong Xu, Xuanchen Li|arXiv (Cornell University)|2026. 01. 05.

Social Robot Interaction and HRI인용 수 0

한 줄 요약

SingingBot은 비디오 확산 아바타를 사용하여 의미론적 구간 매핑으로 로봇의 노래 표현을 이끌어 강력한 립-싱크와 풍부한 감정을 달성하며, 새로운 Emotions Dynamic Range 메트릭으로 정량화된다.

ABSTRACT

Equipping robotic faces with singing capabilities is crucial for empathetic Human-Robot Interaction. However, existing robotic face driving research primarily focuses on conversations or mimicking static expressions, struggling to meet the high demands for continuous emotional expression and coherence in singing. To address this, we propose a novel avatar-driven framework for appealing robotic singing. We first leverage portrait video generation models embedded with extensive human priors to synthesize vivid singing avatars, providing reliable expression and emotion guidance. Subsequently, these facial features are transferred to the robot via semantic-oriented mapping functions that span a wide expression space. Furthermore, to quantitatively evaluate the emotional richness of robotic singing, we propose the Emotion Dynamic Range metric to measure the emotional breadth within the Valence-Arousal space, revealing that a broad emotional spectrum is crucial for appealing performances. Comprehensive experiments prove that our method achieves rich emotional expressions while maintaining lip-audio synchronization, significantly outperforming existing approaches.

연구 동기 및 목표

디지털 아바타 노래와 물리적 로봇 얼굴을 연결하여 노래 중 지속적인 감정 표현을 가능하게 한다.
비디오 확산 모델의 대규모 인간 priors를 활용해 제어 가능한 아바타 노래 애니메이션을 생성한다.
의미지향적 구간 함수로 아바타 얼굴 특징을 로봇 모터 공간에 매핑하여 강력한 립-싱크와 표현력을 확보한다.
Valence-Arousal 공간에서 감정의 폭을 정량적으로 측정하는 지표인 Emotion Dynamic Range (EDR)를 도입하고 검증한다.

제안 방법

오디오, 참조 초상화, 프롬프트를 조건으로 한 사전 학습된 비디오 확산 모델로 아바타 노래 비디오를 생성한다.
MediaPipe를 사용하여 아바타 비디오에서 52차원 ARKit blendshape 계수 추출한다.
블렌드쉐이프를 로봇 모터 명령으로 변환하기 위해 의미지향적 구간 매핑을 적용하고 휴식 포즈와 혼합한다.
자연스러운 머리 움직임을 위해 3-DOF 헤드 포즈를 선형적으로 목 모터에 매핑한다.
페이셜 표현과 립-싱크를 구현하기 위해 32-DOF 휴머노이드 로봇 머리를 사용하며, 확산 priors가 구동 품질을 향상시킨다.
립-싱크 지표(LSE-D, LSE-C)와 제안된 Emotion Dynamic Range (EDR) in VA space를 사용해 평가한다.

실험 결과

연구 질문

RQ1아바타 기반 구동과 확산 priors가 로봇 노래의 감정 표현력과 립-싱크를 어떻게 개선할 수 있는가?
RQ2의미 구간 매핑이 로봇 구동기으로의 아바타 표현 translate에서 직접 회귀나 최근접 이웃 방법보다 일반화와 리얼리즘을 더 잘 제공하는가?
RQ3감정의 폭(EDR in VA space)이 로봇 노래 성능 평가에서 어떤 역할을 하는가?
RQ4참조 초상화 스타일 제어가 동기화 상태를 유지하면서 서로 다른 노래 성능을 제어할 수 있는가?
RQ5제안 시스템이 객관적 립-싱크와 지각된 리얼리즘/감정에서 베이스라인과 비교했을 때 어떤 차이가 있는가?

주요 결과

방법	LSE-D	LSE-C	EDR
RT	14.892	0.196	0.0044
NNR	12.834	1.481	0.0030
Zhu et al. [ 26 ]	12.428	1.504	0.0021
Ours	11.095	2.313	0.0389

본 방법은 LSE-D가 더 낮고 LSE-C가 더 높아 베이스라인보다 립-오디오 동기화에서 우수하다.
본 방법은 Emotion Dynamic Range (EDR)가 현저히 더 높아 감정 표현이 더 풍부하다.
사용자 연구에서 베이스라인보다 현실감, 감정 공명, 립-싱크 측면에서 우수하다고 평가되었다.
변형 연구에서 확산 priors와 아바타 구동이 구동이 없는 변형 대비 성능을 크게 향상시킨 것으로 나타났다.
시각적 정성적 결과가 베이스라인보다 더 그럴듯한 입 모양과 마이크로-표정 표현을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.