QUICK REVIEW

[논문 리뷰] VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots

Peizhen Li, Cao, Longbing|arXiv (Cornell University)|2026. 02. 07.

Social Robot Interaction and HRI인용 수 0

한 줄 요약

VividFace는 X2CNet++를 도입하여 모션 전송 미세 조정과 특징 적응 학습을 적용해 현실적이고 미묘한 얼굴 표현 그림자화의 실시간 구현을 달성하고, 실제 시연에서 0.05초의 모방을 가능하게 한다.

ABSTRACT

Humanoid facial expression shadowing enables robots to realistically imitate human facial expressions in real time, which is critical for lifelike, facially expressive humanoid robots and affective human-robot interaction. Existing progress in humanoid facial expression imitation remains limited, often failing to achieve either real-time performance or realistic expressiveness due to offline video-based inference designs and insufficient ability to capture and transfer subtle expression details. To address these limitations, we present VividFace, a real-time and realistic facial expression shadowing system for humanoid robots. An optimized imitation framework X2CNet++ enhances expressiveness by fine-tuning the human-to-humanoid facial motion transfer module and introducing a feature-adaptation training strategy for better alignment across different image sources. Real-time shadowing is further enabled by a video-stream-compatible inference pipeline and a streamlined workflow based on asynchronous I/O for efficient communication across devices. VividFace produces vivid humanoid faces by mimicking human facial expressions within 0.05 seconds, while generalizing across diverse facial configurations. Extensive real-world demonstrations validate its practical utility. Videos are available at: https://lipzh5.github.io/VividFace/.

연구 동기 및 목표

실감 나는 얼굴 표정 모방을 통해 현실적이고 반응적인 인간-로봇 상호작용을 촉진한다.
실시간 성능과 표현성 사이의 간극을 인간형 얼굴 그림자화에서 해소한다.
주름, 시선, 머리 자세 등의 미세한 디테일을 인간으로부터 휴머노이드 얼굴로의 전달을 향상시킨다.
실시간 제어를 위한 라이브 비디오 데이터와 호환되는 종단 간 스트리밍 파이프라인을 개발한다.

제안 방법

구동 프레임으로부터 휴머노이드 제어 값을 생성하기 위해 최적화된 2단계 모방 프레임워크(M1: 모션 전송, M2: 매핑 네트워크)를 사용한다.
모션 전송 모듈을 휴머노이드 데이터(X2C 데이터셋)에서 자체 감독 이미지 재구성 작업과 GAN 기반 학습으로 미세 조정한다.
추론 입력과 학습 입력의 특징을 정렬하기 위한 매핑 네트워크의 특징 적응 학습 전략을 도입한다.
0.05초 실시간 그림자화를 달성하기 위해 비디오 스트리밍 호환 비동기 I/O 파이프라인을 구현한다.
프레임당 처리를 가속하기 위해 휴머노이드 소스 키포인트와 특징 부피를 미리 계산하고 캐시한다.
라이브 비디오 피드(iPhone)로부터 휴머노이드 로봇(Ameca)으로의 실시간 그림자화를 가능하게 하는 간소화된 작업 흐름.

실험 결과

연구 질문

RQ1실시간 고충실도 휴머노이드 얼굴 그림자화가 다양한 얼굴에서 미세한 인간 표현 신호(주름, 시선, 머리 자세)를 재현할 수 있는가?
RQ2모션 전송의 미세 조정과 특징 적응 학습이Baseline 대비 현실감을 얼마나 향상시키는가?
RQ3종단 간 대기 시간은 얼마이며 CPU 부하 변화에 시스템은 얼마나 강건한가?
RQ4스트리밍 비동기 파이프라인이 실시간 작동에서 안정성과 현실감을 유지하는가?

주요 결과

X2CNet++은 현실감에서 기준선보다 우수하며 더 높은 Average User Rating (AUR)을 달성하고 MAID가 더 낮다.
X2CNet++의 평균 AUR는 4.76 ± 0.40이고 MAID는 0.1810로 기준선 대비 우수하다.
모션 전송 모듈의 미세 조정이 코의 주름 같은 미세한 디테일을 보존하는 데 필수적이다.
특징 적응 학습은 학습 입력과 추론 입력 간 특징 공간의 정렬을 개선하여 현실감을 높이며(ablations에서 보임).
실시간 대기 시간은 아이들에서 90% 부하까지 엔드 투 엔드에서 0.05초 미만으로 유지되며(평균 약 0.034–0.046 s).
현장 실험에서 찡그림, 시선, 머리 자세, 코 주름의 정확한 재현을 Ameca에서 보여주는 질적 시연.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.