Skip to main content
QUICK REVIEW

[논문 리뷰] Single-Shot Motion Completion with Transformer

Yinglin Duan, Tianyang Shi|arXiv (Cornell University)|2021. 03. 01.
Video Analysis and Summarization참고 문헌 36인용 수 29
한 줄 요약

단일 프레임워크에서 누락된 모션 프레임을 보완하는 트랜스포머 기반의 비자회귀 모델이 in-betweening, in-filling, blending을 수행하며 LaFAN1에서 최첨단 정확도를 달성한다.

ABSTRACT

Motion completion is a challenging and long-discussed problem, which is of great significance in film and game applications. For different motion completion scenarios (in-betweening, in-filling, and blending), most previous methods deal with the completion problems with case-by-case designs. In this work, we propose a simple but effective method to solve multiple motion completion problems under a unified framework and achieves a new state of the art accuracy under multiple evaluation settings. Inspired by the recent great success of attention-based models, we consider the completion as a sequence to sequence prediction problem. Our method consists of two modules - a standard transformer encoder with self-attention that learns long-range dependencies of input motions, and a trainable mixture embedding module that models temporal information and discriminates key-frames. Our method can run in a non-autoregressive manner and predict multiple missing frames within a single forward propagation in real time. We finally show the effectiveness of our method in music-dance applications.

연구 동기 및 목표

  • 하나의 프레임워크에서 다양한 시나리오(in-betweening, in-filling, blending)에 걸친 모션 보완의 동기 부여와 정의.
  • 시간 정보를 모델링하고 키프레임 역할을 반영하는 학습 가능한 혼합 임베딩을 갖춘 트랜스포머 기반 아키텍처를 제안.
  • 실시간 추론을 위한 다중 누락 프레임의 비자회귀, 한 번의 순전파 예측을 가능하게 한다.
  • 모션의 현실감과 좌표계 간 일관성을 높이기 위해 순방향 및 역운동학 제약을 도입.
  • 공개 데이터셋(LaFAN1, Anidance)과 신규 댄스 데이터셋에서 평가하여 최첨단 성능을 보여준다.

제안 방법

  • 마스크된 입력 시퀀스를 처리하기 위한 백본으로 표준 트랜스포머 인코더(BERT 스타일)을 사용한다.
  • 프레임을 주석하기 위해 학습 가능한 위치 임베딩과 키프레이임 임베딩을 결합한 학습 가능한 혼합 임베딩을 도입한다.
  • 트랜스포머 처리 전에 Conv1d 시계열 연산자를 통해 모션 포즈를 순차 토큰으로 변환한다.
  • 단일 순전파로 누락 프레임을 예측하여 비자회귀 병렬 추론을 가능하게 한다.
  • 자세 재구성 손실 및 운동학 손실(FK/IK)을 포함한 다중 작업 회귀 손실로 물리적 타당성을 보장하며 학습한다.
  • 트랜스포머 스택 이후 1D 합성 헤드를 통해 최종 예측 모션을 출력한다.

실험 결과

연구 질문

  • RQ1모션 보완에서 in-betweening, in-filling, blending을 하나의 트랜스포머 기반 프레임워크로 다룰 수 있는가?
  • RQ2학습 가능한 혼합 임베딩이 보완 작업의 시간 모델링 및 키프레임 구분력을 향상시키는가?
  • RQ3비자회귀 추론이 정확도를 해치지 않고 실시간 다중 프레임 보완을 달성할 수 있는가?
  • RQ4글로벌 좌표계와 로컬 좌표계에서 동작할 때 FK/IK 손실이 정확도에 미치는 영향은 무엇인가?
  • RQ5제안된 접근이 표준 벤치마크(LaFAN1) 및 실제/창의적 데이터셋(Anidance, dance blending)에서 얼마나 성능을 발휘하는가?

주요 결과

방법L2Q (5)L2Q (15)L2Q (30)L2P (5)L2P (15)L2P (30)NPSS (5)NPSS (15)NPSS (30)
Zero-Vel0.561.101.511.523.696.600.00530.05220.2318
Interp0.220.620.980.371.252.320.00230.03910.2013
ERD-QV ( [16] )0.170.420.690.230.651.280.00200.02580.1328
Ours (local w/o FK)0.180.470.740.270.821.460.00200.03070.1487
Ours (local)0.170.440.710.230.741.370.00190.02910.1430
Ours (global w/o ME & IK)0.160.370.630.240.611.160.00180.02430.1284
Ours (global w/o IK)0.140.360.610.210.571.110.00160.02380.1241
Ours* (global-full)0.140.360.610.220.561.100.00160.02340.1222
  • 이 방법은 여러 설정에서 LaFAN1에서 최첨단 정확도를 달성한다.
  • 비자회귀 단일 순전파는 CPU에서 실시간 추론을 가능하게 하며(예: 1x30 시퀀스 약 0.025초).
  • 혼합 임베딩과 IK/FK 손실이 L2Q, L2P, NPSS 지표 전반에서 정확도를 크게 향상시킨다.
  • 글로벌 좌표 예측이 제안된 손실과 함께 로컬 좌표 설정보다 일반적으로 높은 정확도를 보인다.
  • 이 접근 방식은 in-betweening, in-filling, blending에 일반화되며 야생의 키프레임 배열도 포함한다.
  • 정성적 결과는 선형 보간 기준선에 비해 일관되고 그럴듯한 춤 모션 개선을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.