QUICK REVIEW

[논문 리뷰] Single-Shot Motion Completion with Transformer

Yinglin Duan, Tianyang Shi|arXiv (Cornell University)|2021. 03. 01.

Video Analysis and Summarization참고 문헌 36인용 수 29

한 줄 요약

단일 프레임워크에서 누락된 모션 프레임을 보완하는 트랜스포머 기반의 비자회귀 모델이 in-betweening, in-filling, blending을 수행하며 LaFAN1에서 최첨단 정확도를 달성한다.

ABSTRACT

Motion completion is a challenging and long-discussed problem, which is of great significance in film and game applications. For different motion completion scenarios (in-betweening, in-filling, and blending), most previous methods deal with the completion problems with case-by-case designs. In this work, we propose a simple but effective method to solve multiple motion completion problems under a unified framework and achieves a new state of the art accuracy under multiple evaluation settings. Inspired by the recent great success of attention-based models, we consider the completion as a sequence to sequence prediction problem. Our method consists of two modules - a standard transformer encoder with self-attention that learns long-range dependencies of input motions, and a trainable mixture embedding module that models temporal information and discriminates key-frames. Our method can run in a non-autoregressive manner and predict multiple missing frames within a single forward propagation in real time. We finally show the effectiveness of our method in music-dance applications.

연구 동기 및 목표

하나의 프레임워크에서 다양한 시나리오(in-betweening, in-filling, blending)에 걸친 모션 보완의 동기 부여와 정의.
시간 정보를 모델링하고 키프레임 역할을 반영하는 학습 가능한 혼합 임베딩을 갖춘 트랜스포머 기반 아키텍처를 제안.
실시간 추론을 위한 다중 누락 프레임의 비자회귀, 한 번의 순전파 예측을 가능하게 한다.
모션의 현실감과 좌표계 간 일관성을 높이기 위해 순방향 및 역운동학 제약을 도입.
공개 데이터셋(LaFAN1, Anidance)과 신규 댄스 데이터셋에서 평가하여 최첨단 성능을 보여준다.

제안 방법

마스크된 입력 시퀀스를 처리하기 위한 백본으로 표준 트랜스포머 인코더(BERT 스타일)을 사용한다.
프레임을 주석하기 위해 학습 가능한 위치 임베딩과 키프레이임 임베딩을 결합한 학습 가능한 혼합 임베딩을 도입한다.
트랜스포머 처리 전에 Conv1d 시계열 연산자를 통해 모션 포즈를 순차 토큰으로 변환한다.
단일 순전파로 누락 프레임을 예측하여 비자회귀 병렬 추론을 가능하게 한다.
자세 재구성 손실 및 운동학 손실(FK/IK)을 포함한 다중 작업 회귀 손실로 물리적 타당성을 보장하며 학습한다.
트랜스포머 스택 이후 1D 합성 헤드를 통해 최종 예측 모션을 출력한다.

실험 결과

연구 질문

RQ1모션 보완에서 in-betweening, in-filling, blending을 하나의 트랜스포머 기반 프레임워크로 다룰 수 있는가?
RQ2학습 가능한 혼합 임베딩이 보완 작업의 시간 모델링 및 키프레임 구분력을 향상시키는가?
RQ3비자회귀 추론이 정확도를 해치지 않고 실시간 다중 프레임 보완을 달성할 수 있는가?
RQ4글로벌 좌표계와 로컬 좌표계에서 동작할 때 FK/IK 손실이 정확도에 미치는 영향은 무엇인가?
RQ5제안된 접근이 표준 벤치마크(LaFAN1) 및 실제/창의적 데이터셋(Anidance, dance blending)에서 얼마나 성능을 발휘하는가?

주요 결과

방법	L2Q (5)	L2Q (15)	L2Q (30)	L2P (5)	L2P (15)	L2P (30)	NPSS (5)	NPSS (15)	NPSS (30)
Zero-Vel	0.56	1.10	1.51	1.52	3.69	6.60	0.0053	0.0522	0.2318
Interp	0.22	0.62	0.98	0.37	1.25	2.32	0.0023	0.0391	0.2013
ERD-QV ( [16] )	0.17	0.42	0.69	0.23	0.65	1.28	0.0020	0.0258	0.1328
Ours (local w/o FK)	0.18	0.47	0.74	0.27	0.82	1.46	0.0020	0.0307	0.1487
Ours (local)	0.17	0.44	0.71	0.23	0.74	1.37	0.0019	0.0291	0.1430
Ours (global w/o ME & IK)	0.16	0.37	0.63	0.24	0.61	1.16	0.0018	0.0243	0.1284
Ours (global w/o IK)	0.14	0.36	0.61	0.21	0.57	1.11	0.0016	0.0238	0.1241
Ours* (global-full)	0.14	0.36	0.61	0.22	0.56	1.10	0.0016	0.0234	0.1222

이 방법은 여러 설정에서 LaFAN1에서 최첨단 정확도를 달성한다.
비자회귀 단일 순전파는 CPU에서 실시간 추론을 가능하게 하며(예: 1x30 시퀀스 약 0.025초).
혼합 임베딩과 IK/FK 손실이 L2Q, L2P, NPSS 지표 전반에서 정확도를 크게 향상시킨다.
글로벌 좌표 예측이 제안된 손실과 함께 로컬 좌표 설정보다 일반적으로 높은 정확도를 보인다.
이 접근 방식은 in-betweening, in-filling, blending에 일반화되며 야생의 키프레임 배열도 포함한다.
정성적 결과는 선형 보간 기준선에 비해 일관되고 그럴듯한 춤 모션 개선을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.