[논문 리뷰] Single-Shot Motion Completion with Transformer
단일 프레임워크에서 누락된 모션 프레임을 보완하는 트랜스포머 기반의 비자회귀 모델이 in-betweening, in-filling, blending을 수행하며 LaFAN1에서 최첨단 정확도를 달성한다.
Motion completion is a challenging and long-discussed problem, which is of great significance in film and game applications. For different motion completion scenarios (in-betweening, in-filling, and blending), most previous methods deal with the completion problems with case-by-case designs. In this work, we propose a simple but effective method to solve multiple motion completion problems under a unified framework and achieves a new state of the art accuracy under multiple evaluation settings. Inspired by the recent great success of attention-based models, we consider the completion as a sequence to sequence prediction problem. Our method consists of two modules - a standard transformer encoder with self-attention that learns long-range dependencies of input motions, and a trainable mixture embedding module that models temporal information and discriminates key-frames. Our method can run in a non-autoregressive manner and predict multiple missing frames within a single forward propagation in real time. We finally show the effectiveness of our method in music-dance applications.
연구 동기 및 목표
- 하나의 프레임워크에서 다양한 시나리오(in-betweening, in-filling, blending)에 걸친 모션 보완의 동기 부여와 정의.
- 시간 정보를 모델링하고 키프레임 역할을 반영하는 학습 가능한 혼합 임베딩을 갖춘 트랜스포머 기반 아키텍처를 제안.
- 실시간 추론을 위한 다중 누락 프레임의 비자회귀, 한 번의 순전파 예측을 가능하게 한다.
- 모션의 현실감과 좌표계 간 일관성을 높이기 위해 순방향 및 역운동학 제약을 도입.
- 공개 데이터셋(LaFAN1, Anidance)과 신규 댄스 데이터셋에서 평가하여 최첨단 성능을 보여준다.
제안 방법
- 마스크된 입력 시퀀스를 처리하기 위한 백본으로 표준 트랜스포머 인코더(BERT 스타일)을 사용한다.
- 프레임을 주석하기 위해 학습 가능한 위치 임베딩과 키프레이임 임베딩을 결합한 학습 가능한 혼합 임베딩을 도입한다.
- 트랜스포머 처리 전에 Conv1d 시계열 연산자를 통해 모션 포즈를 순차 토큰으로 변환한다.
- 단일 순전파로 누락 프레임을 예측하여 비자회귀 병렬 추론을 가능하게 한다.
- 자세 재구성 손실 및 운동학 손실(FK/IK)을 포함한 다중 작업 회귀 손실로 물리적 타당성을 보장하며 학습한다.
- 트랜스포머 스택 이후 1D 합성 헤드를 통해 최종 예측 모션을 출력한다.
실험 결과
연구 질문
- RQ1모션 보완에서 in-betweening, in-filling, blending을 하나의 트랜스포머 기반 프레임워크로 다룰 수 있는가?
- RQ2학습 가능한 혼합 임베딩이 보완 작업의 시간 모델링 및 키프레임 구분력을 향상시키는가?
- RQ3비자회귀 추론이 정확도를 해치지 않고 실시간 다중 프레임 보완을 달성할 수 있는가?
- RQ4글로벌 좌표계와 로컬 좌표계에서 동작할 때 FK/IK 손실이 정확도에 미치는 영향은 무엇인가?
- RQ5제안된 접근이 표준 벤치마크(LaFAN1) 및 실제/창의적 데이터셋(Anidance, dance blending)에서 얼마나 성능을 발휘하는가?
주요 결과
| 방법 | L2Q (5) | L2Q (15) | L2Q (30) | L2P (5) | L2P (15) | L2P (30) | NPSS (5) | NPSS (15) | NPSS (30) |
|---|---|---|---|---|---|---|---|---|---|
| Zero-Vel | 0.56 | 1.10 | 1.51 | 1.52 | 3.69 | 6.60 | 0.0053 | 0.0522 | 0.2318 |
| Interp | 0.22 | 0.62 | 0.98 | 0.37 | 1.25 | 2.32 | 0.0023 | 0.0391 | 0.2013 |
| ERD-QV ( [16] ) | 0.17 | 0.42 | 0.69 | 0.23 | 0.65 | 1.28 | 0.0020 | 0.0258 | 0.1328 |
| Ours (local w/o FK) | 0.18 | 0.47 | 0.74 | 0.27 | 0.82 | 1.46 | 0.0020 | 0.0307 | 0.1487 |
| Ours (local) | 0.17 | 0.44 | 0.71 | 0.23 | 0.74 | 1.37 | 0.0019 | 0.0291 | 0.1430 |
| Ours (global w/o ME & IK) | 0.16 | 0.37 | 0.63 | 0.24 | 0.61 | 1.16 | 0.0018 | 0.0243 | 0.1284 |
| Ours (global w/o IK) | 0.14 | 0.36 | 0.61 | 0.21 | 0.57 | 1.11 | 0.0016 | 0.0238 | 0.1241 |
| Ours* (global-full) | 0.14 | 0.36 | 0.61 | 0.22 | 0.56 | 1.10 | 0.0016 | 0.0234 | 0.1222 |
- 이 방법은 여러 설정에서 LaFAN1에서 최첨단 정확도를 달성한다.
- 비자회귀 단일 순전파는 CPU에서 실시간 추론을 가능하게 하며(예: 1x30 시퀀스 약 0.025초).
- 혼합 임베딩과 IK/FK 손실이 L2Q, L2P, NPSS 지표 전반에서 정확도를 크게 향상시킨다.
- 글로벌 좌표 예측이 제안된 손실과 함께 로컬 좌표 설정보다 일반적으로 높은 정확도를 보인다.
- 이 접근 방식은 in-betweening, in-filling, blending에 일반화되며 야생의 키프레임 배열도 포함한다.
- 정성적 결과는 선형 보간 기준선에 비해 일관되고 그럴듯한 춤 모션 개선을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.