[논문 리뷰] QuaterNet: A Quaternion-based Recurrent Model for Human Motion
QuaterNet은 쿼터니온 회전을 differentiable forward-kinematics 손실과 함께 사용하여 두-layer GRU RNN에서 3D 인체 모션을 예측하고, 단기 각도 예측에서 최첨단 성능과 현실적인 장기 보행 생성 달성.
Deep learning for predicting or generating 3D human pose sequences is an active research area. Previous work regresses either joint rotations or joint positions. The former strategy is prone to error accumulation along the kinematic chain, as well as discontinuities when using Euler angle or exponential map parameterizations. The latter requires re-projection onto skeleton constraints to avoid bone stretching and invalid configurations. This work addresses both limitations. Our recurrent network, QuaterNet, represents rotations with quaternions and our loss function performs forward kinematics on a skeleton to penalize absolute position errors instead of angle errors. On short-term predictions, QuaterNet improves the state-of-the-art quantitatively. For long-term generation, our approach is qualitatively judged as realistic as recent neural strategies from the graphics literature.
연구 동기 및 목표
- 3D 인간 포즈 모델링에서 회전 및 위치 표현의 한계를 해결한다.
- 합성 불연속성과 특이점을 피하기 위해 쿼터니언 기반 관절 회전 매개변수를 제안한다.
- 각도보다 절대 관절 위치를 페널티하는 differentiable forward-kinematics 손실을 도입한다.
- Human3.6m에서 단기 예측 정확도를 개선하고 장기 보행 생성에서 경쟁력을 보인다.
- 안정성을 위한 모델의 자체 예측 노출을 점진적으로 적용하는 엔드-투-엔드 학습 커리큘럼을 제공한다.
제안 방법
- 단위 노름을 가지는 정규화 층으로 1유닛 노름을 강제하고 작은 패널티를 부여하여 관절 회전을 단위 쿼터니온으로 표현하는 3D 스켈레톤으로 인간을 모델링한다.
- 초기 프레임에서 시작된 미래 포즈 상태를 예측하기 위해 각각 1000개의 은닉 유닛을 갖는 two-layer GRU 자동회귀 네트워크를 사용한다.
- 회전 델타(속도) 또는 절대 회전을 예측한다; 단기의 경우 회전을 업데이트하기 위해 쿼터니온 곱을 적용한다.
- Predict된 관절 위치를 참조 포즈와 비교하여 각도 오차에 의존하기보다 위치 손실이 differentiable forward-kinematics 기반으로 계산된다.
- 쿼터니온 출력에 규제를 가하고 이전 프레임과 가장 가까운 표현(q 또는 -q)을 선택하여 시간적 연속성을 보장한다.
- 장기 생성의 경우 Auxiliary pace 네트워크를 도입하여 궤도 매개변수(속도, 바라보는 방향, 리듬)를 출력하고 주어진 경로를 따라 포즈 생성을 구동한다.
- 커리큘럼 학습(스케줄된 샘플링)을 채택하여 모델이 자체 예측에 점차 노출되도록 하여 노출 편향을 완화한다.
실험 결과
연구 질문
- RQ1쿼터니온 기반 회전 매개변수가 순환 모션 모델에서 Euler 각도나 지수 맵에서 관찰되는 불연속성과 불안정성을 줄일 수 있는가?
- RQ2 differentiable forward-kinematics 위치 손실이 단기 예측의 인간이 인식하는 정확도 및 장기 보행 생성에 대한 정렬성을 향상시키는가?
- RQ3속도 기반(deltas)과 절대 회전 예측이 QuaterNet의 단기 대 장기 작업에서 어떻게 비교되는가?
- RQ4온라인 실시간 장기 보행 생성을 제어 가능한 궤적 매개변수로 구현하는 것이 현실감을 유지하며 가능한가?
- RQ5커리큘럼 학습이 장기간 예측에서 안정성과 정확도에 미치는 영향은 무엇인가?
주요 결과
- QuaterNet은 Human3.6m의 단기 각도 예측 벤치마크에서 모든 동작 및 수평선에서 최첨단 성능을 달성한다.
- 장기 생성의 경우 속도 기반 학습은 drift를 줄이기 위해 scheduled sampling의 이점을 얻는 반면, 절대 회전 모델링은 더 나은 안정성과 더 적은 불연속성을 제공한다.
- forward-kinematics 위치 손실은 장기 생성에서 각도 기반 손실보다 위치 오차를 낮추고 더 안정적인 학습을 제공한다.
- 쿼터니온 기반 규칙은 회전 기반 예측에서 흔히 발생하는 본 길이 위반 및 불연속성을 피하고 생성된 보행의 현실성을 경쟁력 있게 제공한다.
- pace 네트워크를 통한 속도, 방향, 리듬 등 궤적 매개변수의 제어 가능한 온라인 실시간 생성을 지원하여 예술가처럼 제어 가능한 보행 생성이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.