[논문 리뷰] Neural Non-Rigid Tracking
이 논문은 비정형 RGB-D 추적을 위한 엔드 투 엔드 미분 가능한 프레임워크인 Neural Non-Rigid Tracking을 제안한다. 이 방법은 밀도 있는 대응 관계 예측과 오차에 대한 신뢰도 가중치를 동시에 학습한다. 미분 가능한 가우스-뉴턴 솔버를 통해 기울기를 역전파함으로써 자기지도 학습 기반의 이상치 제거가 가능해지며, 이로 인해 이전의 학습 기반 접근 방식에 비해 85배 빠른 추론 속도와 최신 기술 수준의 재구성 정확도를 달성한다.
We introduce a novel, end-to-end learnable, differentiable non-rigid tracker that enables state-of-the-art non-rigid reconstruction by a learned robust optimization. Given two input RGB-D frames of a non-rigidly moving object, we employ a convolutional neural network to predict dense correspondences and their confidences. These correspondences are used as constraints in an as-rigid-as-possible (ARAP) optimization problem. By enabling gradient back-propagation through the weighted non-linear least squares solver, we are able to learn correspondences and confidences in an end-to-end manner such that they are optimal for the task of non-rigid tracking. Under this formulation, correspondence confidences can be learned via self-supervision, informing a learned robust optimization, where outliers and wrong correspondences are automatically down-weighted to enable effective tracking. Compared to state-of-the-art approaches, our algorithm shows improved reconstruction performance, while simultaneously achieving 85 times faster correspondence prediction than comparable deep-learning based methods. We make our code available.
연구 동기 및 목표
- 단일 RGB-D 카메라에서 실시간이고 강건한 비정형 추적을 해결하기 위해, 기존 최적화 방법은 취약하고 딥 러닝 방법은 계산 비용이 높다는 과제를 해결한다.
- 자기지도 학습 방식으로 대응 관계의 신뢰도를 학습하여 이상치와 잘못된 대응 관계의 영향을 줄임으로써 재구성 정확도를 향상시킨다.
- 최적화 과정을 미분 가능하게 하여 비정형 추적기의 엔드 투 엔드 학습을 가능하게 하며, 기울기가 대응 관계 예측과 신뢰도 가중치 모두를 지시하도록 한다.
- 최신 기술 수준의 방법들인 DeepDeform와 비교해도 재구성 품질을 유지하거나 향상시키면서 실시간 성능을 달성한다.
제안 방법
- 이 방법은 소스 및 타겟 RGB-D 프레임 간의 밀도 있는 2차원 대응 관계를 사용하여 비정형 추적을 비정형 최소화 가능한(ARAP) 최적화 문제로 공식화한다.
- 미분 가능한 가우스-뉴턴 솔버를 통해 비선형 최소 제곱 최적화 과정을 역전파할 수 있으며, 이로 인해 기울기가 신경망 기반 대응 관계 예측기로 흐르게 된다.
- 네트워크는 대응 관계와 그에 대한 신뢰도 가중치를 모두 예측하며, 이는 종합적인 정렬 오차를 최소화하는 자기지도 학습 손실을 통해 최적화된다.
- 손실 함수는 대응 관계 손실(Lcorr), 그래프 정규화(Lgraph), 워프 일관성(Lwarp)을 포함하며, 신뢰도 가중치는 미분 가능한 최적화기에서 기울기 피드백을 통해 학습된다.
- 이 프레임워크는 DynamicFusion과 같은 볼륨 메트릭 재구성 파이프라인과 통합되며, 학습된 변형 필드를 사용해 깊이 관측치를 정준 3차원 격자에 통합한다.
- 다단계 전략을 사용해 엔드 투 엔드로 학습된다: 먼저 고정된 신뢰도 가중치로 대응 관계 네트워크를 사전 학습하고, 이후 네트워크와 신뢰도 파rameter를 함께 미세 조정한다.
실험 결과
연구 질문
- RQ1엔드 투 엔드 미분 가능한 최적화가 대응 관계 예측 네트워크에 기울기 피드백을 제공함으로써 비정형 추적 성능을 향상시킬 수 있는가?
- RQ2자기지도 학습 기반의 신뢰도 가중치가 노이즈가 많거나 가림이 있는 조건에서 보다 강건한 비정형 추적을 가능하게 할 수 있는가?
- RQ3미분 가능한 비정형 추적기가 최신 기술 수준의 방법들과 비교해도 실시간 성능을 유지하거나 향상시키며 재구성 정확도를 확보할 수 있는가?
- RQ4대응 관계 예측과 신뢰도 가중치의 공동 최적화가 추적 오차를 얼마나 줄이고 재구성 정밀도를 향상시키는가?
주요 결과
- 제안된 방법은 DeepDeform(2299 ms) 대비 85배 빠른 대응 관계 예측(키프레임당 27 ms)을 달성하여 인터랙티브 재구성 속도를 가능하게 한다.
- 자기지도 학습 기반의 신뢰도 가중치와 엔드 투 엔드 학습을 통해 DeepDeform 벤치마크에서 변형 오차를 28.72 mm로 줄였으며, 이는 이전 최신 기술 수준 대비 8.9% 향상된 성능이다.
- 미분 가능한 최적화와 자기지도 학습 기반의 신뢰도 학습의 조합으로 기하 오차를 4.03 mm로 줄였으며, 이는 이전 최신 기술 수준(4.16 mm)을 초월한 성능이다.
- 절단 실험 결과, 미분 가능한 최적화기와 자기지도 학습 기반의 신뢰도 가중치 모두 필수적임을 확인하였으며, 둘 중 하나를 비활성화할 경우 성능이 심각하게 저하된다.
- 빠른 운동 및 가림 상황에서도 뛰어난 강건성을 보이며, 정성적 비교에서 DynamicFusion과 DeepDeform를 모두 능가한다.
- 자기지도 학습 기반의 신뢰도 학습 전략이 지도 학습 대비 우수한 성능을 보이며, 이는 최적화 과정에서 유도된 기울기가 이진 교차 엔트로피 지도 학습보다 신뢰도 네트워크에 더 효과적인 피드백을 제공하기 때문이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.