QUICK REVIEW

[논문 리뷰] Neural Non-Rigid Tracking

Bo\v{z}i\v{c}, Alja\v{z}, Pablo Palafox|arXiv (Cornell University)|2020. 06. 23.

Photoacoustic and Ultrasonic Imaging인용 수 19

한 줄 요약

이 논문은 비정형 RGB-D 추적을 위한 엔드 투 엔드 미분 가능한 프레임워크인 Neural Non-Rigid Tracking을 제안한다. 이 방법은 밀도 있는 대응 관계 예측과 오차에 대한 신뢰도 가중치를 동시에 학습한다. 미분 가능한 가우스-뉴턴 솔버를 통해 기울기를 역전파함으로써 자기지도 학습 기반의 이상치 제거가 가능해지며, 이로 인해 이전의 학습 기반 접근 방식에 비해 85배 빠른 추론 속도와 최신 기술 수준의 재구성 정확도를 달성한다.

ABSTRACT

We introduce a novel, end-to-end learnable, differentiable non-rigid tracker that enables state-of-the-art non-rigid reconstruction by a learned robust optimization. Given two input RGB-D frames of a non-rigidly moving object, we employ a convolutional neural network to predict dense correspondences and their confidences. These correspondences are used as constraints in an as-rigid-as-possible (ARAP) optimization problem. By enabling gradient back-propagation through the weighted non-linear least squares solver, we are able to learn correspondences and confidences in an end-to-end manner such that they are optimal for the task of non-rigid tracking. Under this formulation, correspondence confidences can be learned via self-supervision, informing a learned robust optimization, where outliers and wrong correspondences are automatically down-weighted to enable effective tracking. Compared to state-of-the-art approaches, our algorithm shows improved reconstruction performance, while simultaneously achieving 85 times faster correspondence prediction than comparable deep-learning based methods. We make our code available.

연구 동기 및 목표

단일 RGB-D 카메라에서 실시간이고 강건한 비정형 추적을 해결하기 위해, 기존 최적화 방법은 취약하고 딥 러닝 방법은 계산 비용이 높다는 과제를 해결한다.
자기지도 학습 방식으로 대응 관계의 신뢰도를 학습하여 이상치와 잘못된 대응 관계의 영향을 줄임으로써 재구성 정확도를 향상시킨다.
최적화 과정을 미분 가능하게 하여 비정형 추적기의 엔드 투 엔드 학습을 가능하게 하며, 기울기가 대응 관계 예측과 신뢰도 가중치 모두를 지시하도록 한다.
최신 기술 수준의 방법들인 DeepDeform와 비교해도 재구성 품질을 유지하거나 향상시키면서 실시간 성능을 달성한다.

제안 방법

이 방법은 소스 및 타겟 RGB-D 프레임 간의 밀도 있는 2차원 대응 관계를 사용하여 비정형 추적을 비정형 최소화 가능한(ARAP) 최적화 문제로 공식화한다.
미분 가능한 가우스-뉴턴 솔버를 통해 비선형 최소 제곱 최적화 과정을 역전파할 수 있으며, 이로 인해 기울기가 신경망 기반 대응 관계 예측기로 흐르게 된다.
네트워크는 대응 관계와 그에 대한 신뢰도 가중치를 모두 예측하며, 이는 종합적인 정렬 오차를 최소화하는 자기지도 학습 손실을 통해 최적화된다.
손실 함수는 대응 관계 손실(Lcorr), 그래프 정규화(Lgraph), 워프 일관성(Lwarp)을 포함하며, 신뢰도 가중치는 미분 가능한 최적화기에서 기울기 피드백을 통해 학습된다.
이 프레임워크는 DynamicFusion과 같은 볼륨 메트릭 재구성 파이프라인과 통합되며, 학습된 변형 필드를 사용해 깊이 관측치를 정준 3차원 격자에 통합한다.
다단계 전략을 사용해 엔드 투 엔드로 학습된다: 먼저 고정된 신뢰도 가중치로 대응 관계 네트워크를 사전 학습하고, 이후 네트워크와 신뢰도 파rameter를 함께 미세 조정한다.

실험 결과

연구 질문

RQ1엔드 투 엔드 미분 가능한 최적화가 대응 관계 예측 네트워크에 기울기 피드백을 제공함으로써 비정형 추적 성능을 향상시킬 수 있는가?
RQ2자기지도 학습 기반의 신뢰도 가중치가 노이즈가 많거나 가림이 있는 조건에서 보다 강건한 비정형 추적을 가능하게 할 수 있는가?
RQ3미분 가능한 비정형 추적기가 최신 기술 수준의 방법들과 비교해도 실시간 성능을 유지하거나 향상시키며 재구성 정확도를 확보할 수 있는가?
RQ4대응 관계 예측과 신뢰도 가중치의 공동 최적화가 추적 오차를 얼마나 줄이고 재구성 정밀도를 향상시키는가?

주요 결과

제안된 방법은 DeepDeform(2299 ms) 대비 85배 빠른 대응 관계 예측(키프레임당 27 ms)을 달성하여 인터랙티브 재구성 속도를 가능하게 한다.
자기지도 학습 기반의 신뢰도 가중치와 엔드 투 엔드 학습을 통해 DeepDeform 벤치마크에서 변형 오차를 28.72 mm로 줄였으며, 이는 이전 최신 기술 수준 대비 8.9% 향상된 성능이다.
미분 가능한 최적화와 자기지도 학습 기반의 신뢰도 학습의 조합으로 기하 오차를 4.03 mm로 줄였으며, 이는 이전 최신 기술 수준(4.16 mm)을 초월한 성능이다.
절단 실험 결과, 미분 가능한 최적화기와 자기지도 학습 기반의 신뢰도 가중치 모두 필수적임을 확인하였으며, 둘 중 하나를 비활성화할 경우 성능이 심각하게 저하된다.
빠른 운동 및 가림 상황에서도 뛰어난 강건성을 보이며, 정성적 비교에서 DynamicFusion과 DeepDeform를 모두 능가한다.
자기지도 학습 기반의 신뢰도 학습 전략이 지도 학습 대비 우수한 성능을 보이며, 이는 최적화 과정에서 유도된 기울기가 이진 교차 엔트로피 지도 학습보다 신뢰도 네트워크에 더 효과적인 피드백을 제공하기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.