QUICK REVIEW

[논문 리뷰] TransformerFusion: Monocular RGB Scene Reconstruction using Transformers

Aljaž Božič, Pablo Palafox|arXiv (Cornell University)|2021. 07. 05.

Advanced Vision and Imaging참고 문헌 45인용 수 31

한 줄 요약

TransformerFusion은 transformer-based multi-view feature fusion을 사용하여 monocular RGB 비디오에서 온라인으로 거친-정밀하게 3D 장면을 재구성하며, 최첨단 결과를 달성한다.

ABSTRACT

We introduce TransformerFusion, a transformer-based 3D scene reconstruction approach. From an input monocular RGB video, the video frames are processed by a transformer network that fuses the observations into a volumetric feature grid representing the scene; this feature grid is then decoded into an implicit 3D scene representation. Key to our approach is the transformer architecture that enables the network to learn to attend to the most relevant image frames for each 3D location in the scene, supervised only by the scene reconstruction task. Features are fused in a coarse-to-fine fashion, storing fine-level features only where needed, requiring lower memory storage and enabling fusion at interactive rates. The feature grid is then decoded to a higher-resolution scene reconstruction, using an MLP-based surface occupancy prediction from interpolated coarse-to-fine 3D features. Our approach results in an accurate surface reconstruction, outperforming state-of-the-art multi-view stereo depth estimation methods, fully-convolutional 3D reconstruction approaches, and approaches using LSTM- or GRU-based recurrent networks for video sequence fusion.

연구 동기 및 목표

대화형 애플리케이션을 위한 RGB 비디오에서 단안 3D 장면 재구성을 동기 부여한다.
각 3D 위치에 대해 가장 정보가 풍부한 프레임에 주목하도록 트랜스포머 기반 융합 메커니즘을 제안한다.
거칠게-정밀한 특징 융합과 선택적 뷰 유지 관리를 통해 온라인 대화형 재구성을 가능하게 한다.

제안 방법

각 입력 프레임을 2D CNN으로 인코딩하여 거친 및 세밀한 이미지 특징을 생성한다.
2D 특징을 거친 해상도와 세밀한 해상도에서 월드 스페이스의 3D 격자로 언프로젝션한다.
거친 격자와 세밀한 격자를 위해 시간에 따라 특징을 융합하기 위해 두 개의 트랜스포머 네트워크를 사용하여 psi^c와 psi^f를 생성한다.
거친 및 세밀한 격자에 대해 3D CNN 보정을 적용하고 근표면 점유 마스크(거친 및 세밀한)를 예측하여 효율적 필터링을 수행한다.
거친 및 세밀한 특징을 보간하고 MLP로 디코딩하여 표면 재구성을 위한 점유 o를 얻고; Marching Cubes로 메쉬를 추출한다.
근표면 마스크와 표면 점유에 대해 BCE 손실로 엔드-투-엔드로 학습한다; ScanNet에서 차폐-의식 있는 ground-truth 샘플링을 사용한다.

실험 결과

연구 질문

RQ1 transformer-based multi-view feature fusion이 기존의 다중 뷰 깊이 추정 또는 3D 표면 예측 방법보다 단안 3D 재구성 품질을 향상시킬 수 있는가?
RQ2거칠-대-정밀 융합 및 온라인 뷰 선택이 정확도를 유지하면서 인터랙티브 속도의 재구성을 가능하게 하는가?
RQ3각 3D 위치에 대해 정보 프레임을 선택하기 위한 학습된 뷰 주의(attention) 효과는 얼마나 큰가?
RQ4공간적 정련 및 근표면 마스킹이 재구성 품질 및 런타임에 미치는 영향은 무엇인가?

주요 결과

방법	정확도 ↓	완전도 ↓	Chamfer ↓	Prec ↑	Recall ↑	F-score ↑
RevisitingSI	14.29	16.19	15.24	0.346	0.293	0.314
MVDepthNet	12.94	8.34	10.64	0.443	0.487	0.460
GPMVS	12.90	8.02	10.46	0.453	0.510	0.477
ESTDepth	12.71	7.54	10.12	0.456	0.542	0.491
DPSNet	11.94	7.58	9.77	0.474	0.519	0.492
DELTAS	11.95	7.46	9.71	0.478	0.533	0.501
DeepVideoMVS	10.68	6.90	8.79	0.541	0.592	0.563
COLMAP	10.22	11.88	11.05	0.509	0.474	0.489
NeuralRecon	5.09	9.13	7.11	0.630	0.612	0.619
Atlas	7.16	7.61	7.38	0.675	0.605	0.636
Ours w/o TRSF avg	7.23	9.74	8.48	0.635	0.501	0.557
Ours w/o TRSF pred	6.11	11.12	8.61	0.686	0.512	0.583
Ours w/o spatial ref.	10.46	16.91	13.68	0.479	0.295	0.361
Ours 4 images, RND	8.01	10.28	9.15	0.587	0.445	0.502
Ours 4 images	6.80	8.40	7.60	0.661	0.524	0.581
Ours 8 images, RND	6.74	8.55	7.64	0.665	0.544	0.596
Ours 8 images	6.17	7.69	6.93	0.704	0.584	0.636
Ours 16 images, RND	5.80	8.56	7.18	0.711	0.584	0.638
Ours w/o C2F filter	6.57	7.69	7.13	0.678	0.592	0.631
Ours	5.52	8.27	6.89	0.728	0.600	0.655

ScanNet에서 chamfer distance와 F-score에서 최첨단을 능가한다.
Transformer-based 뷰 융합은 MLP 평균화 기반의 baselines보다 상당히 향상된다.
거칠-정밀 보정과 근표면 마스킹은 품질을 높이고 온라인에서 약 7 FPS의 성능을 가능하게 한다.
뷰-어텐션 기반 프레임 선택은 각 위치에 필요한 뷰 수를 줄이면서도 정확도를 해치지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.