[論文レビュー] TransformerFusion: Monocular RGB Scene Reconstruction using Transformers
TransformerFusion は transformer ベースのマルチビュー特徴融合を用いて monocular RGB 動画からオンラインで coarse-to-fine な方法で 3D シーンを再構成し、最先端の結果を達成します。
We introduce TransformerFusion, a transformer-based 3D scene reconstruction approach. From an input monocular RGB video, the video frames are processed by a transformer network that fuses the observations into a volumetric feature grid representing the scene; this feature grid is then decoded into an implicit 3D scene representation. Key to our approach is the transformer architecture that enables the network to learn to attend to the most relevant image frames for each 3D location in the scene, supervised only by the scene reconstruction task. Features are fused in a coarse-to-fine fashion, storing fine-level features only where needed, requiring lower memory storage and enabling fusion at interactive rates. The feature grid is then decoded to a higher-resolution scene reconstruction, using an MLP-based surface occupancy prediction from interpolated coarse-to-fine 3D features. Our approach results in an accurate surface reconstruction, outperforming state-of-the-art multi-view stereo depth estimation methods, fully-convolutional 3D reconstruction approaches, and approaches using LSTM- or GRU-based recurrent networks for video sequence fusion.
研究の動機と目的
- RGB 動画からのインタラクティブなアプリケーション向けの単眼 3D シーン再構成を動機づける。
- 各 3D 場所にとって最も情報量の多いフレームを参照するための transformer ベースの融合機構を提案する。
- coarse-to-fine の特徴融合と選択可能なビューの維持を通じてオンラインでインタラクティブな再構成を可能にする。
提案手法
- 各入力フレームを 2D CNN でエンコードして粗い特徴と細い特徴を生成する。
- 粗い解像度と細い解像度の世界座標系の 3D グリッドに 2D 特徴をアンプロジェクトする。
- 時間を跨いで特徴を結合するために 2 つのトランスフォーマーネットワークを用いて粗いグリッドと細いグリッドを融合し psi^c と psi^f を生成する。
- 粗いグリッドと細いグリッド上で 3D CNN の refinements を適用し、近表面占有マスク(粗さと細さ)を予測して効率的なフィルタリングを行う。
- 粗い特徴と細い特徴を補間し、occupancy o にデコードする MLP を用いて表面再構成を行う;Marching Cubes でメッシュを抽出する。
- 近表面マスクに BCE ロスを用いたエンドツーエンドの学習を行い、ビューの遮蔽を考慮した真偽データを ScanNet からサンプリングして使用する。
実験結果
リサーチクエスチョン
- RQ1 transformer ベースのマルチビュー特徴融合は prior のマルチビュー深度推定や 3D 表面予測手法よりも monocular 3D 再構成の品質を改善できるか?
- RQ2 coarse-to-fine の融合とオンラインビュー選択は精度を維持しつつ対話レートの再構成を可能にするか?
- RQ3 学習されたビューアテンションは各 3D 場所に対して情報量の多いフレームを選択するうえで有効か?
- RQ4 空間的な refinements および近表面マスキングが再構成品質と実行時間に与える影響は?
主な発見
| Method | Acc ↓ | Compl ↓ | Chamfer ↓ | Prec ↑ | Recall ↑ | F-score ↑ |
|---|---|---|---|---|---|---|
| RevisitingSI | 14.29 | 16.19 | 15.24 | 0.346 | 0.293 | 0.314 |
| MVDepthNet | 12.94 | 8.34 | 10.64 | 0.443 | 0.487 | 0.460 |
| GPMVS | 12.90 | 8.02 | 10.46 | 0.453 | 0.510 | 0.477 |
| ESTDepth | 12.71 | 7.54 | 10.12 | 0.456 | 0.542 | 0.491 |
| DPSNet | 11.94 | 7.58 | 9.77 | 0.474 | 0.519 | 0.492 |
| DELTAS | 11.95 | 7.46 | 9.71 | 0.478 | 0.533 | 0.501 |
| DeepVideoMVS | 10.68 | 6.90 | 8.79 | 0.541 | 0.592 | 0.563 |
| COLMAP | 10.22 | 11.88 | 11.05 | 0.509 | 0.474 | 0.489 |
| NeuralRecon | 5.09 | 9.13 | 7.11 | 0.630 | 0.612 | 0.619 |
| Atlas | 7.16 | 7.61 | 7.38 | 0.675 | 0.605 | 0.636 |
| Ours w/o TRSF avg | 7.23 | 9.74 | 8.48 | 0.635 | 0.501 | 0.557 |
| Ours w/o TRSF pred | 6.11 | 11.12 | 8.61 | 0.686 | 0.512 | 0.583 |
| Ours w/o spatial ref. | 10.46 | 16.91 | 13.68 | 0.479 | 0.295 | 0.361 |
| Ours 4 images, RND | 8.01 | 10.28 | 9.15 | 0.587 | 0.445 | 0.502 |
| Ours 4 images | 6.80 | 8.40 | 7.60 | 0.661 | 0.524 | 0.581 |
| Ours 8 images, RND | 6.74 | 8.55 | 7.64 | 0.665 | 0.544 | 0.596 |
| Ours 8 images | 6.17 | 7.69 | 6.93 | 0.704 | 0.584 | 0.636 |
| Ours 16 images, RND | 5.80 | 8.56 | 7.18 | 0.711 | 0.584 | 0.638 |
| Ours w/o C2F filter | 6.57 | 7.69 | 7.13 | 0.678 | 0.592 | 0.631 |
| Ours | 5.52 | 8.27 | 6.89 | 0.728 | 0.600 | 0.655 |
- ScanNet で chamfer 距離と F-score の点で最先端を上回る。
- transformer ベースのビュー融合は MLP 平均化ベースラインより大幅に改善。
- coarse-to-fine の refinement と近表面マスキングにより品質が向上し、オンラインで約 7 FPS を実現。
- ビューアテンションベースのフレーム選択は、各場所あたり必要なビュー数を減らしつつ精度を損なわない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。