Skip to main content
QUICK REVIEW

[論文レビュー] PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers

Xumin Yu, Yongming Rao|arXiv (Cornell University)|Aug 19, 2021
3D Shape Modeling and Analysis参考文献 45被引用数 25
ひとこと要約

PoinTr は点群補完を集合-to-集合変換として再定義し、ポイント・プロキシを用いた幾何学感知型 Transformer を用いることで、ShapeNet-55/34、PCN、KITTI を含む多様なベンチマークで最先端の結果を達成します。

ABSTRACT

Point clouds captured in real-world applications are often incomplete due to the limited sensor resolution, single viewpoint, and occlusion. Therefore, recovering the complete point clouds from partial ones becomes an indispensable task in many practical applications. In this paper, we present a new method that reformulates point cloud completion as a set-to-set translation problem and design a new model, called PoinTr that adopts a transformer encoder-decoder architecture for point cloud completion. By representing the point cloud as a set of unordered groups of points with position embeddings, we convert the point cloud to a sequence of point proxies and employ the transformers for point cloud generation. To facilitate transformers to better leverage the inductive bias about 3D geometric structures of point clouds, we further devise a geometry-aware block that models the local geometric relationships explicitly. The migration of transformers enables our model to better learn structural knowledge and preserve detailed information for point cloud completion. Furthermore, we propose two more challenging benchmarks with more diverse incomplete point clouds that can better reflect the real-world scenarios to promote future research. Experimental results show that our method outperforms state-of-the-art methods by a large margin on both the new benchmarks and the existing ones. Code is available at https://github.com/yuxumin/PoinTr

研究の動機と目的

  • 遮蔽、センサーの制限、視点の制約によって発生する現実世界の点群の不完全性を動機づけて対処する。
  • 点群補完を集合-to-集合変換タスクとして再定式化する。
  • 幾何学を意識したブロックを備えた Transformer のエンコーダ-デコーダを活用して、構造的な 3D 関係を学習する。
  • 現実世界の不完全性と多様性をよりよく反映する新しい挑戦的なベンチマークを開発する。

提案手法

  • 部分的な点群を、Transformer のエンコーダ-デコーダに供給するポイント・プロキシの系列として表現する。
  • kNN ベースのアプローチを介して局所的な 3D ジオメトリ関係を明示的にモデル化する、幾何学を意識した Transformer ブロックを導入する。
  • デコーダに動的でエンコーダ条件付きのクエリを用いて、欠損したポイント・プロキシを生成する。
  • FoldingNet を用いて粗い-to-細かな手法で欠落部分を再構成するマルチスケール生成モジュールを採用する。
  • 代理中心と全点群の両方に対して Chamfer Distance Loss を用いて最適化する(J = J0 + J1)。

実験結果

リサーチクエスチョン

  • RQ1トランスフォーマーは点群補完のための長距離依存とローカルな幾何依存を効果的にモデル化できるか?
  • RQ2幾何学を意識したブロックと動的クエリの導入は、補完品質と多様な形状および不完全性レベルへの一般化を改善するか?
  • RQ3新しい多様なベンチマークは、現実世界のシナリオにおけるモデルの頑健性と一般化力をよりよく明らかにするか?
  • RQ4さまざまなカテゴリと視点において、PoinTr は従来の最先端手法と比較してどう性能を示すか?
  • RQ5ShapeNet を基盤とするベンチマークから、微調整後の実世界の LiDAR データ(KITTI)に一般化できるか?

主な発見

  • PoinTr は ShapeNet-55、ShapeNet-34、PCN、KITTI を含む複数のベンチマークで、従来の最先端手法を大幅に上回る。
  • ShapeNet-55 で、PoinTr は GRNet に対して CD-ell2 を大幅に改善(Simple: 0.58、Moderate: 0.60、Hard: 0.69 の設定)。
  • ShapeNet-55 で、PoinTr は F-Score 0.46 を達成し、従来の最良(GRNet)0.24 を上回る。
  • ShapeNet-34 の見た目カテゴリでは、PoinTr が全手法をリードする。未見のカテゴリにも良く一般化し、より簡単な設定での性能低下が小さい。
  • PCN では、PoinTr がカテゴリ間で平均 CD-ell1 が 8.38 を達成し、FoldingNet、PCN、TopNet、PFNet、GRNet などを上回る。
  • 定性的な結果は、PoinTr がより細かなディテールや境界(例:車のタイヤ)を回収し、さまざまな不完全パターンに対してより頑健であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。