Skip to main content
QUICK REVIEW

[論文レビュー] PVT: Point-Voxel Transformer for 3D Deep Learning

Cheng Zhang, Haocheng Wan|arXiv (Cornell University)|Aug 13, 2021
Human Pose and Action Recognition参考文献 56被引用数 24
ひとこと要約

PVTは、計算効率を高めるためにボクセルで自己注意を適用し、グローバルな文脈を保持するためにポイントで自己注意を適用することで、粗い特徴と細かい特徴を効率的に捉える、新しい3次元深層学習アーキテクチャを提案する。サイクルシフトボクシング方式を用いることで計算量を削減し、ModelNet40(テスト時投票なし)で94.0%の最先端の精度を達成するとともに、従来のTransformerモデル比で7倍の高速化を実現した。

ABSTRACT

In this paper, we present an efficient and high-performance neural architecture, termed Point-Voxel Transformer (PVT)for 3D deep learning, which deeply integrates both 3D voxel-based and point-based self-attention computation to learn more discriminative features from 3D data. Specifically, we conduct multi-head self-attention (MSA) computation in voxels to obtain the efficient learning pattern and the coarse-grained local features while performing self-attention in points to provide finer-grained information about the global context. In addition, to reduce the cost of MSA computation with high efficiency, we design a cyclic shifted boxing scheme by limiting the MSA computation to non-overlapping local box and also preserving cross-box connection. Evaluated on classification benchmark, our method not only achieves state-of-the-art accuracy of 94.0% (no voting) but outperforms previous Transformer-based models with 7x measured speedup on average. On part and semantic segmentation, our model also obtains strong performance(86.5% and 68.2% mIoU, respectively). For 3D object detection task, we replace the primitives in Frustrum PointNet with PVT block and achieve an improvement of 8.6% AP.

研究の動機と目的

  • 単一にボクセルまたはポイントに依存する既存の3次元深層学習モデルの非効率性と表現能力の制限を解消すること。
  • ボクセルベースとポイントベースの自己注意メカニズムの長所を統合し、3次元データにおける特徴学習を向上させること。
  • 最適化された空間分割方式を用いて、3次元Transformerにおけるマルチヘッド自己注意の計算コストを低減すること。
  • 分類、セグメンテーション、検出を含む、複数の3次元ビジョンベンチマークで高いパフォーマンスを達成すること。

提案手法

  • PVTは、粗い局所特徴を捉え、計算コストを低減するために、ボクセルでマルチヘッド自己注意(MSA)の計算を実行する。
  • 同時に、生のポイントクラウドで自己注意を適用することで、細かい幾何的詳細とグローバルな文脈を保持する。
  • サイクルシフトボクシング方式を用いて3次元空間を重複のない局所ボックスに分割し、MSAの計算範囲を制限しながらも、ボックス間の接続性を維持する。
  • クロスモダリティ注意を用いてボクセルとポイントの特徴を統合し、特徴表現を強化する。
  • Frustrum PointNetのプリミティブ層をPVTブロックに置き換えることで、3次元オブジェクト検出性能を向上させる。
  • 設計により、FLOPsを削減した効率的な推論が可能となり、精度を損なわず大幅な高速化を達成する。

実験結果

リサーチクエスチョン

  • RQ1ボクセルベースとポイントベースの自己注意を組み合わせることで、深層ニューラルネットワークにおける3次元特徴学習が向上するか?
  • RQ2グローバルな文脈を失うことなく、3次元空間におけるマルチヘッド自己注意を計算的に効率化する方法は何か?
  • RQ3サイクルシフトによる空間分割が、注意計算とモデル性能に与える影響は何か?
  • RQ4ハイブリッドボクセルポイント注意メカニズムは、純粋なボクセルまたはポイントベースのTransformerを上回るパフォーマンスを示せるか?
  • RQ5提案されたアーキテクチャは、分類、セグメンテーション、検出といった多様な3次元ビジョンタスクにどのようにスケーリングするか?

主な発見

  • PVTは、テスト時投票を使用しないModelNet40分類ベンチマークで、94.0%という最先端の精度を達成した。
  • 同ベンチマークにおいて、従来のTransformerベースのモデル比で平均7倍の推論速度向上を達成した。
  • パーツセグメンテーションでは86.5%のmIoUを達成し、細粒度の3次元理解において優れた性能を示した。
  • セマンティックセグメンテーションでは68.2%のmIoUを達成し、複雑なシーンにおいても強固な特徴学習が可能であることを示した。
  • Frustrum PointNetのプリミティブをPVTブロックに置き換えた場合、APが8.6%向上し、3次元オブジェクト検出性能が向上した。
  • サイクルシフトボクシング方式は、ボックス間の接続性を維持することで、MSAの計算コストを効果的に低減し、モデル性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。