QUICK REVIEW

[論文レビュー] AMVNet: Assertion-based Multi-View Fusion Network for LiDAR Semantic Segmentation

Venice Erin Liong, Thi Ngoc Tho Nguyen|arXiv (Cornell University)|Dec 9, 2020

Advanced Neural Network Applications被引用数 69

ひとこと要約

AMVNetはレンジビューとBEV LiDARセマンティックネットワークのアサーションに基づく遅延融合を行い、不確実な点をサンプリングして軽量なポイントヘッドで予測を洗練させ、SemanticKITTIとnuScenesで最先端の結果を達成します。

ABSTRACT

In this paper, we present an Assertion-based Multi-View Fusion network\n(AMVNet) for LiDAR semantic segmentation which aggregates the semantic features\nof individual projection-based networks using late fusion. Given class scores\nfrom different projection-based networks, we perform assertion-guided point\nsampling on score disagreements and pass a set of point-level features for each\nsampled point to a simple point head which refines the predictions. This\nmodular-and-hierarchical late fusion approach provides the flexibility of\nhaving two independent networks with a minor overhead from a light-weight\nnetwork. Such approaches are desirable for robotic systems, e.g. autonomous\nvehicles, for which the computational and memory resources are often limited.\nExtensive experiments show that AMVNet achieves state-of-the-art results in\nboth the SemanticKITTI and nuScenes benchmark datasets and that our approach\noutperforms the baseline method of combining the class scores of the\nprojection-based networks.\n

研究の動機と目的

LiDARセマンティックセグメンテーションのために、 range-view (RV) および bird's-eye view (BEV) 投影ネットワークの補完情報を活用する効果的な遅延融合戦略の動機付けと開発。
RVとBEVが意見を異にする不確実な点を識別するアサーションに基づくサンプリング機構を提案。
局所的な点特徴と隣接コンテキストを用いて不確実な点の予測を洗練させる軽量なポイントヘッドを導入。
モジュール性と効率性を維持しつつ、SemanticKITTIとnuScenesのベンチマークで最先端または競争力のある性能を示す。
不確実な点のみを処理することで計算量を削減しつつ精度を向上させることを示す。

提案手法

LiDARスキャンをRVおよびBEV表現に投影し、独立したセグメンターを訓練して各点の初期クラススコアを生成する。
RVとBEVの予測間の不一致から各点の不確実性を計算し、しきい値を用いたコサイン類似度ベースのアサーションで判断する。
RV/BEVスコアを生データと連結して各点特徴を抽出し、KD-treeベースの近傍サンプリングを用いて近傍特徴を収集する。
不確実な点特徴を軽量なポイントヘッド（MLP、最大プーリング、FC）を通して洗練されたクラス予測を生成する。
最終ラベルを、不確実な点には洗練されたポイントヘッドの予測、確定点にはRV/BEV予測の幾何平均を組み合わせて得る。
不確実な点をランダムにサンプリングしてクロスエントロピー損失でポイントヘッドを訓練する；推論はすべての不確実な点に対して訓練済みヘッドを用いる。

実験結果

リサーチクエスチョン

RQ1自動運転シナリオにおいて、RVとBEV LiDARセマンティケーションネットワークの遅延融合は、どちらのビュー単独よりもセマンティックセグメンテーションで優れるのか？
RQ2アサーションに基づくサンプリング戦略は、軽量なポイントヘッドで最終予測を改善するために不確実な点を効果的に識別できるか？
RQ3多視点融合における局所的な隣接コンテキストと軽量なポイントヘッドが、各点の分類を洗練させる上でどのような影響を与えるか？
RQ4既存の多視点融合法および射影ベースの手法と比較して、SemanticKITTIとnuScenesでAMVNetはどの程度の性能を示すか？

主な発見

AMVNetはSemanticKITTIおよびnuScenesベンチマークで競争力のある、または最先端に匹敵する性能を達成します。
アサーションに基づくサンプリングは点の少数（概ね10-20%程度）を不確実と選択し、効率的な洗練を可能にします。
軽量なポイントヘッド（≈18.5Kパラメータ）は、10Kの不確実な点で約1 GFLOP程度の計算オーバーヘッドで各点の予測を改善します。
AMVNetは単独のRVまたはBEVネットワークとその単純なアンサンブルを上回り、多くのクラスでより高いmIOUを達成します。
クラスごとのIOUを平均化すると、ほとんどのクラスでAMVNetが最良の性能を示し、RVとBEVビューの補完的な強みを示しています。
アブレーション研究は、RV GRUベースの空間モデリングとクラス重み付き損失を個別に追加することでRVの性能が各々約1ポイント改善され、組み合わせでは約2ポイントの改善になることを示しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。