Skip to main content
QUICK REVIEW

[論文レビュー] NPNet: A Non-Parametric Network with Adaptive Gaussian-Fourier Positional Encoding for 3D Classification and Segmentation

Mohammad Saeid, Amir Salarpour|arXiv (Cornell University)|Jan 31, 2026
3D Shape Modeling and Analysis被引用数 0
ひとこと要約

NPNetは、適応的ガウス–フーリエ位置エンコーディングとメモリーバンク推論を用いた完全非パラメトリックな3D点群分類・セグメンテーションのフレームワークで、学習済みウェイトを必要とせず、高効率と強いfew-shot性能を持ちつつ、競争力のある結果を達成します。

ABSTRACT

We present NPNet, a fully non-parametric approach for 3D point-cloud classification and part segmentation. NPNet contains no learned weights; instead, it builds point features using deterministic operators such as farthest point sampling, k-nearest neighbors, and pooling. Our key idea is an adaptive Gaussian-Fourier positional encoding whose bandwidth and Gaussian-cosine mixing are chosen from the input geometry, helping the method remain stable across different scales and sampling densities. For segmentation, we additionally incorporate fixed-frequency Fourier features to provide global context alongside the adaptive encoding. Across ModelNet40/ModelNet-R, ScanObjectNN, and ShapeNetPart, NPNet achieves strong performance among non-parametric baselines, and it is particularly effective in few-shot settings on ModelNet40. NPNet also offers favorable memory use and inference time compared to prior non-parametric methods

研究の動機と目的

  • 3D点群分類とセグメンテーションのトレーニング不要な非パラメトリックアーキテクチャを開発する。
  • 入力ジオメトリに適応する適応的ガウス–フーリエ位置エンコーディングを導入する。
  • セグメンテーションを固定周波数のフーリエ特徴で補強し、グローバルコンテキストを提供する。
  • 非パラメトリックベースラインに対する競争力と効率性、パラメトリックモデルとの競合性を示す。
  • トレーニング不要なパイプラインのfew-shot性能とデプロイメント影響を評価する。

提案手法

  • 学習ウェイトを用いずに、最遠点サンプリング、k-NNグルーピング、プーリングといった決定論的幾何学演算子を用いてマルチスケールの点特徴を構築する。
  • 帯域幅とガウス-コサインの混合を、入力統計量(sigma_g)から選択し、ブレンドパラメータlambdaで調整する適応的ガウス–フーリエエンコーディングを提案する。
  • セグメンテーションには固定周波数のフーリエ特徴を追加して、グローバルコンテキストのハイブリッド位置エンコーディングを形成する。
  • 訓練データの形状をメモリーバンクにエンコードし、類似度ベースの推論で分類を行う。セグメンテーションには部位プロトタイプと最近傍プロトタイプマッチングを用いる。
  • 推論はメモリーバンクベースでトレーニング不要:一度バンクを構築し、最近傍プロトタイプ風のマッチングで照会する。
Figure 2 : Adaptive Gaussian–Fourier positional encoding. The encoding adapts bandwidth $\sigma$ and mixing coefficient $\lambda$ from input geometry; an additional fixed-frequency Fourier branch provides global context for segmentation.
Figure 2 : Adaptive Gaussian–Fourier positional encoding. The encoding adapts bandwidth $\sigma$ and mixing coefficient $\lambda$ from input geometry; an additional fixed-frequency Fourier branch provides global context for segmentation.

実験結果

リサーチクエスチョン

  • RQ1完全に非パラメトリックなパイプラインは、標準的な3D点群ベンチマークでパラメトリック手法と同等またはそれを超えることができるか?
  • RQ2入力適応型のガウス–フーリエ位置エンコーディングは、密度やスケールの変化に対する安定性と転移を改善するか?
  • RQ3固定周波数のフーリエ特徴がセグメンテーション性能とグローバルコンテキストに与える影響は?
  • RQ4NPNetのメモリ・時間・計算コストは、従来の非パラメトリック手法やパラメトリックネットワークと比較してどうなるか(特にFew-shot設定で)?

主な発見

  • ModelNet40で、NPNetは0.0Mパラメータ・0.0 GFLOPsで85.45%の精度を達成。
  • ModelNet-Rで、NPNetは0.0Mパラメータ・0.0 GFLOPsで85.65%の精度を達成。
  • ScanObjectNNで、NPNetはOBJ-BGで86.1%、OBJ-ONLYで86.1%、PB-T50-RSで84.9%を達成(OBJ-BGとOBJ-ONLYで非パラメトリックベースラインのリーダーシップ)。
  • ShapeNetPartで、ハイブリッドエンコーディングを用いてインスタンスmIoUが73.56%を達成。
  • few-shot ModelNet40で、NPNetは92.0%(5-way 10-shot)と93.2%(5-way 20-shot)を達成;10-wayで82.5%(10-shot)と87.6%(10-shot 20-shot)。
  • 効率性の指標では、ModelNet40でNPNetは0.0021 GFLOPs、99.1 MBメモリ、1サンプルあたり3.86 ms;ShapeNetPartで0.0045 GFLOPs、256.4 MB、5.63 ms/サンプル。
Figure 3 : Stage block used in NPNet. FPS selects centroids, $k$ -NN groups local neighborhoods, positional encoding modulates features, and mean/max pooling produces a stage descriptor; concatenating stages forms a multi-scale representation.
Figure 3 : Stage block used in NPNet. FPS selects centroids, $k$ -NN groups local neighborhoods, positional encoding modulates features, and mean/max pooling produces a stage descriptor; concatenating stages forms a multi-scale representation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。