Skip to main content
QUICK REVIEW

[論文レビュー] SONIC: Spectral Oriented Neural Invariant Convolutions

Gijs Joppe Moens, Regina G. H. Beets‐Tan|arXiv (Cornell University)|Jan 27, 2026
Face Recognition and Perception被引用数 0
ひとこと要約

SONICは連続スペクトル・方向認識・低秩畳み込み演算子を用い、グローバルな受容野を得つつ、はるかに少ないパラメータで頑健性を向上させ、合成データ・医用・自然画像のベンチマークでCNN/ViTおよび従来のスペクトル法と同等以上の性能を達成する。

ABSTRACT

Convolutional Neural Networks (CNNs) rely on fixed-size kernels scanning local patches, which limits their ability to capture global context or long-range dependencies without very deep architectures. Vision Transformers (ViTs), in turn, provide global connectivity but lack spatial inductive bias, depend on explicit positional encodings, and remain tied to the initial patch size. Bridging these limitations requires a representation that is both structured and global. We introduce SONIC (Spectral Oriented Neural Invariant Convolutions), a continuous spectral parameterisation that models convolutional operators using a small set of shared, orientation-selective components. These components define smooth responses across the full frequency domain, yielding global receptive fields and filters that adapt naturally across resolutions. Across synthetic benchmarks, large-scale image classification, and 3D medical datasets, SONIC shows improved robustness to geometric transformations, noise, and resolution shifts, and matches or exceeds convolutional, attention-based, and prior spectral architectures with an order of magnitude fewer parameters. These results demonstrate that continuous, orientation-aware spectral parameterisations provide a principled and scalable alternative to conventional spatial and spectral operators.

研究の動機と目的

  • CNNの固定局所カーネルを超えた長距離コンテキストと頑健な知覚の必要性の動機付け。
  • グローバルで解像度不変かつパラメータ効率の高い連続スペクトル演算子を提案。
  • 共有モードと低秩ミキシングを備えた構造化された方向認識スペクトルパラメータ化を開発。
  • 幾何変換・ノイズ・解像度変化に対する頑健性を多様なデータセットで実証。
  • 合成ベンチマーク、3D医用画像、およびImageNet規模設定でのスケーラビリティと有効性を評価。

提案手法

  • 学習可能な連続スペクトルシンボル bHθ(ω) によって連続スペクトル演算子を定義。
  • スペクトル応答を M 個の共有モード Tm(ω)(方向 vm, スケール sm, 複素減衰/振動 am, 横方向減衰 τm )に分解 Factorise。
  • bHk,c(ω) = sum_m Ckm Tm(ω) Bmc を構築し、低秩・モードベースのスペクトル表現を得る。
  • 周波数領域で yk(ω) = sum_c bHk,c(ω) bxc(ω) を適用し、残差非線形ブロックで空間領域へ変換。
  • 解像度不変性のため方向を物理単位前処理(˜vm, ˆvm)で正規化。
  • FFTベースのスペクトル順伝播/逆伝播を、複雑さ O((C+K)N log N + M(C+K)N) で実装。

実験結果

リサーチクエスチョン

  • RQ1SONICは標準的なCNNやViTよりもはるかに少ないパラメータでグローバル受容野を達成できるか?
  • RQ2SONICは幾何変換・ノイズ・解像度変化に対して多様な領域で頑健か?
  • RQ33D医用画像のセグメンテーションにおけるSONICは最先端手法と比較して精度と効率の点でどうか?
  • RQ4医用画像における外部検証・機器間変動下でSONICは性能を維持できるか?
  • RQ5従来の演算子と比べてスペクトルパラメータ化の豊富さと計算/メモリオーバーヘッドのトレードオフはどうか?

主な発見

  • SynthShape で、SONICはCNN/ViTベースラインおよび従来のスペクトルモデルと比較して、歪み耐性と長距離依存性において優れた頑健性を示した。
  • HalliGalli では、単一ブロック内で厳密な長距離依存性タスクを唯一解き、グローバル受容野の能力を示した。
  • KiTSおよびACDC 3D医用セグメンテーションでは、SONICは最先端と同等以上を達成しつつ、パラメータ数を大幅に削減(ヘビーブレースの約<10%程度)。”
  • Prostate158およびPROMISの外部検証で、訓練可能パラメータを大幅に抑えつつ検出指標が改善(例:SonicNet 2.59M 対 nnU-Net 31.20M、Prostate158 AUROC 0.841 対 0.814)。
  • ResNet-50 系列の ImageNet 実験では、SONIC は modest な計算/メモリオーバーヘッドで競争力のある精度を達成(例:ResNet-50 Sonic 約 Top-1 60.01、0.81 GFLOPs 対 他のスペクトル演算子)。
  • タスクを横断して、SONIC はグローバル受容野と解像度不変性を保持または向上させつつ、パラメータ数を大幅に抑えて性能を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。