Skip to main content
QUICK REVIEW

[논문 리뷰] SONIC: Spectral Oriented Neural Invariant Convolutions

Gijs Joppe Moens, Regina G. H. Beets‐Tan|arXiv (Cornell University)|2026. 01. 27.
Face Recognition and Perception인용 수 0
한 줄 요약

SONIC은 연속 스펙트럴, 방향 인식 저랭크 컨볼루션 연산자를 도입하여 전역 수용 영역을 만들고, 파라미터 수를 크게 줄이면서 CNN/ViT 및 기존 스펙트럴 방법과 Synthetic, Medical, Natural-Image 벤치마크에서 동등하거나 더 나은 성능을 보인다.

ABSTRACT

Convolutional Neural Networks (CNNs) rely on fixed-size kernels scanning local patches, which limits their ability to capture global context or long-range dependencies without very deep architectures. Vision Transformers (ViTs), in turn, provide global connectivity but lack spatial inductive bias, depend on explicit positional encodings, and remain tied to the initial patch size. Bridging these limitations requires a representation that is both structured and global. We introduce SONIC (Spectral Oriented Neural Invariant Convolutions), a continuous spectral parameterisation that models convolutional operators using a small set of shared, orientation-selective components. These components define smooth responses across the full frequency domain, yielding global receptive fields and filters that adapt naturally across resolutions. Across synthetic benchmarks, large-scale image classification, and 3D medical datasets, SONIC shows improved robustness to geometric transformations, noise, and resolution shifts, and matches or exceeds convolutional, attention-based, and prior spectral architectures with an order of magnitude fewer parameters. These results demonstrate that continuous, orientation-aware spectral parameterisations provide a principled and scalable alternative to conventional spatial and spectral operators.

연구 동기 및 목표

  • CNN에서 고정된 로컬 커널을 넘어서는 장거리 맥락의 필요성과 robust한 지각의 필요성 및 ViT의 공간적 귀납 바이어스의 부족을 제시한다.
  • 전역적이고 해상도에 의존하지 않으며 파라미터 효율적인 연속 스펙트럴 연산자를 제안한다.
  • 공유 모드와 저랭크 믹싱을 갖춘 구조화된 방향 인식 스펙트럴 파라미터화를 개발한다.
  • 다양한 데이터셋에서 기하학적 변환, 노이즈, 해상도 변화에 대한 강건성을 Demonstrate한다.
  • Synthetic 벤치마크, 3D 의료 영상 및 ImageNet 규모 설정에서 확장성과 효율성을 평가한다.

제안 방법

  • 학습 가능한 연속 스펙트럼 기호 bHθ(ω) 를 통해 연속 스펙트럴 연산자를 정의한다.
  • 매개변수 vm(방향), sm(스케일), am(복소 감쇠/진동), τm(가로 방향 감소)를 가진 M 개의 공유 방향 선택 모드 Tm(ω) 로 스펙트럴 응답을 인자화한다.
  • bHk,c(ω) = sum_m Ckm Tm(ω) Bmc 를 구성하여 저랭크의 모드 기반 스펙트럴 표현을 달성한다.
  • 주파수 영역 필터링 yk(ω) = sum_c bHk,c(ω) bxc(ω) 를 적용하고 잔차 비선형 블록으로 공간 영역으로 역변환한다.
  • 해상도 불변성을 위한 방향 방향을 물리적 단위 전처리(˜vm, ˆvm) 로 정규화한다.
  • 복잡도 O((C+K)N log N + M(C+K)N) 의 FFT 기반 스펙트럴 순전파/역전파를 구현한다.

실험 결과

연구 질문

  • RQ1SONIC 이 표준 CNN 또는 ViT에 비해 substantially fewer parameters 로 글로벌 수용 영역을 달성할 수 있는가?
  • RQ2SONIC 이 다양한 도메인에서 기하학적 변환, 노이즈 및 해상도 변화에 대해 강건한가?
  • RQ33D 의료 영상 분할에서 SONIC 이 최신 방법과 비교하여 정확도와 효율성 면에서 어떠한가?
  • RQ4의료 영상에서 외부 검증 및 스캐너 간 가변성 하에서 SONIC 이 성능을 유지하는가?
  • RQ5전통 연산자에 비해 스펙트럴 파라미터화의 풍부함과 계산/메모리 오버헤드 간의 트레이드오프는 어떠한가?

주요 결과

  • SynthShape 에서 SONIC 은 CNN/ViT 기준선 및 이전 스펙트럴 모델에 비해 왜곡에 대한 강건성과 장거리 의존성에서 우수한 성능을 보였다.
  • HalliGalli에서 SONIC 은 한 블록 내에서 엄격한 장거리 의존성 태스크를 독특하게 해결하며 전역 수용 영역 능력을 보여주었다.
  • KiTS 및 ACDC 3D 의료 분할에서 SONIC 은 Heavy 베이스라인의 파라미터 수의 상당 부분 (<10%) 만 사용하면서 최첨단 성능에 근접하거나 이를 능가했다.
  • Prostate158 및 PROMIS에 대한 외부 검증에서 학습 가능한 파라미터 수가 훨씬 적은 상태에서 탐지 지표가 향상되었고(예: SonicNet 2.59M 대 nnU-Net 31.20M; AUROC Prostate158 0.841 대 0.814).
  • ResNet-50 변형과 함께 ImageNet 실험에서 SONIC 은 비교적 적은 계산/메모리 오버헤드로 경쟁력 있는 정확도를 달성한다(예: ResNet-50 Sonic 약 60.01 Top-1, 0.81 GFLOPs 대 다른 스펙트럴 연산자).
  • 다양한 작업에서 SONIC 은 글로벌 수용 영역과 해상도 불변성을 significantly 낮은 파라미터 수로 유지하거나 향상된 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.