Skip to main content
QUICK REVIEW

[論文レビュー] Wavelet Convolutions for Large Receptive Fields

Shahaf E. Finder, Roy Amoyal|arXiv (Cornell University)|Jul 8, 2024
Image and Signal Denoising Methods被引用数 10
ひとこと要約

本論文は、波動変換を畳み込みネットワークに組み込むことで、大きな受容野を維持しつつ効率性と多周波数表現を実現することを提案する。

ABSTRACT

In recent years, there have been attempts to increase the kernel size of Convolutional Neural Nets (CNNs) to mimic the global receptive field of Vision Transformers' (ViTs) self-attention blocks. That approach, however, quickly hit an upper bound and saturated way before achieving a global receptive field. In this work, we demonstrate that by leveraging the Wavelet Transform (WT), it is, in fact, possible to obtain very large receptive fields without suffering from over-parameterization, e.g., for a $k \times k$ receptive field, the number of trainable parameters in the proposed method grows only logarithmically with $k$. The proposed layer, named WTConv, can be used as a drop-in replacement in existing architectures, results in an effective multi-frequency response, and scales gracefully with the size of the receptive field. We demonstrate the effectiveness of the WTConv layer within ConvNeXt and MobileNetV2 architectures for image classification, as well as backbones for downstream tasks, and show it yields additional properties such as robustness to image corruption and an increased response to shapes over textures. Our code is available at https://github.com/BGU-CS-VIL/WTConv.

研究の動機と目的

  • 過度な計算量をかけずにCNNにおける大きな受容野の必要性を動機付ける。
  • 多周波情報を捉えるウェーブレットベースの畳み込みアプローチを導入する。
  • ウェーブレット畳み込みが効率性を保ちつつ受容野を拡張できることを示す。

提案手法

  • ウェーブレット変換の概念を畳み込みニューラルネットワークに統合してウェーブレットベースの特徴マップを作成する。
  • ウェーブレットに固有の多周波表現を活用して受容野を豊かにする。
  • 標準の畳み込みをウェーブレット畳み込みで置換または補完するアーキテクチャ的またはアルゴリズム的手順を提示する。
  • トレーニングの考慮事項と頑健性や精度の点での潜在的な利点を論じる。

実験結果

リサーチクエスチョン

  • RQ1ウェーブレットベースの畳み込みはパラメータや計算量の二次的増加を伴うことなく大きな受容野を提供できるか?
  • RQ2従来の畳み込みと比べて多周波ウェーブレット表現は特徴学習を改善するか?
  • RQ3標準的な視覚タスクにおけるウェーブレット畳み込みの実践的な利点(例:頑健性、効率性)は何か?

主な発見

  • 大きな受容野を実現するウェーブレットベースの畳み込みアプローチを提案する。
  • ウェーブレットによる多周波表現をコアな利点として強調する。
  • 標準的な大カーネル設計よりも効率性と潜在的な性能向上を主張する。
  • ウェーブレット手法をCNNsと視覚的トランスフォーマーの広範な文献の中で位置づける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。