Skip to main content
QUICK REVIEW

[論文レビュー] An exploration of parameter redundancy in deep networks with circulant projections

Yu Cheng, Felix X. Yu|arXiv (Cornell University)|Feb 11, 2015
Advanced Neural Network Applications参考文献 38被引用数 48
ひとこと要約

この論文では、深層ニューラルネットワーク内の非構造的な全結合層を、メモリと計算コストを大幅に削減する巡回投影に置き換える手法を提案している。高速フーリエ変換(FFT)を活用することで、時間計算量をO(d²)からO(d log d)、空間計算量をO(d²)からO(d)に削減し、標準データセット上で準SOTA性能を達成しながら精度の低下を最小限に抑え、より高速な学習と大規模モデルへのスケーラビリティを実現している。

ABSTRACT

We explore the redundancy of parameters in deep neural networks by replacing the conventional linear projection in fully-connected layers with the circulant projection. The circulant structure substantially reduces memory footprint and enables the use of the Fast Fourier Transform to speed up the computation. Considering a fully-connected neural network layer with d input nodes, and d output nodes, this method improves the time complexity from O(d^2) to O(dlogd) and space complexity from O(d^2) to O(d). The space savings are particularly important for modern deep convolutional neural network architectures, where fully-connected layers typically contain more than 90% of the network parameters. We further show that the gradient computation and optimization of the circulant projections can be performed very efficiently. Our experiments on three standard datasets show that the proposed approach achieves this significant gain in storage and efficiency with minimal increase in error rate compared to neural networks with unstructured projections.

研究の動機と目的

  • 深層ニューラルネットワークにおける全結合層の高いメモリと計算コストを軽減すること。これらの層は、現代のアーキテクチャにおいてしばしば全パラメータの90%以上を占める。
  • 全結合層におけるパラメータの冗長性を調査し、構造的制約を活用することで、性能の著しい低下を伴わずにモデルサイズを縮小すること。
  • 巡回投影行列を用いたニューラルネットワークの学習に効率的な最適化手法を開発し、モデル容量を維持すること。
  • 巡回投影が、格段に少ないストレージと推論時間で競争力ある精度を達成できることを示すこと。
  • 固定された計算およびメモリ予算のもとで、より深く、より大きな全結合ネットワークの学習を可能にすること。

提案手法

  • 標準的な全結合重み行列を、1つのベクトルと巡回シフトによって定義される巡回行列に置き換え、パラメータ数をO(d²)からO(d)に削減する。
  • 高速フーリエ変換(FFT)を用いて、行列-ベクトル積の計算をO(d²)からO(d log d)の時間に短縮し、推論および学習の高速化を実現する。
  • 表現能力を向上させ、低ランクの投影に崩壊するのを防ぐために、巡回投影の前に符号反転行列Dを導入する。
  • バックプロパゲーションを用いた巡回行列の最適化を定式化し、FFTに基づく演算により勾配を効率的に計算する。
  • 特に畳み込みニューラルネットワーク(CNN)の最終層において、標準的な全結合層を置き換えるために、巡回投影を全結合層に適用する。
  • 巡回行列をランダムに初期化し、標準的なバックプロパゲーションを用いてエンドツーエンドで微調整することで、標準的なディープラーニングフレームワークとの互換性を維持する。

実験結果

リサーチクエスチョン

  • RQ1巡回投影は、非構造的な全結合層を効果的に置き換えられ、競争力ある精度を維持できるか?
  • RQ2巡回投影は、モデル性能を劣化させることなく、全結合層におけるメモリと計算コストをどの程度削減できるか?
  • RQ3符号反転行列Dの導入は、巡回ネットワークの表現能力および一般化性能にどのように影響するか?
  • RQ4パラメータ数が同程度の標準ネットワークと比較して、巡回ネットワークは効率的に学習され、より速く収束するか?
  • RQ5固定されたリソース制約のもとで、巡回ネットワークはどの程度、より深くまたはより大きなアーキテクチャにスケーリングできるか?

主な発見

  • MNISTでは、巡回ネットワークが4000倍のメモリ削減にもかかわらず、テスト誤差率が0.95%にとどまり、標準ネットワークよりわずか0.5%高いにとどまった。
  • CIFAR-10では、巡回モデルが16.71%のテスト誤差率を達成し、ベースラインより1.5%高いが、パラメータ数は4000倍に削減された。
  • ImageNetでは、巡回モデルがトップ1誤差率25.5%を達成し、標準ネットワークの25.3%と同等の性能を示したが、メモリ使用量は99%以上削減された。
  • 符号反転行列Dの導入は不可欠であった。Dを削除すると、MNISTでは誤差率が1.5%上昇し、CIFAR-10では4.6%上昇した。
  • 同じ計算予算のもとで、巡回モデルは標準ネットワークよりも最大10倍の深さにまで拡張可能であり、スケーラビリティを示した。
  • FFTによる加速のおかげで、全結合ネットワークの1エポックあたりの学習時間が最大30%短縮されたが、収束速度への影響は最小限に抑えられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。