QUICK REVIEW

[論文レビュー] An Equivalence of Fully Connected Layer and Convolutional Layer

Wei Ma, Jun Lu|arXiv (Cornell University)|Dec 4, 2017

Neural Networks and Applications参考文献 1被引用数 48

ひとこと要約

この論文は、行列乗算として表現された場合、完全結合（FC）層と畳み込み（CONV）層が数学的に同等であることを示しており、解析のためのCONV層をFC層に再定式化することが可能である。主な結果として、FCまたはCONV層を用いた同等のネットワークが、ほぼ同一の訓練および検証損失を達成し、学習された重み間のフロベニウスノルム差が2.12e-7であることが示され、特定の条件下でそれらの機能的同等性が確認された。

ABSTRACT

This article demonstrates that convolutional operation can be converted to matrix multiplication, which has the same calculation way with fully connected layer. The article is helpful for the beginners of the neural network to understand how fully connected layer and the convolutional layer work in the backend. To be concise and to make the article more readable, we only consider the linear case. It can be extended to the non-linear case easily through plugging in a non-linear encapsulation to the values like this $σ(x)$ denoted as $x^{\prime}$.

研究の動機と目的

深層ニューラルネットワークにおける完全結合層と畳み込み層の正式な同等性を確立すること。
不確実性評価やネットワーク変形といった、完全結合ネットワークで確立された手法を用いて畳み込み層を解析できるようにすること。
CONV操作が効率的に行列乗算に再定式化できることを示し、理論的理解と実装の簡素化を図ること。
MNIST上で同等のFCおよびCONVネットワークの訓練を通じた実証的検証により、最適化ダイナミクスが同一であることを示すこと。
完全結合ネットワークから畳み込みアーキテクチャへ技術を転送する基盤を、重みの同等性を根拠として提供すること。

提案手法

入力特徴マップとフィルタを行列に再形状することで、2次元畳み込み演算を行列乗算に再定式化する。
標準的な行列乗算を用いて畳み込み層の出力を計算し、各カーネル適用を線形変換として扱う。
FCおよびCONVネットワークの両方に同一の重み初期化と最適化法（SGDおよびAdam）を適用し、公平な比較を実現する。
入力データの形状（1000, 28, 28, 1）を（1000, 169, 16）に再形状し、FC層の入力次元に一致させ、同等性を保持する。
同等のCONV層とFC層の間の学習済み重みの差のフロベニウスノルムを計算し、類似度を定量化する。
1000枚の画像からなるテストセットを用いて、両ネットワークの最初の層の出力を比較し、機能的同等性を検証する。

実験結果

リサーチクエスチョン

RQ1畳み込み層は、行列乗算を用いて完全結合層に数学的に再定式化可能か？
RQ2同等のFCおよびCONVネットワークは、どの程度同一の訓練ダイナミクスと損失曲線を示すか？
RQ3フロベニウスノルムの観点から、同等のFCおよびCONV層の学習済み重みはどの程度類似しているか？
RQ4SGDやAdamのような異なる最適化アルゴリズムにおいても同等性は成立するか？
RQ5完全結合ネットワークで開発された技術は、この同等性を介して畳み込みネットワークに直接適用可能か？

主な発見

畳み込み演算は、特定の再形状条件下で正確に行列乗算として表現可能であり、FC層とCONV層が数学的に同等であることを証明する。
同一のアーキテクチャと初期化を用いた完全結合ネットワークと畳み込みネットワークの訓練では、SGD最適化下でほぼ同一の訓練および検証損失曲線が得られた。
同等のCONV層とFC層の学習済み重み間の差のフロベニウスノルムは2.12e-7であり、ほぼ完全な重み対応関係が確認された。
両ネットワークの最初の層の出力特徴マップの差は、フロベニウスノルムで1.85e-6にとどまり、機能的同等性が確認された。
Adam最適化では損失曲線にわずかな乖離が生じ、重み差のフロベニウスノルムは0.0742に増加した。これは、適応的学習率が収束の対称性に影響を与える可能性を示唆している。
入力データを3次元テンソル（1000, 169, 16）に再形状しても同等性が保たれることを確認し、変換が計算的同等性を維持していることを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。