Skip to main content
QUICK REVIEW

[論文レビュー] Generalized Capsule Networks with Trainable Routing Procedure

Zhenhua Chen, David Crandall|arXiv (Cornell University)|Aug 27, 2018
Advanced Steganography and Watermarking Techniques参考文献 14被引用数 29
ひとこと要約

本稿では、結合係数を学習可能にすることでルーティング手順を完全に微分可能にし、手動でのルーティング反復設定の必要性を排除した一般化されたカプセルネットワーク(G-CapsNet)を提案する。この手法は、パrameter数を著しく削減しながらも、従来のカプセルネットワークと同等のMNIST性能を達成しており、実験によりカプセルパッケージング戦略の影響は最小限であることが示されたが、深層構造では飽和現象が生じる。

ABSTRACT

CapsNet (Capsule Network) was first proposed by~\citet{capsule} and later another version of CapsNet was proposed by~\citet{emrouting}. CapsNet has been proved effective in modeling spatial features with much fewer parameters. However, the routing procedures in both papers are not well incorporated into the whole training process. The optimal number of routing procedure is misery which has to be found manually. To overcome this disadvantages of current routing procedures in CapsNet, we embed the routing procedure into the optimization procedure with all other parameters in neural networks, namely, make coupling coefficients in the routing procedure become completely trainable. We call it Generalized CapsNet (G-CapsNet). We implement both "full-connected" version of G-CapsNet and "convolutional" version of G-CapsNet. G-CapsNet achieves a similar performance in the dataset MNIST as in the original papers. We also test two capsule packing method (cross feature maps or with feature maps) from previous convolutional layers and see no evident difference. Besides, we also explored possibility of stacking multiple capsule layers. The code is shared on \hyperlink{https://github.com/chenzhenhua986/CAFFE-CapsNet}{CAFFE-CapsNet}.

研究の動機と目的

  • 手動チューニングが必要な固定で学習不能なルーティング反復回数の制限を解消すること。
  • カプセルルーティング手順を全体の最適化プロセスに統合し、結合係数を学習可能にする。
  • 異なるカプセルパッケージング戦略(特徴マップ間 vs. 特徴マップ内)が性能に与える影響を評価すること。
  • 複数のカプセル層をスタックすることで、カプセルネットワークのスケーラビリティを調査すること。
  • 単一層アーキテクチャを超えて、カプセルネットワークを拡張可能かどうかを検討すること。

提案手法

  • 結合係数 $ c^{(l)}_{ji} $ を重み $ W^{(l)}_{ji} $ と同様に学習可能なパラメータとして扱い、最適化プロセスにルーティング手順を埋め込むことで、エンドツーエンドのバックプロパゲーションを可能にする。
  • 変換行列重みと結合係数の両方を含む共同損失関数を定式化し、L2正則化を適用する。
  • Sabourら(2017年)およびEdgarら(2017年)のスワップ関数を用いてカプセル出力を正規化し、非線形性を導入する。
  • 完全結合型および畳み込み型の両方のG-CapsNetバージョンを実装し、畳み込み型では変換行列を共有する。
  • 深層構造における学習安定性を向上させるために、ReLUのカプセル版を設計する。
  • 元のCapsNetと同様にマージン損失を適用し、物体認識のためのネットワーク学習を実施する。

実験結果

リサーチクエスチョン

  • RQ1バックプロパゲーション中に結合係数を学習可能にすることで、カプセルネットワークのルーティング手順を完全に学習可能にできるか?
  • RQ2カプセルパッケージング戦略(特徴マップ間 vs. 特徴マップ内)の選択がモデル性能に影響を与えるか?
  • RQ3より深いカプセルネットワークは成功裏に学習可能か?また、1つのカプセル層を超えてカプセルネットワークをスケーリングするにあたり、どのような課題が生じるか?
  • RQ4G-CapsNetの性能は、誤差率とパラメータ効率の観点から、ベースラインのCapsNetと比べてどうか?
  • RQ5ルーティングのエンドツーエンド学習により、ルーティング反復回数の手動設定の必要性が解消されるか?

主な発見

  • G-CapsNetは、再構成を用いる場合、820万パラメータでMNISTで0.66%のテスト誤差を達成し、ベースラインCapsNet(3540万パラメータ、0.83%誤差)を上回る性能を示した。
  • 再構成なしの完全結合型G-CapsNetは、680万パラメータで0.66%の誤差を達成し、高いパラメータ効率を示した。
  • 畳み込み型G-CapsNetは、550万パラメータで0.70%の誤差を達成し、畳み込み設定下でもパラメータ効率が維持されていることを示した。
  • 特徴マップ間と特徴マップ内でのカプセルパッケージング戦略の間には顕著な性能差がなく、それぞれ0.68%および0.66%の誤差を示した。
  • マルチレイヤーG-CapsNetsは、カプセル版ReLUを適用しても訓練中に飽和しやすい傾向にあり、スケーラビリティが依然として大きな課題であることが示された。
  • 提案されたエンドツーエンドで学習可能なルーティング手順により、ルーティング反復の手動設定の必要性が排除され、最適化によって収束が保証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。