[論文レビュー] Dense and Diverse Capsule Networks: Making the Capsules Learn Better
本論文は、Dense Capsule Networks (DCNet) および Diverse Capsule Networks (DCNet++) を導入し、標準の畳み込みを密に結合された畳み込みに置換してよりリッチなプライマリカプセルを学習させ、MNIST や他のデータセットで収束を速め、精度を向上させ、パラメータを削減した CIFAR-10 の強力な結果も含む。
Past few years have witnessed exponential growth of interest in deep learning methodologies with rapidly improving accuracies and reduced computational complexity. In particular, architectures using Convolutional Neural Networks (CNNs) have produced state-of-the-art performances for image classification and object recognition tasks. Recently, Capsule Networks (CapsNet) achieved significant increase in performance by addressing an inherent limitation of CNNs in encoding pose and deformation. Inspired by such advancement, we asked ourselves, can we do better? We propose Dense Capsule Networks (DCNet) and Diverse Capsule Networks (DCNet++). The two proposed frameworks customize the CapsNet by replacing the standard convolutional layers with densely connected convolutions. This helps in incorporating feature maps learned by different layers in forming the primary capsules. DCNet, essentially adds a deeper convolution network, which leads to learning of discriminative feature maps. Additionally, DCNet++ uses a hierarchical architecture to learn capsules that represent spatial information in a fine-to-coarser manner, which makes it more efficient for learning complex data. Experiments on image classification task using benchmark datasets demonstrate the efficacy of the proposed architectures. DCNet achieves state-of-the-art performance (99.75%) on MNIST dataset with twenty fold decrease in total training iterations, over the conventional CapsNet. Furthermore, DCNet++ performs better than CapsNet on SVHN dataset (96.90%), and outperforms the ensemble of seven CapsNet models on CIFAR-10 by 0.31% with seven fold decrease in number of parameters.
研究の動機と目的
- 密に接続された畳込みを用いて CapsNet の性能と収束を改善する。
- 密な特徴連結を活用して多様なプライマリカプセルを学習する。
- 階層的で粗→細のカプセル表現によって複雑なデータセット(例:CIFAR-10)の制約に対処する。
- 精度を維持または向上させつつモデルの複雑さを低減する。
- DenseNet のアイデアに触発された再構成デコーダの改善を探る。
提案手法
- CapsNet の標準 Conv 層を、層間で特徴を結合してプライマリカプセルを形成する 8 層の密結合畳み込みサブネットワークに置換する。
- 最終密結合ブロックで32個の8次元プライマリカプセルを形成し、次に routing-by-agreement を適用して DigitCaps を生成する。
- 再構成を改善するためにデコーダを修正し、1層目と2層目の特徴を連結する。
- 階層的で多層構造(3 レベル)のアーキテクチャとして DCNet++ を導入し、細かな空間特徴を粗い特徴へと学習し、レベル間で表現を共有する。
- 導 guided back-propagation を用いて活性化を解析し、スケールを跨ぐ多様なカプセル表現を促進する。
- ベースラインと同じパラメータ数で学習し、公正な比較を行う。再構成損失のスケーリングを調整して学習のバランスをとる。
実験結果
リサーチクエスチョン
- RQ1密でスキップ接続された畳み込みが、ベースラインの CapsNet と比較してカプセルの品質を向上させ、収束を速めることができるか?
- RQ2階層性と多様なプライマリカプセル(DCNet++)を導入することで、CIFAR-10 のような複雑なデータセットに対して単一の CapsNet や DCNet と比べて性能が向上するか?
- RQ3プーリングを密結合に置換することでカプセルにおける空間情報の保持にどのような影響があるか?
- RQ4再構成デコーダが密な多層フュージョンから恩恵を受けて、より良い再構成を実現し学習を支援できるか?
主な発見
- DCNet は MNIST で 99.75% のテスト精度を 50 エポックで達成し、従来の CapsNet より総トレーニング反復回数を 20 倍削減した。
- DCNet は Fashion-MNIST (100 エポック) で 94.64% を達成し、同等設定のベースライン CapsNet を上回る。
- SVHN では DCNet が 95.59% に改善し、複製された CapsNet (93.23%) を上回り、DCNet++ はさらに 96.90% に向上。
- CIFAR-10 では DCNet++ が 13.4M パラメータで 89.71% の精度に達し、7-model CapsNet アンサンブル (89.40%) を大幅に少ないパラメータ数で上回る。
- DCNet は SmallNORB および brain-tumor データセットで顕著な改善を示し、DCNet++ は複雑なデータに対処するための階層的で細部から粗大への学習機構を提供する。
- 全体として、DCNet 系統は、既存の CapsNet のベースラインおよびエ ensembles に対して、パラメータ数が削減されるか同等でありながら競争力のあるまたは優れた性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。