QUICK REVIEW

[論文レビュー] Connectivity Learning in Multi-Branch Networks

Karim Ahmed, Lorenzo Torresani|arXiv (Cornell University)|Sep 27, 2017

Domain Adaptation and Few-Shot Learning参考文献 25被引用数 25

ひとこと要約

本論文では、バックプロパゲーションを介してネットワーク重みと同時に最適化される微分可能バイナリゲートを導入することで、深層ニューラルネットワークにおけるマルチブランチネットワーク接続性を学習する手法を提案する。ResNeXtのような固定アーキテクチャとは異なり、この手法は最適な入力接続および集約パスを自動で発見し、最高で3.8%の精度向上を達成するとともに、性能損ないなしに不要な残差ブロックの自動プリューニングを可能にする。

ABSTRACT

While much of the work in the design of convolutional networks over the last five years has revolved around the empirical investigation of the importance of depth, filter sizes, and number of feature channels, recent studies have shown that branching, i.e., splitting the computation along parallel but distinct threads and then aggregating their outputs, represents a new promising dimension for significant improvements in performance. To combat the complexity of design choices in multi-branch architectures, prior work has adopted simple strategies, such as a fixed branching factor, the same input being fed to all parallel branches, and an additive combination of the outputs produced by all branches at aggregation points. In this work we remove these predefined choices and propose an algorithm to learn the connections between branches in the network. Instead of being chosen a priori by the human designer, the multi-branch connectivity is learned simultaneously with the weights of the network by optimizing a single loss function defined with respect to the end task. We demonstrate our approach on the problem of multi-class image classification using three different datasets where it yields consistently higher accuracy compared to the state-of-the-art "ResNeXt" multi-branch network given the same learning capacity.

研究の動機と目的

マルチブランチニューラルネットワークアーキテクチャにおける手動設計の課題に対処すること。具体的には、固定された分岐数、共有入力、加法的集約といった接続ルールが最適でない点を改善すること。
マルチブランチネットワークにおける事前の定義された接続パターンを排除し、学習段階でエンドツーエンドで接続性を学習すること。
1つの損失関数を用いてネットワーク重みと接続構造を同時に最適化することで、画像分類の性能を向上させること。
不要な残差ブロックの自動特定とプリューニングを可能にし、モデルサイズと推論コストを削減しながら精度の低下を防ぐこと。

提案手法

マルチブランチアーキテクチャにおける各残差ブロックにどの入力特徴量を供給するかを制御する、学習可能なバイナリゲート（微分可能スイッチ）を導入する。
離散的ゲートを通過する勾配を伝搬可能にするために、ストレートスルー推定法（straight-through estimator）を用い、接続性と重みのエンドツーエンド学習を可能にする。
ResNeXtに類似したアーキテクチャにおいて、各ブランチの入力接続を決定するためにゲートを適用し、固定ルーティングを学習可能なルーティングに置き換える。
マルチクラス交差エントロピー損失関数を用いて、ゲートと畳み込み重みを含む全ネットワークを標準的なバックプロパゲーションで最適化する。
訓練中に勾配が流れるように、バイナリゲートの微分可能近似を採用し、推論時にはハード決定を行う。
訓練後、ゲートが非寄与なブランチを特定するため、使用されない残差ブロックのプリューニングが可能になる。

実験結果

リサーチクエスチョン

RQ1マルチブランチ畳み込みネットワークにおける接続性は、人間の設計による事前定義ではなく、エンドツーエンドで学習可能か？
RQ2微分可能ゲートを用いた接続性学習は、同じパラメータ予算のもとで、固定アーキテクチャ（例：ResNeXt）よりも優れた性能を達成できるか？
RQ3学習プロセスは、精度に悪影響を及げることなく、不要な残差ブロックを自動で特定・削除できるか？
RQ4本手法は、重みプリューニングや強化学習ベースのアーキテクチャ探索といった従来手法と比較して、効率性と精度の点で優れているか？

主な発見

提案手法は、4つのベンチマークデータセットにおいて、最先端のResNeXtモデルを上回る分類精度を達成し、最大で3.8%の向上を示した。
同じパラメータ予算のもとで、学習された接続構造は固定されたResNeXt接続性を一貫して上回った。
アルゴリズムは、最終予測に寄与しない最大30%の残差ブロックを自動で特定・プリューニングし、モデルサイズと推論コストを削減した。
プリューニング後も完全な精度を維持したため、学習されたゲートが不要なコンponentsを効果的に同定・除外できていることが示された。
本手法は、強化学習や進化的アルゴリズムのような高コストな探索手法を避ける、効率的な勾配ベースの接続性最適化を可能にした。
本手法はResNeXtに限らず、事前に定義されたスキップ接続を持つDenseNetsなど、他のアーキテクチャへの応用可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。