QUICK REVIEW

[論文レビュー] Generalizing Pooling Functions in Convolutional Neural Networks: Mixed, Gated, and Tree

Chen‐Yu Lee, Patrick W. Gallagher|arXiv (Cornell University)|Sep 29, 2015

Neural Networks and Applications参考文献 30被引用数 312

ひとこと要約

本論文は、深層畳み込みニューラルネットワーク（CNN）における従来の最大プーリングと平均プーリングを一般化する、3つの新しい微分可能プーリング関数—混合最大平均プーリング、ゲート付き最大平均プーリング、およびツリー・プーリング—を提案する。これらの手法は、データに依存する適応的で学習可能な組み合わせを学習することで、性能を向上させ、MNIST、CIFAR10、SVHNの複数のベンチマークで最先端の結果を達成している。計算コストの増加は最小限で、パラメータ数の増加もわずかである。

ABSTRACT

We seek to improve deep neural networks by generalizing the pooling operations that play a central role in current architectures. We pursue a careful exploration of approaches to allow pooling to learn and to adapt to complex and variable patterns. The two primary directions lie in (1) learning a pooling function via (two strategies of) combining of max and average pooling, and (2) learning a pooling function in the form of a tree-structured fusion of pooling filters that are themselves learned. In our experiments every generalized pooling operation we explore improves performance when used in place of average or max pooling. We experimentally demonstrate that the proposed pooling operations provide a boost in invariance properties relative to conventional pooling and set the state of the art on several widely adopted benchmark datasets; they are also easy to implement, and can be applied within various deep neural network architectures. These benefits come with only a light increase in computational overhead during training and a very modest increase in the number of model parameters.

研究の動機と目的

固定された最大プーリングと平均プーリングを超えたプーリング操作の一般化を通じて、深層ニューラルネットワークの性能を向上させること。
特徴マップ内の複雑で変動するパターンに適応できるように、プーリング関数が学習・適応可能であることを可能にすること。
バックプロパゲーションと互換性がある微分可能で学習可能なプーリングメカニズムを設計すること。
ツリー構造を用いた階層的で学習可能なプーリングフィルタの統合を探索すること。
一般化されたプーリングが、多様なアーキテクチャとデータセットにおいて不変性と性能の向上をもたらすことを実証すること。

提案手法

学習可能な固定重みによる統合により、最大プーリングと平均プーリングを組み合わせる非応答的戦略である混合最大平均プーリングを提案する。
最大プーリングと平均プーリングの出力を動的に重みづける学習可能なゲート機構を用いる応答的バージョンであるゲート付き最大平均プーリングを導入する。
各リーフノードに学習可能なプーリングフィルタを含み、内部ノードが子ノードの出力を微分可能に統合する階層的で微分可能な構造であるツリー・プーリングを開発する。
学習可能な混合重みを各内部ノードに持つ事前に指定された二分木構造を採用し、バックプロパゲーションによるエンドツーエンド学習を可能にする。
LSTMゲートにインspiredされたソフトで微分可能なゲーティング機構を用い、プーリング操作内でも勾配の流れを可能にする。
AlexNet、GoogLeNet、NiN、DSNといった標準的なCNNアーキテクチャに、最小限のアーキテクチャ的変更で、提案されたプーリング層を即座に差し込むこと。

実験結果

リサーチクエスチョン

RQ1固定された最大プーリングと平均プーリングを超えたプーリング操作の一般化は、CNNにおける特徴表現の向上に寄与するか？
RQ2最大プーリングと平均プーリングの組み合わせを学習することで、静的プーリングよりも優れた性能と不変性が得られるか？
RQ3微分可能で学習可能なツリー構造によるプーリングフィルタの統合は、複雑な視覚認識タスクにおいて従来のプーリングを上回る性能を発揮するか？
RQ4データオーグメンテーション、バッチ正規化、マルチビュー推論といった他の最先端技術と組み合わせた場合、提案された一般化プーリングの性能はどのように変化するか？
RQ5大規模モデル（例：ImageNet）における標準プーリングと比較して、プール関数の学習に伴う計算コストとパラメータコストはどの程度か？

主な発見

1層あたり1つのツリー＋最大平均プーリングが、MNIST（0.31%誤差）、CIFAR10（7.62%誤差）、SVHN（1.69%誤差）で最先端の性能を達成し、標準プーリングや先行研究を上回った。
CIFAR10でデータオーグメンテーションを適用した場合、誤差は6.05%まで低下し、FitNet や NiN と同様に学習可能な活性化関数を用いた先行SOTAを上回った。
ImageNet 2012では、AlexNetの最大プーリングをツリー・プーリングおよびゲート付き最大平均プーリングに置き換えることで、トップ5誤差が6%相対的に低下（19.9%から18.7%）した。
GoogLeNetでは、マルチビュー設定下で同じ変更を加えることでトップ5誤差が5%低下（9.15%から8.93%）し、アーキテクチャを越えた一般化の有効性を示した。
訓練時間は5～15%増加にとどまり、ネットワークあたり50未満のパラメータ追加にとどまり、性能向上に比して計算コストは非常に低い。
チャンネルごと・領域ごとの混合最大平均戦略（40,960パラメータ）を用いることで、SVHNで1.64%誤差という新たなSOTAを達成し、高パラメータコスト下でもスケーラビリティと有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。