QUICK REVIEW

[論文レビュー] Pixel-wise Attentional Gating for Parsimonious Pixel Labeling

Shu Kong, Charless C. Fowlkes|arXiv (Cornell University)|May 3, 2018

CCD and CMOS Imaging Sensors参考文献 47被引用数 35

ひとこと要約

本稿では、ピクセル単位のラベリングタスクにおける深層畳み込みニューラルネットワーク（CNN）における計算の動的割り当てを学習する汎用的で微分可能なメカニズム、ピクセル単位の注意的ゲーティング（PAG）を提案する。Gumbel-Softmaxサンプリングを用いてスパースなピクセルごとのバイナリマスクを学習することで、PAGは適応的推論を可能にし、FLOPsを最大30％まで削減しながら精度の低下を最小限に抑える。また、動的プーリングと選択的特徴処理により、セマンティックセグメンテーション、深度推定、表面法線予測の各タスクで性能向上を実現する。

ABSTRACT

To achieve parsimonious inference in per-pixel labeling tasks with a limited computational budget, we propose a \emph{Pixel-wise Attentional Gating} unit (\emph{PAG}) that learns to selectively process a subset of spatial locations at each layer of a deep convolutional network. PAG is a generic, architecture-independent, problem-agnostic mechanism that can be readily "plugged in" to an existing model with fine-tuning. We utilize PAG in two ways: 1) learning spatially varying pooling fields that improve model performance without the extra computation cost associated with multi-scale pooling, and 2) learning a dynamic computation policy for each pixel to decrease total computation while maintaining accuracy. We extensively evaluate PAG on a variety of per-pixel labeling tasks, including semantic segmentation, boundary detection, monocular depth and surface normal estimation. We demonstrate that PAG allows competitive or state-of-the-art performance on these tasks. Our experiments show that PAG learns dynamic spatial allocation of computation over the input image which provides better performance trade-offs compared to related approaches (e.g., truncating deep models or dynamically skipping whole layers). Generally, we observe PAG can reduce computation by $10\%$ without noticeable loss in accuracy and performance degrades gracefully when imposing stronger computational constraints.

研究の動機と目的

エッジおよびモバイルデプロイメントにおけるピクセルラベリングタスク向け深層CNNの高い計算コストに対処すること。
すべての位置を均一に処理するのではなく、各ピクセルごとに空間的に変化する計算割り当てを学習することで、動的推論を可能にすること。
既存モデルへの簡単なファインチューニングによって統合可能な、アーキテクチャおよびタスクに依存しない汎用的メカニズムを構築すること。
計算負荷の増加を伴わずに、動的プーリングフィールドと選択的計算パスの学習により、性能のトレードオフを改善すること。
ピクセルレベルでの動的計算割り当てが、セマンティックセグメンテーションや深度推定のような細粒度の予測タスクにおいて有益であることを実証すること。

提案手法

Gumbel-Softmaxのテクニックを用いて、エンド・ツー・エンド学習が可能な、ピクセルごとのスパースバイナリマスクを生成する微分可能なメカニズム、Pixel-wise Attentional Gating（PAG）を提案する。
残差ネットワークの複数の層にPAGユニットを挿入し、入力に依存する動的計算パスを学習する。各層で処理されるのは、選択された空間的位置のみとなる。
スパースネスのハイパーパrameterを用いて、各層あたりの有効な空間位置の平均数を制御し、計算予算に対する明示的な制御を可能にする。
PAGを用いて、各ピクセルごとにプーリングフィールドサイズを動的に選択し、固定またはマルチスケールプーリングに代わる、学習可能な適応的集約メカニズムを実現する。
PAGを用いたMultiPoolモジュールのトレーニングを段階的戦略で実施し、注意マップが情報の流れを制約し、特徴の統合を向上させる。
強化学習を用いず、標準的なタスク固有の損失関数（例：交差エントロピー、L1損失）を用いてモデルを訓練する。FLOPsと相関する単純なスパースネス目標に依存する。

実験結果

リサーチクエスチョン

RQ1ピクセルレベルでの動的かつ空間的に変化する計算割り当ては、計算コストを増加させることなく、ピクセルラベリングタスクの性能向上に寄与するか？
RQ2情報量の多い空間的位置のみを効率的に処理する学習が、固定深度や層スキップ戦略と比較して、より優れた精度-計算コストトレードオフを実現するか？
RQ3PAGは、計算効率の良い方法で、各ピクセルごとにプーリングフィールドサイズを適応的に学習し、受容場のモデリングを改善できるか？
RQ4PAGは、セマンティックセグメンテーション、境界検出、単眼深度推定、表面法線推定といった多様なピクセルラベリングタスクでどれほど効果を発揮するか？
RQ5PAGの動的推論メカニズムを用いることで、FLOPsをどの程度削減しつつ、競争力のある性能を維持できるか？

主な発見

PAGは、タスク平均でFLOPsを最大30％削減しながら、平均して3–5％の性能低下に抑え、計算制約下でも滑らかな劣化を示す。
CityscapesおよびStanford-2D-3Dデータセットにおいて、PAGを搭載したMultiPoolは、ベースラインモデルを上回り、セマンティックセグメンテーションおよび表面法線推定で最先端の手法を上回る性能を達成した。
PAGを強化したMultiPoolモジュールは、重み付き平均融合ベースライン（MP@Res5 w-Avg.）を、特に大スケールのパースペクティブ画像において、精度と耐性の両面で上回った。
表面法線推定のタスクでは、Stanford-2D-3Dで平均角誤差16.5°、NYUv2で21.7°を達成し、マルチタスク学習や大規模データオーグメンテーションを用いないEigen [12] やWang [53] よりも優れた性能を示した。
定性的な分析から、PAGの注意マップが、オブジェクトの境界、深度の不連続、法線の不連続といった顕著な領域に計算を集中させていることが確認され、効果的な動的割り当てが実現していることが裏付けられた。
追加の訓練画像を用いない（他の手法が約10万枚の追加画像に依存するのとは異なり）、単眼深度推定においても、シンプルな訓練設定で競争力ある結果を達成し、強力な性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。