Skip to main content
QUICK REVIEW

[論文レビュー] Spatially Adaptive Computation Time for Residual Networks

Michael Figurnov, Maxwell D. Collins|arXiv (Cornell University)|Dec 7, 2016
Visual Attention and Saliency Detection参考文献 39被引用数 25
ひとこと要約

本稿では、空間的に適応的な計算時間(SACT)を提案する。SACTは、残差ネットワーク内の各空間的位置で処理する残差ブロックの数を動的に調整する手法であり、エンド・トゥ・エンドで、決定論的かつ問題に依存しない計算適応を可能にする。SACTはImageNetおよびCOCOにおけるFLOPs-mAP効率を向上させ、明示的なサリエンシーの教師信号を用いなくても、人間の視線固定と強く相関する計算停止コストマップを生成する。

ABSTRACT

This paper proposes a deep learning architecture based on Residual Network that dynamically adjusts the number of executed layers for the regions of the image. This architecture is end-to-end trainable, deterministic and problem-agnostic. It is therefore applicable without any modifications to a wide range of computer vision problems such as image classification, object detection and image segmentation. We present experimental results showing that this model improves the computational efficiency of Residual Networks on the challenging ImageNet classification and COCO object detection datasets. Additionally, we evaluate the computation time maps on the visual saliency dataset cat2000 and find that they correlate surprisingly well with human eye fixation positions.

研究の動機と目的

  • 深層残差ネットワークにおける動的で空間的に変化する計算を可能にする手法の開発。
  • アーキテクチャの変更なしに、空間的位置ごとの計算を適応させるエンド・トゥ・エンドで学習可能で決定論的なメカニズムの構築。
  • 画像分類および物体検出を含む多様なビジョンタスクにおいて、タスク固有の微調整なしにモデルを評価すること。
  • 計算停止コストマップが、明示的な教師信号なしに人間の視覚的注意を反映しているかどうかを評価すること。
  • 適応的計算が、最先端モデルにおけるFLOPs-精度トレードオフを改善できることの実証。

提案手法

  • SACTは、適応的計算時間(ACT)を残差ネットワークにおける空間的位置レベルに拡張し、各位置での処理停止意思決定を可能にする。
  • 各空間的位置に対して、残差ユニットの出力をもとに、特徴表現が「十分に良い」と判断されるタイミングを決定する学習可能なゲートネットワークを用いる。
  • ゲートネットワークは、温度制御されたシグモイドを用いて停止確率を出力し、各位置で処理する残差ユニットの数は微分可能サンプリング機構によって決定される。
  • モデルは、バックプロパゲーションを用いてエンド・トゥ・エンドで学習され、合計計算時間(ponder cost)はハイパーパrameter τ によって精度と効率のバランスをとる。
  • 特徴マップのアライメントを維持するため、セグメンテーションや物体検出のようなピクセル単位およびマルチ出力タスクに適している。
  • 推論時に生成されるponder costマップは、追加の訓練なしにサリエンシー・マップとして使用可能。

実験結果

リサーチクエスチョン

  • RQ1残差ネットワークにおいて、空間的に適応的な計算を適用することで、計算効率を向上させることができるか?
  • RQ2明示的な教師信号なしに、空間的に適応的な計算メカニズムが人間の視覚的注意と相関するか?
  • RQ3SACTは、画像分類および物体検出タスクにおけるFLOPs-精度トレードオフを改善できるか?
  • RQ4非適応的ResNetおよびACTと比較して、SACTのmAPおよびFLOPsにおける性能はどのようにか?
  • RQ5計算されたponder costマップは、ドメイン外の画像において有効な視覚的サリエンシー予測子として機能するか?

主な発見

  • τ=0.005でSACTを用いると、COCO検証セットで27.61 mAPを達成し、FLOPsはResNet-101の56.0%にとどまる。これは、元のResNet-101(27.2 mAP)よりも高い効率で性能を上回る。
  • τ=0.001でSACTを用いると、FLOPsは72.4%にまで低下し、29.04 mAPを達成する。これは、非適応的ResNet-50(46.6% FLOPsで25.56 mAP)を顕著に上回る。
  • ImageNetおよびCOCOで学習したSACTモデルは、サリエンシー予測に優れた一般化性能を示し、cat2000データセットで84.6% AUC-Juddを達成。これは、センター・ベースライン(83.4%)を上回り、最先端のDeepFix(テストで87%)と同等の性能を示す。
  • SACTから得られるponder costマップは、人間の視線固定パターンと強く相関しており、生物学的に妥当な注意メカニズムを学習している可能性を示唆する。
  • 本手法は完全に特徴マップのアライメントを維持しており、物体検出やセグメンテーションのような密度予測タスクへの直接適用が可能である。
  • モデルは完全に微分可能でエンド・トゥ・エンドで学習可能であり、計算を誘導するためのヒューリスティック的または補助ネットワークの導入が不要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。