QUICK REVIEW

[論文レビュー] Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer

Sergey Zagoruyko, Nikos Komodakis|arXiv (Cornell University)|Dec 12, 2016

Visual Attention and Saliency Detection被引用数 1,542

ひとこと要約

本論文はCNNにおける空間アテンションマップを定義し、それを用いて強力な教師から弱い生徒へアテンションを転送する。CIFAR、ImageNet、およびファインチューニングタスク全体で顕著な性能向上をもたらし、活性化ベースのアテンション転送（AT）は全活性化転送を上回り、多くのケースで知識蒸留と相乗効果を生む。

ABSTRACT

Attention plays a critical role in human visual experience. Furthermore, it has recently been demonstrated that attention can also play an important role in the context of applying artificial neural networks to a variety of tasks from fields such as computer vision and NLP. In this work we show that, by properly defining attention for convolutional neural networks, we can actually use this type of information in order to significantly improve the performance of a student CNN network by forcing it to mimic the attention maps of a powerful teacher network. To that end, we propose several novel methods of transferring attention, showing consistent improvement across a variety of datasets and convolutional neural network architectures. Code and models for our experiments are available at https://github.com/szagoruyko/attention-transfer

研究の動機と目的

ネットワーク間の知識転送信号としてアテンションを用いる動機づけ。
CNNのための活性化ベースおよび勾配ベースの空間アテンションマップを定義。
多様なアーキテクチャとデータセットにわたって複数のアテンション転送メカニズムを提案・評価。
アテンション転送と標準的な知識蒸留およびファインチューニングの相互作用を調査。
アテンション転送が最終精度と収束速度を改善し得ることを実証。

提案手法

空間範囲全体でチャネルアクティベーションを集約して活性化ベースの空間アテンションマップを定義する（例：絶対値の和、べき乗の和、またはべき乗の最大）。
入力に対する損失の勾配として勾配ベースのアテンションを定義し、入力感度を表す。
ATロス項として生徒と教師のアテンションマップ間の距離（l2ノルム）を正規化して最小化。
必要に応じて蒸留ロス項を追加することでATと標準的な知識蒸留を組み合わせる。
勾配ベースのATのために二度目のバックプロパゲーションを適用するオプションや、勾配について水平反転不変性を課す。
ATと勾配ベースのATをさまざまなCNNアーキテクチャ（NIN、ResNet、WRN）とデータセット（CIFAR-10、ImageNet、Scenes、CUB）で評価。
活性化ベースのATを全活性化転送と比較し、ATが最終精度の向上と収束の速さを提供することを示す。

実験結果

リサーチクエスチョン

RQ1CNNで空間アテンションマップを定義して、教師から学生への効果的な知識転送を実現できるか。
RQ2活性化ベースのアテンションマップは全ての活性化を転送するよりも良い転送信号を提供するか。
RQ3活性化ベースと勾配ベースのアテンション転送は多様なアーキテクチャとデータセットでどう機能するか。
RQ4アテンション転送は標準的な知識蒸留を補完または凌駕し、収束速度にどう影響するか。
RQ5ImageNetのような大規模データセットや、細分類・シーン分類タスクでアテンション転送は有益か。

主な発見

活性化ベースのアテンション転送（AT）は、CIFARおよびより大規模なデータセット全体で基準より一貫して生徒の性能を向上させる。
活性化ベースのATは一般に全活性化転送を上回り、収束の速さと最終的な精度が向上する。
ATは知識蒸留（AT+KD）と組み合わせることで、いくつかの設定でさらに結果を改善できる。
勾配ベースのATも性能向上をもたらし、対称ノルムと二度のバックプロパゲーションは特定の訓練条件下で強力な結果を示す。
ImageNetでは、StudentとしてResNet-18、TeacherとしてResNet-34を用いた設定で、検証精度のトップ1が1.1%、トップ5が0.8%向上。
AT転送は、ファインチューニング時の細分類（CUB）およびシーン（Scenes）データセットでも有益で、小さなネットワークと大きなネットワークのギャップを縮める。
選択された残差グループにATロスを追加すると、KDをすべてのケースで必要とせずに転送効果を大幅に改善できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。