Skip to main content
QUICK REVIEW

[論文レビュー] Shallow-Deep Networks: Understanding and Mitigating Network Overthinking

Yiğitcan Kaya, Sanghyun Hong|arXiv (Cornell University)|Oct 16, 2018
Adversarial Robustness in Machine Learning参考文献 31被引用数 101
ひとこと要約

本論文は Shallow-Deep Networks (SDNs) を紹介します。既存の DNN に内部分類器を追加し、予測が前方伝播を通じてどのように変化するかを明らかにし、過剰思考を定量化し、信頼度ベースの早期終了と混乱指標によって無駄で破壊的な効果を緩和します。

ABSTRACT

We characterize a prevalent weakness of deep neural networks (DNNs)---overthinking---which occurs when a DNN can reach correct predictions before its final layer. Overthinking is computationally wasteful, and it can also be destructive when, by the final layer, a correct prediction changes into a misclassification. Understanding overthinking requires studying how each prediction evolves during a DNN's forward pass, which conventionally is opaque. For prediction transparency, we propose the Shallow-Deep Network (SDN), a generic modification to off-the-shelf DNNs that introduces internal classifiers. We apply SDN to four modern architectures, trained on three image classification tasks, to characterize the overthinking problem. We show that SDNs can mitigate the wasteful effect of overthinking with confidence-based early exits, which reduce the average inference cost by more than 50% and preserve the accuracy. We also find that the destructive effect occurs for 50% of misclassifications on natural inputs and that it can be induced, adversarially, with a recent backdooring attack. To mitigate this effect, we propose a new confusion metric to quantify the internal disagreements that will likely lead to misclassifications.

研究の動機と目的

  • DNN の層を横断して予測がどのように進化するかとして過剰思考を特徴付け、無駄で破壊的な効果を特定する。
  • コア重みを変えずに事前学習済みネットワークに内部分類器を追加する汎用的な改良として SDN を提案する。
  • SDN が早期終了によって推論コストを削減し、過剰思考による誤分類を緩和できることを示す。
  • 実務で過剰思考を検出・緩和するためのヒューリスティック(信頼度ベースの早期終了と混乱分析)を開発する。
  • CIFAR-10、CIFAR-100、Tiny ImageNet の複数の CNN アーキテクチャを横断して本手法を実演する。

提案手法

  • 選択された層の後に内部分類器(ICs)を取り付け、IC の規模を抑えるための特徴量削減ステップを設ける。
  • IC のみの学習または SDN 学習と jointly で、推論コストに応じて IC の相対的重要性を強調する重み付き損失を用いて、事前学習済みネットワーク上で IC を訓練する。
  • IC の効率を維持するために特徴量削減に混合最大プーリングと平均プーリング戦略を用いた特徴量削減でICの効率を維持する。
  • 複数の深さで IC を定義し、複数の内部予測と入力ごとの最終予測を生成する。
  • 内部予測と最終予測の間の L1 距離に基づく混乱指標を導入し、整合性のずれを分析し誤分類を予測する。
  • データセットとアーキテクチャ全体で FLOPs と精度(Top-1)で推論コストを評価する。

実験結果

リサーチクエスチョン

  • RQ1内部分類器を付加した場合、CNN の予測精度はどのように進化するか?
  • RQ2自然データセット上で標準的な CNN における過剰思考(無駄で破壊的なもの)の発生率と影響はどの程度か?
  • RQ3SDN は精度を犠牲にせず平均推論コストを削減できるか、そして敵対的 / バックドア状況で性能を回復できるか?
  • RQ4信頼度ベースの早期終了と提案された混乱指標は、過剰思考を緩和するうえでどれほど効果的か?
  • RQ5内部予測の不一致は誤差の源を明らかにし、解釈性を高めるのに役立つか?

主な発見

  • 内部分類器は元の精度を改善するか、同等にするかで、多くの入力は早期退出でき推論コストを複数のタスクで50%以上削減できることを明らかにする。
  • 過剰思考は一般的で、入力の最大約95%が無駄な計算を引き起こし、自然画像に対するCNNのエラーの最大約50%で破壊的な誤分類が発生する。
  • SDN ベースの早期退出は、精度の損失なしに平均 FLOPs を最大約50–75%削減し、悪意のある入力でのバックドアネットワークの精度を12%から84%まで回復できる。
  • 最終予測と内部予測間の L1 距離に基づく新しい混乱指標は、誤分類の可能性を確実に示し、エラーの診断に役立つ。
  • 早期退出は攻撃者のトリガーの有効性を低減し、バックドア攻撃の緩和に寄与する。混乱指標は安全な運用の実用的なエラー指標を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。