Skip to main content
QUICK REVIEW

[論文レビュー] A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Oct 7, 2016
Neural Networks and Applications被引用数 1,615
ひとこと要約

本論文は、最大ソフトマックス確率を用いて、視覚、NLP、音声タスク全体で誤分類および外れ値検出(OOD)例を検出する単純なベースラインを提案し、またベースラインより一部のタスクで上回る補助的異常検出器も提案します。

ABSTRACT

We consider the two related problems of detecting if an example is misclassified or out-of-distribution. We present a simple baseline that utilizes probabilities from softmax distributions. Correctly classified examples tend to have greater maximum softmax probabilities than erroneously classified and out-of-distribution examples, allowing for their detection. We assess performance by defining several tasks in computer vision, natural language processing, and automatic speech recognition, showing the effectiveness of this baseline across all. We then show the baseline can sometimes be surpassed, demonstrating the room for future research on these underexplored detection tasks.

研究の動機と目的

  • モデルが誤分類を起こすときや入力がOODであるときの検出の必要性を動機づけ、定量化する。
  • 複数ドメインにわたって誤差とOOD入力を検出するための、ソフトマックス最大確率を用いたシンプルなベースラインを提案する。
  • 補助的な入力再構成を用いて、ベースラインを超える異常検出を改善する可能性を探る。
  • ニューラルネットワークにおける誤検出とOOD検出を評価する標準タスクと指標を提供する。

提案手法

  • 訓練済み分類器の最大ソフトマックス確率を、誤分類およびIn-/Out-of-Distribution判別の検出スコアとして用いる。
  • コンピュータビジョン、NLP、自動音声認識のさまざまなタスクとデータセットでベースラインを評価し、AUROCとAUPRの指標を報告する。
  • 再構成ベースの補助モデル(入力再構成デコーダーと異常モジュール)を調査し、異常入力の検出を改善する。
  • ソフトマックスベースのスコアは直接的な自信度推定ではないが、正解 vs 不正解およびIn-vs-OODの例を効果的に分離できることを示す。
  • 誤りとOOD検出のための標準タスクと評価指標を導入し、今後の研究を導く。

実験結果

リサーチクエスチョン

  • RQ1ソフトマックス最大確率に基づく単純なベースラインは、さまざまな領域(視覚、NLP、音声)で誤分類された例を信頼性高く検出できるか。
  • RQ2同じベースラインは、In-distributionとOut-of-distributionの入力を効果的に判別できるか。
  • RQ3補助的な再構成ベースの異常検出器は、特定の設定でソフトマックスベースの検出性能を超えるか。
  • RQ4ニューラルネットワークにおける誤検出およびOOD検出を評価する標準タスクと指標は何か。

主な発見

  • ソフトマックス最大確率は、MNIST、CIFAR-10、CIFAR-100、およびNLP/音声タスクを横断して誤分類を検出する上で驚くほど効果的なベースラインとして機能する。
  • ベースラインは、SUN、Omniglot、notMNIST、Gaussian noiseなどのデータセットを横断してIn-distributionとOut-of-distributionデータの判別も可能にする。
  • いくつかのタスクでAUC-ROCとAUPRは強力な検出性能を示すが、ベースラインが常に最適とは限らず改善余地がある。
  • 入力再構成デコーダを備えた補助的な異常モジュールは、いくつかのシナリオ(例:TIMIT、MNIST)でベースラインを上回る可能性を示し、異常検出のための内部表現に追加情報が存在することを示唆する。
  • 本研究は堅牢なドメイン横断適用性を示し、誤りとOOD検出における今後の研究の基盤を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。