QUICK REVIEW

[論文レビュー] Detecting Out-of-Distribution Inputs to Deep Generative Models Using Typicality

Eric Nalisnick, Akihiro Matsukawa|arXiv (Cornell University)|Jun 7, 2019

Generative Adversarial Networks and Image Synthesis参考文献 65被引用数 58

ひとこと要約

本論文は、深層生成モデルのOOD入力を検出するための、モデル非依存かつブートストラップベースの典型性検査を提案し、入力尤度を用いてモデルの典型集合への所属を検証する。

ABSTRACT

Recent work has shown that deep generative models can assign higher likelihood to out-of-distribution data sets than to their training data (Nalisnick et al., 2019; Choi et al., 2019). We posit that this phenomenon is caused by a mismatch between the model's typical set and its areas of high probability density. In-distribution inputs should reside in the former but not necessarily in the latter, as previous work has presumed. To determine whether or not inputs reside in the typical set, we propose a statistically principled, easy-to-implement test using the empirical distribution of model likelihoods. The test is model agnostic and widely applicable, only requiring that the likelihood can be computed or closely approximated. We report experiments showing that our procedure can successfully detect the out-of-distribution sets in several of the challenging cases reported by Nalisnick et al. (2019).

研究の動機と目的

モデルの高密度領域と典型集合の不一致が、OODデータに対する誤導的な尤度の原因となり得ることを動機づける。
CDFや低次元投影に依存せず、 principled でスケーラブルなGoFテストを定義する。
尤度が計算可能な任意のDGMで実装可能で、少データ領域でもロバストな実装を提供する。
多様なDGMとデータセットにわたって手法を評価し、典型性ベースのOOD検出の成功と失敗モードを特定する。

提案手法

Shannonエントロピーと (ε,N)-typical set 定義により典型性を形式化する。
通常性をGoFテストとして書き直す： test batch が AεM[p(x;θ)] に lies するかを確認してOODを決定する。
resubstitution推定量またはモンテカルロサンプルのいずれかを用いてモデルエントロピーを推定する： H[p(x;θ)] ≈ (1/S)∑−log p(x̂s;θ) または (1/N)∑−log p(xn;θ)。
検定時間前に held-out validation data でブートストラップ信頼区間を用いて閾値 ε を設定し、type-I error を制御する。
test statistic ε̂ = | (1/M)∑−log p(x̃m;θ) − H[p(x;θ)] | を計算し、 ε̂ > ε の場合に棄却する。
テスト時前に閾値 εαM を事前に計算する完全なオフラインのブートストラップ手順を提供する。

実験結果

リサーチクエスチョン

RQ1深層生成モデルにおいて、典型性ベースの基準は分布内データと分布外データを信頼性高く識別できるか？
RQ2モデルの典型集合への所属検証は高次元設定で密度ベースのOOD検出を上回るか？
RQ3実世界のDGM応用において、ブートストラップ由来の閾値はGoF検定としてどれだけ現実的で頑健か？
RQ4異なるアーキテクチャとデータセットで典型性ベースのOOD検出の失敗モードと限界は何か？

主な発見

提案された典型性検定は、単に尤度だけが誤導するようなケースにおいてもOOD入力を検出でき、複数のDGMsとデータセットで示される。
ブートストラップを用いてOOD閾値を設定することで、高次元データと様々なモデルクラス（正規化フロー、VAE、自己回帰モデル）で機能する頑健な意思決定規則を得られる。
エンツロピーの経験的推定は、純粋なモンテカルロ推定と比較してOOD検出性能を改善することが多い。
手法は異なるモデル-データの組み合わせで顕著な失敗モードとばらつきを明らかにし、今後の改善の余地を示している。
いくつかのGoFのベースライン（t-test、KS-test、MMD、KSD、annulus）と比較して、典型性アプローチはOODバッチの識別において競争力があり、場合によっては優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。