QUICK REVIEW

[論文レビュー] Likelihood Regret: An Out-of-Distribution Detection Score For Variational Auto-encoder

Zhisheng Xiao, Qing Yan|arXiv (Cornell University)|Mar 6, 2020

Adversarial Robustness in Machine Learning参考文献 52被引用数 64

ひとこと要約

本論文は、Likelihood Regretを導入する。VAEのOOD検出スコアで、最良のサンプル毎の事後構成を学習済みの集団ELBOと比較し、LRが複数の画像データセットで尤度ベースのOOD検出を上回る。

ABSTRACT

Deep probabilistic generative models enable modeling the likelihoods of very high dimensional data. An important application of generative modeling should be the ability to detect out-of-distribution (OOD) samples by setting a threshold on the likelihood. However, some recent studies show that probabilistic generative models can, in some cases, assign higher likelihoods on certain types of OOD samples, making the OOD detection rules based on likelihood threshold problematic. To address this issue, several OOD detection methods have been proposed for deep generative models. In this paper, we make the observation that many of these methods fail when applied to generative models based on Variational Auto-encoders (VAE). As an alternative, we propose Likelihood Regret, an efficient OOD score for VAEs. We benchmark our proposed method over existing approaches, and empirical results suggest that our method obtains the best overall OOD detection performances when applied to VAEs.

研究の動機と目的

尤度が誤解されがちなVAEに対して信頼性の高いOOD検出を動機づける。
尤度のミスマッチを緩和する、サンプルごとの最適化ベースのスコア（Likelihood Regret）を提案する。
多様な画像データセットにおいて、LRを既存のOODスコアと比較評価する。
VAEの変種や容量に対するLRの頑健性を分析する。

提案手法

Likelihood Regret (LR)をLR(x)=L(x;θ*,τ̂(x))−L(x;θ*,φ*)、ここでLはELBOベースの対数尤度と定義する。
LをVAEのIWELBO（Kサンプル）を推定することで計算し、θ*を固定した単一入力に対してLを最大化するように変分パラメータτを最適化する。
τ̂(x)を得るために、エンコーダφを最適化するか、直接τ(x)を最適化する。
潜在後向きパラメータの変化を制限することでVAEボトルネックを介して最適化を正則化する。
複数のOODタスクでLRをベースライン（Likelihood、IC、Likelihood Ratio、LMD）と比較する。

実験結果

リサーチクエスチョン

RQ1標準の尤度が失敗するVAEsにおいて、LRはインディストリビューションとOODサンプルを信頼性高く識別できるか。
RQ2LRは様々なin-distribution/out-of-distributionのペアで既存のOODスコアとどう比較されるか。
RQ3LRは異なるVAE容量およびβ-VAE設定に頑健か。
RQ4他のOOD手法に比べたLRの計算上のトレードオフは何か。

主な発見

データセット（in→out）	LR_E AUCROC	LR_Z AUCROC	Likelihood AUCROC	IC (png) AUCROC	IC (jp2) AUCROC	Likelihood Ratio AUCROC	LMD AUCROC
MNIST (FMNIST→MNIST)	0.988	0.967	0.201	0.946	0.553	0.924	0.877
SVHN (CIFAR-10→SVHN)	1	1	0.999	0.992	1	0.785	0.995
KMNIST (FMNIST→KMNIST)	0.994	0.983	0.731	0.708	0.599	0.983	0.955
NotMNIST (FMNIST→NotMNIST)	0.999	1	0.943	0.923	0.966	0.996	0.998
Noise (FMNIST→Noise)	1	0.963	1	0.453	1	1	1
Constant (FMNIST→Constant)	1	1	0.928	1	1	0.775	0.981
MNIST (CIFAR-10→MNIST)	0.998	0.976	0.008	0.994	0.988	0.792	0.027
SVHN (CIFAR-10→SVHN)	0.875	0.843	0.193	0.912	0.908	0.265	0.279
LSUN (CIFAR-10→LSUN)	0.691	0.640	0.494	0.624	0.315	0.632	0.527
CelebA (CIFAR-10→CelebA)	0.714	0.690	0.465	0.641	0.564	0.447	0.576
Noise (CIFAR-10→Noise)	0.994	0.922	1	0.032	0.054	1	0.983
Constant (CIFAR-10→Constant)	0.974	0.924	0.258	1	1	0.470	0.431

LRはVAEsで観察された尤度のミスマッチを是正し、ほとんどのOODタスクで高いAUC-ROCを達成する。
Fashion MNIST vs MNISTでは、LRはAUC-ROCを0.165（尤度）から0.999へ改善。
CIFAR-10 vs SVHNでは、LRはAUC-ROCを0.161（尤度）から0.876へ改善。
エンコーダを最適化したLR_Eと潜在統計を最適化したLR_Zの両方のLR変種は良好で、一般的にLR_Eの方が優れる。
LRはβ-VAE設定や異なる容量のVAEに対して頑健だが、非常に大容量だと一部のタスクで性能がわずかに低下することがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。