Skip to main content
QUICK REVIEW

[論文レビュー] Open Category Detection with PAC Guarantees

Si Liu, Risheek Garrepalli|arXiv (Cornell University)|Aug 1, 2018
Domain Adaptation and Few-Shot Learning被引用数 41
ひとこと要約

この論文は、2つのトレーニングセット設定(クリーンな名義データと、異物割合の上限が既知の汚染混合データ)の下でPACスタイルの保証を伴うオープンカテゴリ検出を研究します。異常スコアを用いた閾値処理手法を提供し、有限サンプル保証を伴うユーザー指定の異物検出率を達成し、経験的に評価します。

ABSTRACT

Open category detection is the problem of detecting "alien" test instances that belong to categories or classes that were not present in the training data. In many applications, reliably detecting such aliens is central to ensuring the safety and accuracy of test set predictions. Unfortunately, there are no algorithms that provide theoretical guarantees on their ability to detect aliens under general assumptions. Further, while there are algorithms for open category detection, there are few empirical results that directly report alien detection rates. Thus, there are significant theoretical and empirical gaps in our understanding of open category detection. In this paper, we take a step toward addressing this gap by studying a simple, but practically-relevant variant of open category detection. In our setting, we are provided with a "clean" training set that contains only the target categories of interest and an unlabeled "contaminated" training set that contains a fraction $α$ of alien examples. Under the assumption that we know an upper bound on $α$, we develop an algorithm with PAC-style guarantees on the alien detection rate, while aiming to minimize false alarms. Empirical results on synthetic and standard benchmark datasets demonstrate the regimes in which the algorithm can be effective and provide a baseline for further advancements.

研究の動機と目的

  • オープンカテゴリ検出を、安全 critical な問題として動機づけ、異物を保証された割合で検出する必要性を託す。
  • 単純な2つのトレーニングセットの設定を提案:クリーンな名義データと、異物分率 α の上限をもつ汚染データ。
  • ユーザー指定の異物検出率を保証しつつ誤検知を抑えるPACスタイルの手法を開発する。
  • 有限サンプル保証を提供し、αの上限が性能とデータ要件に与える影響を示す。
  • 合成データと標準データセットを用いて異常検出機をベースにアプローチをベンチマークする。

提案手法

  • 名義データの分布F0、異物データの分布Fa、混合データの分布Fm の異常スコア分布を定義し、αが既知のときFmとF0からFaを導出する。
  • S0 と Sm から経験的CDFを計算し、Fa_hat(x) = (Fm_hat(x) − (1−α)F0_hat(x)) / α によって経験的異物CDFを形成する。
  • しきい値 τ̂_q を、Fa_hat(τ̂_q) ≤ q となる最大のスコアとして決定し、1−q の異物再現率を得る。
  • 閾値処理の前に Fa_hat が有効なCDFとなるよう、アイソトニゼーションとクリッピングを適用する。
  • 有限サンプル保証(Theorem 1)を提供し、εとδに対してターゲット再現率1−ηを満たすために必要なサンプル数 n = O((1/ε^2 α^2) log(1/δ))を示す。
  • αを許容される異常検出器(F0 ≤ Fm はすべての x について成り立つ)で緩和することと、それに伴う保証の意味を論じる。

実験結果

リサーチクエスチョン

  • RQ1オープンカテゴリ検出は、α の上限が既知の2トレーニングセット設定の下でPACスタイルの保証を達成できるか。
  • RQ2異常検出器の品質が有限サンプル下の異物再現率と名義偽陽性率にどう影響するか。
  • RQ3ターゲットの異物検出率を保証するために必要なサンプル数はどれくらいか、αを過大評価すると性能にどう影響するか。
  • RQ4提案された保証は、さまざまなαとn に対して合成データと標準ベンチマークデータセットで実証的にどのように機能するか。

主な発見

  • 提案された閾値処理法は、αが既知または上限がある場合に、有限サンプル保証を伴ってユーザーが指定した異物検出率を達成できる。
  • 再現率は n の増加とともに、α が大きいほど改善し、偽陽性率は異常検出器の品質とドメインに依存する。ベンチマークでは非自明な FPR が観測される。
  • 必要なサンプル数は 1/(ε^2 α^2) と log(1/δ) に対して多項式的に増加することを示し、α が小さくなるとデータ要件が高まる。
  • 実証結果では、より大きな n に対して複数のUCIおよびビジョンデータセットで再現率がほぼ1−qに近いが、小規模データセットや非常に小さい α ではギャップが残る。
  • αを過大評価すると FPR が recall を下回る影響が大きく、α推定の正確さの重要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。