QUICK REVIEW

[論文レビュー] Knowing what you know: valid and validated confidence sets in multiclass and multilabel prediction

Maxime Cauchois, Suyash Gupta|arXiv (Cornell University)|Apr 21, 2020

Machine Learning and Data Classification参考文献 38被引用数 18

ひとこと要約

本稿では、モデルスコアの分位数回帰を活用することで、有効な周辺カバレッジを保証するとともに、漸近的に最適な条件付きカバレッジを達成する、多クラスおよびマルチラベル分類のためのコンフォーマル予測フレームワークを提案する。高次元ラベル空間を効率的に扱うための木構造型分類器を導入し、任意のブラックボックスモデルと互換性のあるプラグアンドプレイ手法を提供することで、分布の仮定なしにカバレッジの均一性を著しく向上させる。

ABSTRACT

We develop conformal prediction methods for constructing valid predictive confidence sets in multiclass and multilabel problems without assumptions on the data generating distribution. A challenge here is that typical conformal prediction methods---which give marginal validity (coverage) guarantees---provide uneven coverage, in that they address easy examples at the expense of essentially ignoring difficult examples. By leveraging ideas from quantile regression, we build methods that always guarantee correct coverage but additionally provide (asymptotically optimal) conditional coverage for both multiclass and multilabel prediction problems. To address the potential challenge of exponentially large confidence sets in multilabel prediction, we build tree-structured classifiers that efficiently account for interactions between labels. Our methods can be bolted on top of any classification model---neural network, random forest, boosted tree---to guarantee its validity. We also provide an empirical evaluation, simultaneously providing new validation methods, that suggests the more robust coverage of our confidence sets.

研究の動機と目的

データ生成分布に特定の仮定を置かない多クラスおよびマルチラベル予測における有効な信頼集合の構築手法を開発すること。
標準的なコンフォーマル予測の限界である、簡単な例に偏った不均一なカバレッジを是正すること。
モデルスコア上に特徴量に適応した分位数関数をフィッティングすることで、漸近的に最適な条件付きカバレッジを達成すること。
ラベル相関を捉えるために木構造型グラフィカルモデルを用い、マルチラベル予測の指数的複雑性を効率的に処理すること。
改善された条件付きカバレッジが周辺保証を上回っているかどうかを経験的に評価するための検証手法を提供すること。

提案手法

分割コンフォーマル推論を用いて、元のデータ分布に依存しない有効な周辺カバレッジを持つ信頼集合を構築する。
スコア関数 $ s(x,y) $ の分位数回帰を適用し、$ q_\alpha(x) $ を推定することで、信頼集合 $ \{ y \mid s(x,y) \geq q_\alpha(x) \} $ を形成する。
マルチラベル問題における内側および外側の信頼集合 $ C_{\text{in}}(x) \subset Y \subset C_{\text{out}}(x) $ を導入し、$ \mathbb{P}(C_{\text{in}}(X) \subset Y \subset C_{\text{out}}(X)) \geq 1 - \alpha $ を満たす。
二段階の分位数回帰を用いて内側および外側の集合を直接フィッティングするか、ラベル依存性を符号化し計算コストを削減するための木構造型グラフィカルモデルを用いる。
複数の内側／外側集合の和集合を用いることで、精度を向上させつつカバレッジ保証を維持する。
再訓練なしに任意の事前学習済み分類器（ニューラルネットワーク、ランダムフォレスト、ブースティング木など）にこの手法を組み込む。

実験結果

リサーチクエスチョン

RQ1多クラスおよびマルチラベル問題において、分布の仮定なしに有効な周辺カバレッジを保証する信頼集合を構築できるか？
RQ2周辺カバレッジを上回る、漸近的に最適な条件付きカバレッジを達成できるか？
RQ3マルチラベル予測におけるラベル組み合わせの指数的増加を効率的に処理できるか？
RQ4実際の応用において、提案手法が周辺保証を上回るカバレッジを達成しているかどうかを検証できるか？
RQ5木構造型モデルは、マルチラベル設定においてカバレッジを維持しつつ、計算コストをどの程度低減できるか？

主な発見

提案手法は、標本サイズが増加するにつれて、やや弱い正則性条件のもとで漸近的に最適な条件付きカバレッジを達成する。
経験的評価では、標準的なコンフォーマル手法と比較して、データサブポピュレーション全体にわたるカバレッジの均一性が向上していることが示された。
複数の内側／外側集合の和集合を用いることで、信頼集合の平均サイズが最大4倍まで短縮された（$ m=2 $ の場合 $ 2^m $ に相当）。
全テストデータセット（マルチラベル分類のPascal-VOCを含む）において、有効な周辺カバレッジが維持された。
検証フレームワークは、条件付きカバレッジの向上を的確に検出でき、手法が周辺保証を上回ることを確認した。
木構造型モデルは、ラベル相関を効果的に捉え、マルチラベル予測における計算複雑性を低減する一方で、カバレッジを損なわない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。