QUICK REVIEW

[논문 리뷰] Knowing what you know: valid and validated confidence sets in multiclass and multilabel prediction

Maxime Cauchois, Suyash Gupta|arXiv (Cornell University)|2020. 04. 21.

Machine Learning and Data Classification참고 문헌 38인용 수 18

한 줄 요약

이 논문은 모델 점수에 대한 분위수 회귀를 활용하여 유효한 경계 커버리지(마진 커버리지)를 보장하면서 渐진적으로 최적의 조건부 커버리지에 도달하는 다중분류 및 다중라벨 분류를 위한 콫라프탈 예측 프레임워크를 제안한다. 고차원 레이블 공간을 다루기 위해 효율적인 트리 구조 분류기를 도입하고, 어떤 블랙박스 모델과도 호환되는 플러그 앤 플레이 방식을 제공하여 분포 가정 없이도 커버리지 균일성을 크게 향상시킨다.

ABSTRACT

We develop conformal prediction methods for constructing valid predictive confidence sets in multiclass and multilabel problems without assumptions on the data generating distribution. A challenge here is that typical conformal prediction methods---which give marginal validity (coverage) guarantees---provide uneven coverage, in that they address easy examples at the expense of essentially ignoring difficult examples. By leveraging ideas from quantile regression, we build methods that always guarantee correct coverage but additionally provide (asymptotically optimal) conditional coverage for both multiclass and multilabel prediction problems. To address the potential challenge of exponentially large confidence sets in multilabel prediction, we build tree-structured classifiers that efficiently account for interactions between labels. Our methods can be bolted on top of any classification model---neural network, random forest, boosted tree---to guarantee its validity. We also provide an empirical evaluation, simultaneously providing new validation methods, that suggests the more robust coverage of our confidence sets.

연구 동기 및 목표

특정 데이터 생성 분포를 가정하지 않고 다중분류 및 다중라벨 예측에서 유효한 신뢰집합을 구성하는 방법을 개발하기 위해.
표준 콕라프탈 예측의 한계를 해결하기 위해, 쉬운 예측보다 어려운 예측에 더 많은 커버리지가 가해지는 불균형한 커버리지 문제를 해결하기 위해.
모델 점수에 특성 적응형 분위수 함수를 피팅하여 渐진적으로 최적의 조건부 커버리지를 달성하기 위해.
레이블 간 상관관계를 포착하고 계산 비용을 줄이기 위해 다중라벨 예측의 지수적 복잡도를 트리 구조 그래픽 모델을 활용해 효율적으로 다루기 위해.
개선된 조건부 커버리지가 마진 보장 이상으로 달성되었는지 실증적으로 평가할 수 있는 검증 방법론을 제공하기 위해.

제안 방법

기본 데이터 분포에 관계없이 보장되는 마진 커버리지를 확보하기 위해 분할 콕라프탈 추론을 사용한다.
모델 점수 $ s(x,y) $ 에 대해 분위수 회귀를 적용하여 $ q_\alpha(x) $ 를 추정하고, $ \{ y \mid s(x,y) \geq q_\alpha(x) \} $ 형태의 신뢰집합을 구성한다.
다중라벨 문제를 위해 내부 및 외부 신뢰집합 $ C_{\text{in}}(x) \subset Y \subset C_{\text{out}}(x) $ 을 도입하여 $ \mathbb{P}(C_{\text{in}}(X) \subset Y \subset C_{\text{out}}(X)) \geq 1 - \alpha $ 를 확보한다.
내부 및 외부 집합을 직접 피팅하기 위해 이단계 분위수 회귀를 사용하거나, 레이블 간 의존성을 인코딩하고 계산 비용을 줄이기 위해 트리 구조 그래픽 모델을 활용한다.
복수의 내부/외부 집합의 합집합을 활용해 정밀도를 향상시키면서도 커버리지 보장을 유지한다.
재학습 없이도 신경망, 랜덤 포레스트, 부스팅 트리 등 어떤 사전 학습된 분류기와도 결합 가능하다.

실험 결과

연구 질문

RQ1다중분류 및 다중라벨 문제에서 분포 가정 없이 유효한 마진 커버리지를 보장하는 신뢰집합을 구성할 수 있는가?
RQ2마진 커버리지 이상으로 渐진적으로 최적의 조건부 커버리지를 달성할 수 있는가?
RQ3다중라벨 예측에서 레이블 조합의 지수적 증가를 효율적으로 다룰 수 있는가?
RQ4실제로 제안된 방법이 마진 보장 이상의 커버리지 향상을 달성했는지 검증할 수 있는가?
RQ5트리 구조 모델이 다중라벨 설정에서 커버리지를 유지하면서 계산 비용을 얼마나 줄일 수 있는가?

주요 결과

표본 크기가 증가함에 따라 온건한 정규성 조건 하에서 제안된 방법은 渐진적으로 최적의 조건부 커버리지를 달성한다.
실증 평가 결과, 표준 콕라프탈 방법에 비해 데이터 하위집단 간 커버리지 균일성이 향상됨을 확인하였다.
복수의 내부/외부 집합의 합집합을 사용함으로써 평균적으로 신뢰집합 크기를 최대 4배(즉, $ 2^m $, $ m=2 $ 일 때) 감소시켰지만 커버리지 유지됨.
모든 테스트 데이터셋(다중라벨 분류에 대한 Pascal-VOC 포함)에서 유효한 마진 커버리지 유지됨.
검증 프레임워크는 조건부 커버리지 향상 여부를 성공적으로 탐지하여, 제안된 방법이 마진 보장 이상의 성능을 달성함을 확인함.
트리 구조 모델은 레이블 간 상관관계를 효과적으로 포착하고 다중라벨 예측에서 계산 복잡도를 감소시키며 커버리지 손실 없이 성능 유지를 달성함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.