QUICK REVIEW

[논문 리뷰] Conformal prediction with localization

Leying Guan|arXiv (Cornell University)|2019. 08. 22.

Anomaly Detection Techniques and Applications참고 문헌 23인용 수 20

한 줄 요약

이 논문은 전통적인 순환 예측을 향상시키기 위해 각 테스트 포인트 주변의 국소적 이웃에 집중함으로써 유한 표본 유효 예측 구간을 생성하는 국소적 순환 예측을 소개한다. 테스트 입력에 가까운 훈련 샘플에 가중치를 부여함으로써 이 방법은 이질적인 오차 구조에서도 커버리지 정확도를 향상시키면서도, 가정 없는 유한 표본 커버리지 보장을 유지한다.

ABSTRACT

We propose a new method called localized conformal prediction, where we can perform conformal inference using only a local region around a new test sample to construct its confidence interval. Localized conformal inference is a natural extension to conformal inference. It generalizes the method of conformal prediction to the case where we can break the data exchangeability, so as to give the test sample a special role. To our knowledge, this is the first work that introduces such a localization to the framework of conformal prediction. We prove that our proposal can also have assumption-free and finite sample coverage guarantees, and we compare the behaviors of localized conformal prediction and conformal prediction in simulations.

연구 동기 및 목표

테스트 포인트와의 거리에 관계없이 모든 훈련 샘플을 동일하게 취급하는 표준 순환 예측의 한계를 해결한다.
예측 불확실성의 국소적 이질성을 더 잘 포착하기 위해 근처의 훈련 샘플에 더 큰 영향을 미치는 방법을 개발한다.
테스트 샘플이 추론에서 특별한 역할을 할 수 있도록 하면서도, 유한 표본, 가정 없는 커버리지 보장을 유지한다.
표준 순환 방법을 일반화하는 이론적으로 탄탄한 국소적 순환 예측 프레임워크를 제공한다.
시뮬레이션과 실제 사례를 통해 이종 분산 오차 구조를 더 잘 포착하는 데서 메서드의 우수성을 입증한다.

제안 방법

테스트 포인트 $ X_{n+1} $ 에 가까운 훈련 샘플 $ X_i $ 에 대해 높은 가중치를 할당하는 국소화 함수 $ H(X_i) $ 를 도입한다. 예를 들어 최근접 이웃 또는 거리 기반 커널을 사용한다.
가중치가 $ H(X_i) $ 비례하는 순환 점수 $ V_i $ 의 가중치를 부여한 경험적 분포를 구성함으로써 순환 예측 프레임워크를 수정하고, 테스트 샘플에는 $ \infty $ 를 포함시킨다.
예측 구간 $ \hat{C}(x) $ 는 테스트 샘플의 순환 점수 $ V(x,y) $ 가 가중 경험 분포의 $ \tilde{\alpha} $-분위수 이하일 때의 $ y $ 값의 집합으로 정의한다.
데이터에 의존하는 점수 함수일지라도 유한 표본 커버리지 확률 $ \geq \alpha $ 가 보장되도록 $ \tilde{\alpha} $ 를 전략적으로 선택한다.
커버리지와 구간 길이의 균형을 맞추는 기준을 최소화하는 데이터 기반 튜닝 절차를 사용하여 국소화 함수의 밴드폭 $ h $ 를 선택한다.
특징을 $ V_i $ 와의 상호정보량이 최대가 되는 방향으로 투영함으로써 고차원 설정에서 이 방법을 적용한다.

실험 결과

연구 질문

RQ1오차 분산이 입력 공간 전반에서 이질적인 경우에도 국소적 이질성에 적응하는 예측 구간을 유한 표본 커버리지 보장을 유지하면서 구성할 수 있는가?
RQ2어떻게 하면 유효한 순환 추론을 유지하면서 근처의 훈련 샘플에 더 큰 영향을 미칠 수 있는가?
RQ3교환 가능성 가정을 위반하지 않으면서도 국소적 가중치를 순환 예측에 사용하는 데 이론적 근거는 무엇인가?
RQ4이종 분산 오차 하에서 국소적 순환 예측은 표준 순환 예측에 비해 구간 길이와 커버리지 정확도 측면에서 어떻게 비교되는가?
RQ5이 방법은 데이터에 의존하는 점수 함수와 이론적 보장을 갖는 고차원 특징 공간으로 확장될 수 있는가?

주요 결과

국소적 순환 예측은 입력 공간 전반에서 오차 분산이 이질적인 경우에도 유한 표본 커버리지 확률 $ \geq \alpha $ 를 달성한다.
이종 분산 오차가 있는 시뮬레이션에서, 국소적 방법은 표준 순환 예측보다 진짜 조건부 예측 구간을 훨씬 더 정확하게 포착한다. 그림 1과 그림 4에서 이를 확인할 수 있다.
$ p = 3 $ 와 $ p = 500 $ 인 경우, 모든 방법(표준 및 국소적 순환 예측)이 명목 수준 $ \alpha = 0.95 $ 근처의 커버리지 수준을 유지했으며, 국소적 방법이 더 나은 구간 형태 유지도를 보였다.
최근접 이웃과 거리 기반 국소화 함수 모두 표준 순환 예측보다 진짜 이종 분산 구조를 더 잘 포착했다.
데이터 기반 밴드폭 선택 절차는 커버리지와 구간 길이의 균형을 효과적으로 맞추었으며, 실측 커버리지 부족률과 구간 크기의 곱을 최소화했다.
고차원 설정에서는 $ V_i $ 와 $ X_{i,j} $ 간의 상호정보량이 최대가 되는 특징 방향을 사용함으로써 성능이 크게 향상되었으며, 이는 방법의 차원 수에 대한 강건성을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.