QUICK REVIEW

[논문 리뷰] Adaptive, Distribution-Free Prediction Intervals for Deep Networks

Danijel Kivaranovic, Kory D. Johnson|arXiv (Cornell University)|2019. 05. 25.

Machine Learning and Data Classification참고 문헌 28인용 수 25

한 줄 요약

이 논문은 수정된 분위수 회귀 손실을 사용하여 점 추정치와 예측 구간을 출력하는 새로운 신경망 프레임워크를 제안한다. 유한 표본 커버리지 보장을 갖는 두 가지 방법을 도입한다: 평균 커버리지 보장을 위한 콫라프탈 인퍼런스를 사용하는 방법과 조건부 커버리지 보장을 위한 새로운 확률적으로-근사적으로 타당한(PAV) 보장을 갖는 방법으로, 예측 정확도를 훼손하지 않는다.

ABSTRACT

The machine learning literature contains several constructions for prediction intervals that are intuitively reasonable but ultimately ad-hoc in that they do not come with provable performance guarantees. We present methods from the statistics literature that can be used efficiently with neural networks under minimal assumptions with guaranteed performance. We propose a neural network that outputs three values instead of a single point estimate and optimizes a loss function motivated by the standard quantile regression loss. We provide two prediction interval methods with finite sample coverage guarantees solely under the assumption that the observations are independent and identically distributed. The first method leverages the conformal inference framework and provides average coverage. The second method provides a new, stronger guarantee by conditioning on the observed data. Lastly, our loss function does not compromise the predictive accuracy of the network like other prediction interval methods. We demonstrate the ease of use of our procedures as well as its improvements over other methods on both simulated and real data. As most deep networks can easily be modified by our method to output predictions with valid prediction intervals, its use should become standard practice, much like reporting standard errors along with mean estimates.

연구 동기 및 목표

딥 네트워크에서의 불확실성 정량화 부족, 특히 예측 구간에 대해 해결이 필요하다.
증명 가능한 커버리지가 없거나 강한 분포 가정에 의존하거나 예측 정확도를 떨어뜨리는 기존 방법의 한계를 극복한다.
최소한의 가정으로 점 예측과 유효한 예측 구간을 동시에 출력하는 신경망 아키텍처를 개발한다.
모수적 가정이 없이 i.i.d. 표본 추출 조건 하에 유한 표본 커버리지 보장을 제공하며, 복잡한 최적화 과정이 필요하지 않다.
제안된 방법이 예측 정확도를 유지하면서도 최신 기법들에 비해 구간 캘리브레이션과 길이 측면에서 향상됨을 입증한다.

제안 방법

수정된 분위수 회귀 손실 함수를 사용하여 딥 네트워크를 훈련시켜 점 추정치와 두 개의 분위수(예: 0.1과 0.9)를 출력하도록 한다.
표본 분할을 적용: 한 부분의 데이터로 네트워크를 훈련시키고, 다른 부분으로 예측 구간을 校정한다.
신경망 전용의 적합도 점수를 사용한 콕라프탈 인퍼런스를 적용하여 평균 커버리지 보장을 확보한다.
관측된 데이터에 조건부로 작용하는 새로운 확률적으로-근사적으로 타당한(PAV) 커버리지 기준을 도입하여 더 강력한 유한 표본 타당성을 제공한다.
네트워크가 높은 예측 정확도를 유지하면서도 유효한 구간을 생성하도록 손실 함수를 최적화한다.
표본, 이미지, 시계열 데이터를 포함한 다양한 데이터셋에서 동일한 네트워크 아키텍처를 사용하여 일반화 능력을 입증한다.

실험 결과

연구 질문

RQ1최소한의 가정 하에 유한 표본 커버리지 보장을 갖는 예측 구간을 출력할 수 있도록 딥 네트워크를 수정할 수 있는가?
RQ2유효한 예측 구간을 생성하면서도 네트워크의 예측 정확도를 유지할 수 있는가?
RQ3관측된 데이터에 조건부로 작용함으로써 평균 커버리지보다 더 강력한 커버리지 보장을 달성할 수 있는가?
RQ4기존 기법들(예: 베이지안 신경망 또는 분위수 회귀 기준선)과 비교할 때 제안된 방법의 구간 길이와 커버리지 성능은 어떠한가?
RQ5이 방법이 표본, 이미지, 시계열 데이터 등 다양한 데이터 유형으로 일반화되는 정도는 어느 정도인가?

주요 결과

이론적으로 보장된 바와 같이, 제안된 conf-nn 및 pav 방법은 모든 데이터셋과 반복 실험에서 명목 수준(1−α)의 거의 정확한 평균 커버리지 성능을 달성한다.
pav 방법은 관측된 데이터에 조건부로 작용함으로써 더 강력한 커버리지 보장을 제공하지만, 약간 더 보수적인 구간을 생성한다.
조정되지 않은 분위수 회귀 기준선(qreg-un)은 충분한 커버리지를 확보하지 못하여 표본 분할을 통한 校정의 필요성을 확인한다.
베이지안 방법(bayes)은 Bike Share 및 교통 데이터셋에서 conf-nn 및 pav에 비해 상당히 긴 구간을 생성하며, 일부 경우에 두 배에서 삼 배 이상의 길이를 가진다.
conf-nn 및 pav는 모든 유효한 방법 중 평균 길이가 가장 짧으며, 과도하게 보수적인 high-q 및 neg-ll 등의 방법보다 뛰어난 성능을 보인다.
제안된 손실 함수는 예측 정확도를 훼손하지 않으며, MAE를 직접 최소화하는 conf-fw와 유사한 평균 절대 오차(MAE) 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.