QUICK REVIEW

[논문 리뷰] Practical Deep Heteroskedastic Regression

Mikkel Jordahn, Jonas Vestergaard Jensen|arXiv (Cornell University)|2026. 03. 02.

Advanced Graph Neural Networks인용 수 0

한 줄 요약

이 논문은 깊은 이분산 회귀에서 불확실성 보정을 위해 홀드아웃 데이터 세트로 학습된 후향-적 선형 분산 헤드를 제안하고, 중간 잠재 표현을 사용하여 평균 정확도를 유지하면서 경쟁적이거나 우수한 불확실성 정량화를 달성하며 QM9와 OMol25 데이터셋에서 시연한다.

ABSTRACT

Uncertainty quantification (UQ) in deep learning regression is of wide interest, as it supports critical applications including sequential decision making and risk-sensitive tasks. In heteroskedastic regression, where the uncertainty of the target depends on the input, a common approach is to train a neural network that parameterizes the mean and the variance of the predictive distribution. Still, training deep heteroskedastic regression models poses practical challenges in the trade-off between uncertainty quantification and mean prediction, such as optimization difficulties, representation collapse, and variance overfitting. In this work we identify previously undiscussed fallacies and propose a simple and efficient procedure that addresses these challenges jointly by post-hoc fitting a variance model across the intermediate layers of a pretrained network on a hold-out dataset. We demonstrate that our method achieves on-par or state-of-the-art uncertainty quantification on several molecular graph datasets, without compromising mean prediction accuracy and remaining cheap to use at prediction time.

연구 동기 및 목표

깊은 이분산 회귀 모델 학습의 핵심 과제를 식별한다.
홀드아웃 데이터에 적합된 실용적인 후향 분산 헤드를 제안한다.
중간 잠재 표현을 사용하여 분산을 예측하고 앙상블을 가능하게 한다.
분자 데이터셋에서 평균 예측 품질을 유지하면서 불확실성 정량화를 개선하는 데모를 제시한다.

제안 방법

평균 예측기를 보통처럼 학습하고 그 파라미터를 고정한다.
zl은 중간 잠재 표현을 입력으로 받는 선형 분산 헤드를 부착한다.
σ^2ϕ(x*)를 선택된 잠재 층의 선형 프로젝션 합으로 계산한다: σ^2ϕ(x*) = sp Σl∈Lσ Wl^T zl(x*).
편향된 음의 로그 가능도 손실로 홀드아웃 데이터에서 분산 헤드를 맞춘다, 평균 학습과 분리되어 있다.
선택적으로 여러 잠재 표현별 추정기로 평균화하여 가우시안 혼합을 형성한다: p(y*|x*) = (1/|Lσ|) Σl∈Lσ N(y*|μθ(x*), σl(x*)^2).
개별 표현에서 학습된 분산 추정기를 앙상블하여 보정 및 강건성을 향상시킨다.

실험 결과

연구 질문

RQ1후향식으로 홀드아웃 보정된 분산 헤드가 엔드-투-엔드 평균-분산 학습과 비교해 경쟁적이거나 우수한 불확실성 추정치를 제공할 수 있는가?
RQ2 중간 잠재 표현을 사용하는 것이 마지막 잠재 표현만 사용하는 것보다 분산 예측에 일반적으로 더 효과적인가?
RQ3표현의 선택과 앙상블이 보정 지표와 분자 특성 작업에서의 NLL에 어떤 영향을 미치는가?
RQ4방법이 큰 사전 학습 모델과 데이터 세트에 대해 평균 정확도나 예측 속도에 영향을 주지 않으면서 확장 가능한가?

주요 결과

후향 분산 앙상블은 종종 엔드-투-엔드 평균-분산 모델과 비교해 NLL에서 더 나은 성능을 내면서 평균 MAE 성능을 유지한다.
분산 예측에 앞선 잠재 표현을 사용하는 것이 일반적으로 더 효과적이며, 표현 간의 앙상블이 최상의 결과를 낳는다.
추가 초매개변수 없이 홀드아웃 데이터로 보정을 활용하여 예측 시점 오버헤드가 최소인 방식으로 방법이 실용적이다.
QM9에서 대규모 OMol25 사전학습 모델로 일반화되어 보정된 불확실성 추정치를 달성하고 베이스라인 대비 NLL이 크게 개선된다.
후향형 앙상블의 보정 곡선은 오라클 기대치와 일치하여 활발한 학습(active learning)이나 베이지안 최적화에서 신뢰할 수 있는 불확실성 순위를 나타낸다.
분산 예측기(가우시안 혼합)를 앙상블하면 이상치와 작은 홀드아웃 세트에 대한 강건성이 향상되며, 보정(ECE)과 샤프니스 간의 트레이드오프가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.