Skip to main content
QUICK REVIEW

[논문 리뷰] Packed-Ensembles for Efficient Uncertainty Estimation

Olivier Laurent, Adrien Lafage|arXiv (Cornell University)|2022. 10. 17.
Anomaly Detection Techniques and Applications인용 수 10
한 줄 요약

이 논문은 깊이 학습 아키텍처인 Packed-Ensembles(PE)를 소개한다. PE는 그룹화된 컨볼루션을 사용하여 다수의 독립된 하위망을 단일 공유 백본에 압축함으로써 계산 비용을 효율적으로 줄이며, Deep Ensembles(DE) 수준의 높은 성능의 불확실성 추정을 달성한다. 이는 파라미터 수와 추론 시간을 줄이는 데 기여한다. PE는 최소한의 하드웨어 오버헤드로 정확도, 校정, 분포 외 탐지, 분포 이탈에 대한 강건성에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.

연구 동기 및 목표

  • 한정된 하드웨어 자원을 가진 실세계의 안전 중심 시스템에서 Deep Ensembles(DE)의 높은 계산 비용을 해결하기 위해.
  • DE의 예측 불확실성과 다양성 특성을 유지하면서 모델 크기와 추론 시간을 극적으로 줄이기 위해.
  • 기존 신경망 메모리 및 계산 제약 조건 내에서 작동하는 체계적이고 경량의 앙상블 아키텍처를 설계하기 위해.
  • Packed-Ensembles가 정확도, 校정, OOD 탐지, 분포 이탈에 대한 강건성에서 DE 성능을 따라하거나 초월할 수 있음을 입증하기 위해.

제안 방법

  • Packed-Ensembles는 그룹화된 컨볼루션을 사용해 단일 백본을 다수의 독립된 하위망으로 분할하며, 각 하위망은 공유되지 않은 가중치를 가진다.
  • 각 하위망은 공유 배치 데이터를 사용해 엔드 투 엔드로 훈련되며, 이는 병렬 추론과 파라미터 수 감소를 가능하게 한다.
  • 성능을 손상시키지 않고도 훈련과 추론 속도를 더욱 향상시키기 위해 혼합 정밀도 훈련을 활용한다.
  • 하위망은 전체적으로 앙상블 검증 정확도 기반으로 선택되어 최적의 집합적 성능을 보장한다.
  • 아키텍처는 그룹화된 컨볼루션을 사용한 체계적 희박성 패턴으로 수식화되며, 하이퍼파라미터 α(폭 확장), M(하위망 수), γ(그룹 수)를 포함한다.
  • 이 방법은 단일 순방향 전파로 모든 하위망의 예측을 계산할 수 있게 하여, 전체 앙상블의 비용의 일부분에 불과한 비용으로 앙상블를 모방한다.

실험 결과

연구 질문

  • RQ1단일 신경망 아키텍처가 훨씬 적은 파라미터 수와 더 짧은 추론 시간을 사용하면서도 Deep Ensembles 수준의 불확실성 추정 성능을 달성할 수 있는가?
  • RQ2그룹화된 컨볼루션을 사용해 독립된 하위망을 생성할 때, Deep Ensembles의 다양성과 예측 불확실성 특성이 유지되는가?
  • RQ3분포 이탈 상황과 분포 외 탐지에서 Packed-Ensembles는 DE 및 기타 효율적 기준 모델에 비해 어떻게 성능을 내는가?
  • RQ4Packed-Ensembles는 전체 DE보다 파라미터 수가 적은 상황에서도 여러 랜덤 시드에서 높은 안정성과 낮은 분산을 유지할 수 있는가?

주요 결과

  • Packed-Ensembles는 CIFAR-100에서 상태 최고 수준의 불확실성 정량화를 달성하며, 정확도(90.0%)와 校정(ECE 0.0087)에서 Deep Ensembles와 동일한 성능을 보이며, 파라미터 수는 단지 23.6M을 사용한다.
  • ImageNet-1k에서는 PE-(3,4,1)이 59.1M 파라미터와 9.29G Multiply-Adds를 사용하며, 효율성과 성능에서 ResNeXt-50(90.4% 정확도)와 MIMO(94.9% AUC)를 뛰어넘는 성능을 보인다.
  • 분포 이탈 상황(CIFAR-100-C)에서는 Packed-Ensembles가 가장 높은 정확도(중증도 5 시 85.2%)와 가장 낮은 ECE(0.021)를 유지하며, DE 및 ResNeXt-50를 모두 능가한다.
  • 회귀 과제에서는 Packed-Ensembles가 UCI 데이터셋 전반에서 Deep Ensembles와 거의 동일한 RMSE 및 NLL 값을 기록하며, RMSE 차이는 0.05 이내, NLL 차이 역시 0.05 이내다.
  • 예측의 분산은 Packed-Ensembles에서 매우 낮아서 0.19%로, 단일 DNN(0.68%) 및 Deep Ensembles(0.43%)보다 유의미하게 감소하였다. 이는 안정성이 향상되었음을 시사한다.
  • 실험 결과는 무작위 가중치 초기화와 확률적 최적화가 공유 배치를 사용하더라도 여전히 다양한 하위망을 생성하는 데 충분함을 확인하며, 이는 방법의 설계가 타당함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.