QUICK REVIEW

[논문 리뷰] DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial Estimation

Alexandre Ramé, Matthieu Cord|arXiv (Cornell University)|2021. 01. 14.

Adversarial Robustness in Machine Learning참고 문헌 134인용 수 23

한 줄 요약

DICE는 예측 정확도를 유지하면서 특징 표현 간 조건부 중복성을 최소화함으로써 딥 앙상블의 다양성을 향상시키는 혁신적인 훈련 프레임워크를 도입한다. 타겟 클래스 조건 하에서 구성원 간 특징 간 유사한 상관관계를 적대적으로 감소시킴으로써 최신 기술 수준의 정확도를 달성하며, CIFAR-100에서 7개의 네트워크로 구성된 앙상블의 성능을 오직 5개의 DICE 훈련 네트워크로도 재현한다.

ABSTRACT

Deep ensembles perform better than a single network thanks to the diversity among their members. Recent approaches regularize predictions to increase diversity; however, they also drastically decrease individual members' performances. In this paper, we argue that learning strategies for deep ensembles need to tackle the trade-off between ensemble diversity and individual accuracies. Motivated by arguments from information theory and leveraging recent advances in neural estimation of conditional mutual information, we introduce a novel training criterion called DICE: it increases diversity by reducing spurious correlations among features. The main idea is that features extracted from pairs of members should only share information useful for target class prediction without being conditionally redundant. Therefore, besides the classification loss with information bottleneck, we adversarially prevent features from being conditionally predictable from each other. We manage to reduce simultaneous errors while protecting class information. We obtain state-of-the-art accuracy results on CIFAR-10/100: for example, an ensemble of 5 networks trained with DICE matches an ensemble of 7 networks trained independently. We further analyze the consequences on calibration, uncertainty estimation, out-of-distribution detection and online co-distillation.

연구 동기 및 목표

딥 러닝에서 앙상블 다양성과 개별 모델 정확도 사이의 상충 관계를 해결한다.
기존 정규화 방법의 한계를 극복한다. 이러한 방법들은 다양성을 높이면서도 개별 성능을 떨어뜨린다.
예측 능력을 훼손하지 않으면서 특징 표현의 다양성을 증진하는 훈련 전략을 개발한다.
정보 이론과 조건부 상호정보의 신경망 추정을 활용하여 모델 훈련을 이끌어낸다.
통제된 특징 다양성을 통해 일반화 능력, 불확실성 추정, 분포 외 데이터 탐지 능력을 향상시킨다.

제안 방법

앙상블 구성원 간 특징 간 조건부 중복성을 최소화하는 새로운 훈련 목표인 DICE를 도입한다.
Donsker-Varadhan 표현을 통한 신경망 추정을 활용해 조건부 상호정보를 측정하고 중복 정보를 감소시킨다.
적대적 훈련을 적용하여 타겟 클래스 조건 하에서 서로 다른 앙상블 구성원의 특징이 조건부 독립이 되도록 한다.
표준 분류 손실과 조건부 중복성 최소화 손실을 조합하여 정확도와 다양성 간 균형을 이룬다.
타겟 레이블을 조건으로 삼아 상호정보 추정을 수행함으로써 임계 정보는 유지하면서 비의도적인 상관관계를 제거한다.
효율성을 위해 공유된 특징 추출을 갖는 VCEB(Variational Conditional Entropy Bottleneck) 프레임워크를 구현한다.

실험 결과

연구 질문

RQ1우리가 앙상블 구성원의 특징 간 조건부 중복성을 명시적으로 줄임으로써 딥 앙상블 성능을 향상시킬 수 있는가?
RQ2특징 간 유사한 상관관계를 최소화함으로써 일반화 능력은 향상되지만 개별 모델 정확도는 떨어지지 않는가?
RQ3정확도, 校정성, 불확실성 추정 측면에서 DICE는 기존 앙상블 방법과 비교해 어떻게 성능을 냈는가?
RQ4기존의 독립 훈련 대비 더 적은 수의 앙상블 구성원으로 DICE가 동일한 성능을 달성할 수 있는가?
RQ5조건부 중복성 감소는 분포 외 탐지 및 온라인 공동 정규화(co-distillation)에 어떤 영향을 미치는가?

주요 결과

DICE는 CIFAR-100에서 최신 기술 수준의 정확도를 달성하며, 5개의 네트워크로 구성된 앙상블이 독립적으로 훈련된 7개의 네트워크 앙상블 수준의 성능을 재현한다.
ResNet-32를 사용한 CIFAR-100에서 DICE는 5개의 브랜치로 77.51%의 top-1 정확도를 기록하며, 독립 훈련 및 CEB, IBR와 같은 이전 방법들을 초월한다.
모델은 校정성과 불확실성 추정 능력을 향상시키며, 단지 3개의 네트워크로도 CIFAR-10에서 95.01%의 top-1 정확도를 달성한다.
아블레이션 연구를 통해 DICE는 특징 간 유사한 상관관계를 제거함으로써 동시 오류를 줄임을 입증한다.
낮은 수준의 가중치 공유 조건에서도 높은 성능을 유지하며, 4개의 DICE 훈련 브랜치가 기존의 7개의 전통적 브랜치 수준의 정확도를 달성한다.
아블레이션 결과, 오른쪽 항목(RHS, 중복성 최소화 구성요소)을 제거하면 다소 높아진 다양성과 정확도를 보이며, 이는 손실 함수 내에서 그 역할이 핵심적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.