QUICK REVIEW

[논문 리뷰] When Ensembling Smaller Models is More Efficient than Single Large Models

Dan Kondratyuk, Mingxing Tan|arXiv (Cornell University)|2020. 05. 01.

Domain Adaptation and Few-Shot Learning참고 문헌 11인용 수 24

한 줄 요약

이 논문은 더 작은 동일한 모델을 앙상블하는 것이 단일 큰 모델을 훈련시키는 것보다 더 높은 정확도를 달성하면서도 더 적은 FLOPs를 사용할 수 있음을 보여주며, 기존의 더 큰 모델이 항상 앙상블보다 우월하다는 믿음을 도전한다. 핵심 발견은 모델 크기가 커질수록 출력 다양성이 향상되고 과적합이 감소함에 따라 앙상블이 정확도-속도 트레이드오프 측면에서 더 효율적이라는 것이다.

ABSTRACT

Ensembling is a simple and popular technique for boosting evaluation performance by training multiple models (e.g., with different initializations) and aggregating their predictions. This approach is commonly reserved for the largest models, as it is commonly held that increasing the model size provides a more substantial reduction in error than ensembling smaller models. However, we show results from experiments on CIFAR-10 and ImageNet that ensembles can outperform single models with both higher accuracy and requiring fewer total FLOPs to compute, even when those individual models' weights and hyperparameters are highly optimized. Furthermore, this gap in improvement widens as models become large. This presents an interesting observation that output diversity in ensembling can often be more efficient than training larger models, especially when the models approach the size of what their dataset can foster. Instead of using the common practice of tuning a single large model, one can use ensembles as a more flexible trade-off between a model's inference speed and accuracy. This also potentially eases hardware design, e.g., an easier way to parallelize the model across multiple workers for real-time or distributed inference.

연구 동기 및 목표

더 큰 단일 모델이 항상 앙상블보다 정확도와 효율성에서 승리한다는 가정을 도전하기 위해.
더 작은 모델을 앙상블하면 정확도와 FLOP 효율성 측면에서 단일 큰 모델을 초월할 수 있는지 조사하기 위해.
모델 스케일링의 더 유연하고 하드웨어 우수한 대안으로 앙상블의 잠재력을 탐색하기 위해.
앙상블 내 아키텍처의 다양성이 동일한 모델 앙상블을 초월해 성능을 향상시킬 수 있는지 평가하기 위해.

제안 방법

서로 다른 무작위 초기화를 사용하여 동일한 모델 아키텍처(서브셋에선 CIFAR-10에서의 와이드 리스넷, ImageNet에서의 이피시언넷)를 여러 개 훈련시었다.
n개의 모델에 대해 요소별 곱셈과 루트 추출을 통해 기하 평균을 사용해 예측을 평균화하여 앙상블을 구성하였다: $\mu = (y_1 y_2 \dots y_n)^{1/n}$.
다양한 모델 크기에서 단일 모델과 앙상블의 정상도와 총 FLOPs를 기준으로 성능을 측정하였다.
신경망 아키텍처 탐색(NAS)을 사용하여 앙성 내에서 다양한 아키텍처를 탐색하였으며, 병렬 추론을 가능하게 하기 위해 최대 지연 시간을 제약 조건으로 삼았다.
정확도를 우선시하면서도 앙상블 내 가장 느린 모델의 지연 시간을 제약 조건으로 삼아 NAS 보상 함수를 최적화하였다.
완전 수렴 전에 10 에포크 동안 탐색된 모델을 훈련 및 평가하여 고정된 지연 시간 제약 조건 하에서 성능를 비교하였다.

실험 결과

연구 질문

RQ1더 작은 모델의 앙상블이 더 큰 단일 모델보다 정확도는 높고 FLOPs는 더 적게 요구할 수 있는가?
RQ2모델 크기가 커질수록 앙상블과 단일 모델 간의 성능 격차가 커지는가?
RQ3앙상블 내 아키텍처의 다양성이 동일한 모델 앙상블을 초월해 성능 향상에 기여하는가?
RQ4지연 시간 제약 조건이 있는 실세계 배포 환경에서 앙상블은 모델 스케일링의 더 효율적이고 확장 가능한 대안인가?

주요 결과

CIFAR-10과 ImageNet 양쪽 모두에서 더 작은 모델의 앙상블이 총 FLOPs가 더 적은 단일 큰 모델보다 더 높은 정상도를 달성했다.
모델 크기가 커질수록 앙상블과 단일 모델 간의 성능 격차가 커졌으며, 이는 스케일이 증가할수록 앙상블이 더 효율적임을 시사한다.
CIFAR-10에서 폭이 k=1,2,4,8인 와이드 리스넷 앙상블은 동일하거나 더 큰 FLOP 수치를 가진 단일 모델을 일관되게 능가했다.
ImageNet에서는 최대 3개의 이피시언넷 앙상블이 동일한 최대 지연 시간을 가진 단일 모델의 정확도를 맞추거나 초월했다.
다양한 아키텍처를 탐색하기 위해 광범위한 NAS를 수행했음에도 불구하고, 동일한 모델로 구성된 앙상블이 같은 지연 시간 제약 조건 하에서 다양한 아키텍처를 가진 앙상블보다 항상 뛰어난 성능을 보였다.
가장 높은 성능을 보인 앙상블은 가장 정확도가 높은 단일 모델 아키텍처를 복제함으로써 달성되었으며, 이는 이 설정에서는 모델 정확도가 아키텍처 다양성보다 더 중요한 요소임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.