QUICK REVIEW

[논문 리뷰] Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Zhuohan Li, Eric Wallace|arXiv (Cornell University)|2020. 02. 26.

Topic Modeling참고 문헌 65인용 수 51

한 줄 요약

본 논문은 매우 큰 Transformer 모델을 학습시키고 조기에 중단하는 방식이 수렴까지 작은 모델을 학습시키는 것보다 계산 효율적일 수 있으며, 이러한 대형 모델이 더 잘 압축될 수 있어 양자화/가지치기 후에 비슷한 추론 비용으로도 정확도를 더 높일 수 있음을 보여준다.

ABSTRACT

Since hardware resources are limited, the objective of training deep learning models is typically to maximize accuracy subject to the time and memory constraints of training and inference. We study the impact of model size in this setting, focusing on Transformer models for NLP tasks that are limited by compute: self-supervised pretraining and high-resource machine translation. We first show that even though smaller Transformer models execute faster per iteration, wider and deeper models converge in significantly fewer steps. Moreover, this acceleration in convergence typically outpaces the additional computational overhead of using larger models. Therefore, the most compute-efficient training strategy is to counterintuitively train extremely large models but stop after a small number of iterations. This leads to an apparent trade-off between the training efficiency of large Transformer models and the inference efficiency of small Transformer models. However, we show that large models are more robust to compression techniques such as quantization and pruning than small models. Consequently, one can get the best of both worlds: heavily compressed, large models achieve higher accuracy than lightly compressed, small models.

연구 동기 및 목표

고정된 하드웨어 및 시간 제약 하에서 Transformer 모델 크기가 계산 효율성에 미치는 영향을 조사한다.
짧은 시간 동안 학습된 더 큰 모델이 수렴까지 학습된 더 작은 모델을 다운스트림 작업에서 능가하는지 평가한다.
양자화와 가지치기와 같은 압축 기술에 대한 대형 모델의 강인성을 검토한다.
학습 속도와 추론 효율성 간의 더 나은 트레이드오프를 제공하는 시점과 이유를 분석한다.

제안 방법

RoBERTa 스타일 MLM 사전 학습 및 WMT14 En→Fr 번역에 대해 Transformer 너비와 깊이를 체계적으로 변화시킨다.
모델 크기에 따라 실제 경과 시간(wall-clock time)과 수렴까지의 그래디언트 스텝 수를 측정한다.
미세조정된 대형 모델에 후처리 압축(양자화 및 가지치기)을 적용하고 메모리 대비 정확도를 평가한다.
가중치를 다양한 비트폭으로 양자화하고 서로 다른 희소도에서 가지치기를 반복하여 다운스트림 작업에 미치는 영향을 평가한다.
모델 크기 간 압축 영향력을 비교하여 대형 모델의 강건성을 판단한다.

실험 결과

연구 질문

RQ1MLM 사전 학습 및 MT 작업에서 Transformer 크기를 키우면 벽시계 시간과 그래디언트 스텝 측면에서 수렴 속도가 빨라지는가?
RQ2다운스트림 작업에 대해 미세 조정된 더 큰 모델이 더 작은 모델보다 양자화 및 가지치기를 통해 더 압축하기 쉬운가?
RQ3제한된 추론 예산에서 더 큰 모델의 추가 압축과 정확도 간의 트레이드오프는 어떤가?
RQ4데이터셋 크기 및 잠재적 과적합이 대형 모델과 소형 모델의 이점에 어떤 영향을 미치는가?
RQ5왜 더 큰 모델은 더 좋은 압축성을 보이고 이를 실제로 어떻게 활용할 수 있는가?

주요 결과

더 큰 모델은 검증 오차를 더 낮은 상태로 더 적은 그래디언트 업데이트로 수렴하고, 오버헤드를 고려한 실제 시간 면에서도 더 빠르다.
MLM 및 MT의 경우, 더 큰 모델이 벽시계 시간당 더 빠르게 수렴하며, 그 이점은 더 큰 크기의 오버헤드를 상회한다.
더 큰 모델은 양자화와 가지치기 모두에 대해 소형 모델보다 더 강건하며, 압축 후 비슷한 메모리 예산에서 더 높은 정확도를 달성한다.
대형 모델에 가지치기와 양자화를 결합하면 무역오차 최적의 정확도-효율성 트레이드오프를 얻을 수 있으며, 특히 중간 희소도 근처에서 가지치기를 한 후 저비트 양자화를 적용할 때 강점이 있다.
최적의 모델 크기는 데이터셋 크기에 연관되며, 과적합이 덜 우려되는 큰 데이터 설정에서 대형 모델이 잘 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.