[논문 리뷰] To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
논문은 token-crisis 하에서 반복적 pre-training 데이터(다중 에폭 학습)를 연구하여 다에폭 degradation을 보여주고, 그 원인을 식별하며 dropout 및 MoE 기반 하이퍼파라미터 튜닝을 통해 완화하는 방법을 제시한다.
Recent research has highlighted the importance of dataset size in scaling language models. However, large language models (LLMs) are notoriously token-hungry during pre-training, and high-quality text data on the web is approaching its scaling limit for LLMs. To further enhance LLMs, a straightforward approach is to repeat the pre-training data for additional epochs. In this study, we empirically investigate three key aspects under this approach. First, we explore the consequences of repeating pre-training data, revealing that the model is susceptible to overfitting, leading to multi-epoch degradation. Second, we examine the key factors contributing to multi-epoch degradation, finding that significant factors include dataset size, model parameters, and training objectives, while less influential factors consist of dataset quality and model FLOPs. Finally, we explore whether widely used regularization can alleviate multi-epoch degradation. Most regularization techniques do not yield significant improvements, except for dropout, which demonstrates remarkable effectiveness but requires careful tuning when scaling up the model size. Additionally, we discover that leveraging mixture-of-experts (MoE) enables cost-effective and efficient hyper-parameter tuning for computationally intensive dense LLMs with comparable trainable parameters, potentially impacting efficient LLM development on a broader scale.
연구 동기 및 목표
- token scarcity (token-crisis) 하에서 대형 언어모델의 스케일링 데이터 병목 현상을 다루어 연구의 동기를 제시한다.
- 반복적 pre-training 데이터가 모델 성능 및 다운스트림 작업에 미치는 영향을 실증적으로 정량화한다.
- 데이터, 모델, 학습 목표 요인이 다에폭 degradation을 촉진하는 원인을 규명한다.
- 드롭아웃, 혼합 전문가(MoE) 등을 포함한 정규화 및 아키텍처 전략을 통해 degradation을 완화하는 방법을 탐색한다.
- 더 큰 밀집 모델의 동작을 예측하기 위해 MoE를 활용한 비용 효율적 하이퍼파라미터 튜닝 접근법을 제안한다.]
- method2 السود
- method:["C4를 사용한 T5 인코더-디코더 구성으로 반복 데이터로 사전 학습을 재현하여 데이터-탐욕적 행동을 평가하고 C4에 대한 Chinchilla 스케일링 법칙을 검증한다.","데이터 세트 크기, 반복률, 총 컴퓨팅을 체계적으로 변화시켜 다에폭 degradation이 모델 규모(Base, Large, XL)에서 어떻게 나타나는지 관찰한다.","token-crisis 하에서 MLM vs UL2 학습 목표를 비교하여 degradation 및 다운스트림 작업에 미치는 영향을 평가한다.","정규화 기법(droput, dropPath, label-smoothing, weight decay)을 고찰 연구를 통해 효과적인 완화책을 식별한다.","MoE와 파라미터 공유(ParamShare)를 사용해 파라미터와 FLOPs를 비례적으로 분리하고 MoE가 더 큰 밀집형 모델의 동작 예측자로 작동하는지 테스트한다.","MoE를 이용한 드롭아웃 스윕으로 최적의 드롭아웃 비율을 식별하고 MoE 기반 하이퍼파라미터 튜닝이 컴퓨트 필요를 줄이는 방법을 시연한다."]
- research_questions:[
실험 결과
연구 질문
- RQ1token-crisis 하에서 반복적 pre-training 데이터를 사용할 때 LLM에 어떤 결과가 나타나는가?
- RQ2데이터, 모델, 학습 목표 중 어느 요인이 다에폭 degrade을 촉진하는가?
- RQ3정규화 기술이 다에폭 degradation을 완화할 수 있는가? 가장 효과적인 방법은 무엇인가?
- RQ4MoE 아키텍처와 하이퍼파라미터 튜닝이 대규모 밀집 모델의 튜닝 비용을 신뢰성 있게 예측하고 대체할 수 있는가?
- RQ5다른 학습 목표(MLM vs UL2)가 토큰-크라이시스 하에서 degradation과 다운스트림 성능에 어떤 영향을 미치는가?
주요 결과
- 다에폭 degradation은 반복 토큰으로 학습할 때 발생하며, 큰 모델일수록 토큰-크라이시스 하에서 과적합에 더 민감하다.
- 데이터세트 크기를 증가시키면 degradation 완화에 도움이 되지만, 데이터 품질만으로는 완전히 완화되지 않는다; 모델 파라미터가 degradation에 영향을 주고 FLOPs의 영향은 제한적이다.
- Mixture-of-Experts (MoE)는 더 큰 밀집형 모델의 행동을 더 낮은 FLOPs로 시뮬레이션할 수 있으며, 비용 효율적인 하이퍼파라미터 튜닝을 가능하게 한다; 드롭아웃을 통한 정규화가 특히 효과적이며, 다른 트릭은 한계가 있거나 부정적 효과를 보인다.
- 드롭아웃은 모델 규모에 걸쳐 안정성을 크게 향상시킬 수 있지만 XL 규모 모델은 여전히 조심스러운 튜닝이 필요하며, 단계적/부분적 드롭아웃은 초기 단계의 충격을 줄이며 성능과 유사하게 맞출 수 있다.
- UL2 목표는 학습 속도를 높이지만 토큰-크라이시스 하에서 일반 MLM보다 더 강한 다에폭 degradation을 보일 수 있으며, 다양한 목표가 degradation을 보편적으로 완화하지는 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.