Skip to main content
QUICK REVIEW

[논문 리뷰] Stable LM 2 1.6B Technical Report

Marco Bellagente, Jonathan Tow|arXiv (Cornell University)|2024. 02. 27.
Particle accelerators and beam dynamics인용 수 8
한 줄 요약

Stable LM 2 1.6B는 1.6B 매개변수를 가진 오픈 디코더 전용 언어 모델로, 투명한 다국어 데이터 혼합으로 학습되었으며 양자화 및 엣지 디바이스 처리량 기능과 함께 공개되었고, 미세 조정 및 평가 결과를 제공합니다.

ABSTRACT

We introduce StableLM 2 1.6B, the first in a new generation of our language model series. In this technical report, we present in detail the data and training procedure leading to the base and instruction-tuned versions of StableLM 2 1.6B. The weights for both models are available via Hugging Face for anyone to download and use. The report contains thorough evaluations of these models, including zero- and few-shot benchmarks, multilingual benchmarks, and the MT benchmark focusing on multi-turn dialogues. At the time of publishing this report, StableLM 2 1.6B was the state-of-the-art open model under 2B parameters by a significant margin. Given its appealing small size, we also provide throughput measurements on a number of edge devices. In addition, we open source several quantized checkpoints and provide their performance metrics compared to the original model.

연구 동기 및 목표

  • Stable LM 2 1.6B를 구축하는 데 사용된 데이터 수집 및 학습 절차를 설명한다.
  • 사전 학습 아키텍처, 토크나이저 및 최적화 구성에 대해 설명한다.
  • 대화 능력을 향상시키기 위해 사용된 미세 조정, 정렬 및 자기 지식 기술을 자세히 설명한다.
  • Few-shot, 다국어, 다회 대화 벤치마크에 걸친 종합 평가를 제시한다.
  • 추론, 양자화 옵션, 엣지 디바이스 처리량, 환경 영향에 대한 정보를 제공한다.

제안 방법

  • FlashAttention-2와 혼합 정밀도를 사용하여 4096 토큰 컨텍스트를 갖는 1.6B 디코더 전용 Transformer를 학습한다.
  • 도메인 및 언어에 대한 명시적 샘플링 가중치를 사용하는 약 2조 토큰의 다국어 데이터 혼합을 사용한다(표 1).
  • 워밍업, 코사인 및 rsqrt 감소, 그다음 선형 쿨다운이 포함된 다단계 학습률 스케줄을 적용한다.
  • Hugging Face Hub의 지시어 데이터셋에서 감독 미세 조정을 수행한 다음 Direct Preference Optimization과 자기 지식 학습 루프를 수행한다.
  • 다양한 추론 프레임워크용으로 Q4_0, Q4_1, Q5_K_M GGUF 및 INT4 형식의 양자화 체크포인트를 제공하고 공개한다.
Figure 1 : Percentage of effective training tokens by domain in the Stable LM 2 pre-training dataset.
Figure 1 : Percentage of effective training tokens by domain in the Stable LM 2 pre-training dataset.

실험 결과

연구 질문

  • RQ1동일 규모의 공개 모델과 비교했을 때 Stable LM 2 1.6B가 표준 few-shot 및 zero-shot 벤치마크에서 어떤 성능을 보이나요?
  • RQ2비영어 및 다국어 벤치마크에 대한 다국어 사전 학습 데이터의 영향은 무엇인가요?
  • RQ3SFT, DPO 및 자기지식 학습이 대화 품질 및 정렬에 어떤 영향을 미치나요?
  • RQ4엣지 배포를 위한 엣지 디바이스 처리량 및 양자화의 trade-off는 무엇인가요?
  • RQ5오픈-웨이트 모델 공개의 환경 영향 및 사회적 고려사항은 무엇인가요?

주요 결과

  • Stable LM 2 1.6B는 여러 영어 벤치마크에서 유사 규모의 다른 기본 모델보다 우수하고, 대화 상황에서 MT-Bench에서 더 큰 모델에 근접합니다.
  • 모델은 비영어 평가 설정에서 독일어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 네덜란드어에 걸쳐 강력한 다국어 역량을 보여줍니다.
  • 지시 응답 튜닝된 변형(stablelm-2-1_6b-dpo)은 Phi-1.5보다 개선되며 여러 지표에서 Phi-2와 우호적으로 비교됩니다.
  • 양자화 체크포인트(Q4_0, Q4_1, Q5_K_M GGUF, INT4)가 제공되어 엣지 디바이스 또는 프레이워크별 배포를 효율화합니다.
  • 처리량 측정은 엣지 디바이스에서 하위 정밀도를 사용할 때 상당한 이점을 보여주며, 다양한 프레임워크의 설명 그림이 제공됩니다.
  • 학습에 약 92,000 GPU-시간이 필요했고 추정 탄소 발자국은 11 tCO2eq입니다.
Figure 2 : Multi-stage infinite scheduler proposed and applied in this work.
Figure 2 : Multi-stage infinite scheduler proposed and applied in this work.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.