Skip to main content
QUICK REVIEW

[논문 리뷰] TinyLlama: An Open-Source Small Language Model

Peiyuan Zhang, Guangtao Zeng|arXiv (Cornell University)|2024. 01. 04.
Natural Language Processing Techniques인용 수 57
한 줄 요약

TinyLlama는 ~3조 토큰(≈3 에폭)으로 미리 학습된 컴팩트한 1.1B 디코더-전용 언어 모델로, Llama 2 아키텍처와 오픈 소스 속도 향상을 사용하여 비슷한 크기의 오픈 소스 모델들 중에서 강한 성능을 달성합니다.

ABSTRACT

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention and Lit-GPT), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.

연구 동기 및 목표

  • 매우 대규모 프리트레이닝 데이터로 작은 1.1B 모델이 강한 성능을 달성할 수 있는지 평가한다.
  • 오픈 소스 효율성을 활용하여 학습 속도와 메모리 사용량을 개선한다.
  • 유사 크기의 기존 오픈 소스 모델과 상식 및 추론 과제에서 TinyLlama를 비교한다.
  • 데이터, 코드, 체크포인트를 공개하여 개방성과 재현성을 보여준다.

제안 방법

  • Llama 2 스타일의 디코더 아키텍처 및 토크나이저를 사용한다.
  • SlimPajama 자연어 데이터와 Starcoderdata 코드 데이터의 혼합물로 프리트레이닝한다 (~950B 토큰).
  • 총 약 3조 토큰으로 약 3 에폭 동안 학습한다.
  • 속도/효율 최적화를 적용: Fully Sharded Data Parallel (FSDP), FlashAttention, xFormers 조정, 그리고 그룹화된 쿼리 어텐션.
  • RoPE 위치 임베딩과 SwiGLU 활성화를 갖는 RMSNorm를 사용한다.
  • 프리트레이닝은 AdamW, 코사인 lr 스케줄, 워밍업, 그리고 2,000 워밍업 스텝이 있는 자기회귀 LM 목적에 따르는 것이다.

실험 결과

연구 질문

  • RQ1비정상적으로 큰 데이터셋(~3T 토큰)으로 학습했을 때 1.1B 매개변수 모델이 경쟁력 있는 성능을 달성할 수 있는가?
  • RQ2오픈 소스 효율성 개선이 성능 저하 없이 더 빠른 학습과 더 적은 메모리 사용을 가능하게 하는가?
  • RQ3상식 추론 및 문제 해결 벤치마크에서 TinyLlama가 다른 1B 규모의 오픈 소스 모델과 어떻게 비교되는가?

주요 결과

  • TinyLlama는 제로샷 평가에서 여러 다운스트림 태스크에서 OPT-1.3B 및 Pythia-1.4B를 크게 능가한다.
  • 유사 규모의 오픈 소스 LM들 사이에서 상식 추론 벤치마크(HellaSwag, OpenBookQA, WinoGrande, ARC, BoolQ, PIQA 등)에서 경쟁력 있는 성능을 달성한다.
  • 약 3T 토큰으로 학습하고 효율 최적화를 적용하면 높은 처리량(≈24,000 토큰/초 per A100-40G)을 얻고, 비교 가능한 모델보다 더 적은 GPU-시간이 필요하다.
  • TinyLlama는 InstructEval 과제들(MMLU, BBH, HumanEval, DROP)에서 확인된 baselines보다 더 강한 문제 해결 능력을 보여준다.
  • 모델은 여전히 오픈 소스이며, 프리트레이닝 코드, 중간 체크포인트 및 데이터 처리 세부 정보가 공개된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.