Skip to main content
QUICK REVIEW

[논문 리뷰] LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril|arXiv (Cornell University)|2023. 02. 27.
Natural Language Processing Techniques인용 수 3,849
한 줄 요약

LLaMA는 7B에서 65B 파라미터의 공개 데이터로 학습된 기초 언어 모델을 제시하며, 더 큰 폐쇄형 모델과 경쟁력 있는 성능을 달성하고 보통의 하드웨어에서 추론이 가능하다.

ABSTRACT

We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets. In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla-70B and PaLM-540B. We release all our models to the research community.

연구 동기 및 목표

  • 공개 데이터만을 사용하여 LLM 연구에 대한 접근성을 민주화한다.
  • 특정 학습/추론 예산에서 더 작은 모델이 더 큰 모델을 능가할 수 있음을 시연한다.
  • 표준 벤치마크에서 13B–65B 모델의 경쟁력 있는 성능을 최고의 모델들과 비교하여 보인다.
  • 연구자들을 위한 학습/추론 효율성과 실용적 배포 고려사항을 강조한다.

제안 방법

  • 사전 정규화(pre-normalization), SwiGLU 활성화 및 RoPE 로터리 임베딩이 있는 트랜스포머 기반 아키텍처를 활용한다.
  • 약 1.0–1.4조 토큰에서 코사인 학습률 스케줄과 AdamW 옵티마이저로 7B, 13B, 33B, 65B 등 여러 모델 크기를 학습한다.
  • 메모리 효율적인 인과(attention) 구현과 체크포인팅을 사용하여 대형 GPU에서 학습 속도를 높인다.
  • 공개적으로 이용 가능한 데이터셋(CommonCrawl, C4, GitHub, Wikipedia, Books, ArXiv, Stack Exchange)을 혼합한 데이터로 사전학습하며, 중복 제거와 언어 필터링을 신중히 수행한다.
  • SentencePiece를 통한 BPE로 토크나이즈하고, 광범위한 커버리지를 위해 숫자 분할 및 UTF-8 대체를 포함한다.
Figure 1: Training loss over train tokens for the 7B, 13B, 33B, and 65 models. LLaMA-33B and LLaMA-65B were trained on 1.4T tokens. The smaller models were trained on 1.0T tokens. All models are trained with a batch size of 4M tokens.
Figure 1: Training loss over train tokens for the 7B, 13B, 33B, and 65 models. LLaMA-33B and LLaMA-65B were trained on 1.4T tokens. The smaller models were trained on 1.0T tokens. All models are trained with a batch size of 4M tokens.

실험 결과

연구 질문

  • RQ1공개적으로 수집된 공개 데이터로 7B–65B 규모의 다중 스케일에서 고품질의 기초 모델을 학습시킬 수 있는가?
  • RQ2다양한 추론 예산 하에서 작은 공개 모델이 표준 벤치마크에서 더 큰 독점 모델에 비해 어떻게 성능을 보이는가?
  • RQ3대형 언어 모델의 강력한 성능과 실용적 추론 효율성을 얻기 위한 어떤 아키텍처 및 학습 최적화가 있는가?
  • RQ4광범위한 맞춤 데이터 없이도 지시어 미세조정(instruction-finetuning)이 오픈 모델의 작업 성능을 얼마나 향상시킬 수 있는가?
  • RQ5공개 데이터로 학습된 개방형 기초 모델의 편향성, 독성 발현 및 탄소 발자국 영향은 무엇인가?

주요 결과

  • LLaMA-13B는 대부분의 벤치마크에서 175B의 GPT-3를 능가하지만 크기는 10배 작다.
  • LLaMA-65B는 여러 평가에서 최상위 모델들(Chinchilla-70B 및 PaLM-540B)과 경쟁력이 있다.
  • LLaMA-65B는 Natural Questions와 TriviaQA에서 제로/휼샷 설정에서 강한 성능을 보이며, 65B가 일부 작업에서 최신 연구 수준과 유사한 결과를 달성한다.
  • 코드 생성 능력(HumanEval, MBPP)은 코드-튜닝이 없는 여러 베이스라인보다 LLaMA가 우수하게 나타나며, 파라미터 수가 많아질수록 더 큰 이점을 보인다.
  • 지시어 미세조정(LLaMA-I)은 MMLU 성능을 향상시키며 65B에서 68.9%에 도달해, 같은 규모의 다른 지시어 미세조정 모델 중 일부를 능가한다.
  • 본 연구는 편향성 및 독성 패턴(RealToxicityPrompts, CrowS-Pairs, WinoGender)을 문서화하고 GPT-3 및 OPT와의 비교를 제공하며 크기 관련 경향과 영역별 편향을 언급한다.
  • 공통 데이터 센터 맥락에서 서로 다른 모델을 학습할 때의 탄소 발자국에 대한 상세한 분석을 제시하며, 상당한 에너지 사용과 향후 배출 감소를 위한 개방성 의도를 강조한다.
Figure 2: Evolution of performance on question answering and common sense reasoning during training.
Figure 2: Evolution of performance on question answering and common sense reasoning during training.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.