QUICK REVIEW

[논문 리뷰] LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril|arXiv (Cornell University)|2023. 02. 27.

Natural Language Processing Techniques인용 수 3,849

한 줄 요약

LLaMA는 7B에서 65B 파라미터의 공개 데이터로 학습된 기초 언어 모델을 제시하며, 더 큰 폐쇄형 모델과 경쟁력 있는 성능을 달성하고 보통의 하드웨어에서 추론이 가능하다.

ABSTRACT

We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, without resorting to proprietary and inaccessible datasets. In particular, LLaMA-13B outperforms GPT-3 (175B) on most benchmarks, and LLaMA-65B is competitive with the best models, Chinchilla-70B and PaLM-540B. We release all our models to the research community.

연구 동기 및 목표

공개 데이터만을 사용하여 LLM 연구에 대한 접근성을 민주화한다.
특정 학습/추론 예산에서 더 작은 모델이 더 큰 모델을 능가할 수 있음을 시연한다.
표준 벤치마크에서 13B–65B 모델의 경쟁력 있는 성능을 최고의 모델들과 비교하여 보인다.
연구자들을 위한 학습/추론 효율성과 실용적 배포 고려사항을 강조한다.

제안 방법

사전 정규화(pre-normalization), SwiGLU 활성화 및 RoPE 로터리 임베딩이 있는 트랜스포머 기반 아키텍처를 활용한다.
약 1.0–1.4조 토큰에서 코사인 학습률 스케줄과 AdamW 옵티마이저로 7B, 13B, 33B, 65B 등 여러 모델 크기를 학습한다.
메모리 효율적인 인과(attention) 구현과 체크포인팅을 사용하여 대형 GPU에서 학습 속도를 높인다.
공개적으로 이용 가능한 데이터셋(CommonCrawl, C4, GitHub, Wikipedia, Books, ArXiv, Stack Exchange)을 혼합한 데이터로 사전학습하며, 중복 제거와 언어 필터링을 신중히 수행한다.
SentencePiece를 통한 BPE로 토크나이즈하고, 광범위한 커버리지를 위해 숫자 분할 및 UTF-8 대체를 포함한다.

Figure 1: Training loss over train tokens for the 7B, 13B, 33B, and 65 models. LLaMA-33B and LLaMA-65B were trained on 1.4T tokens. The smaller models were trained on 1.0T tokens. All models are trained with a batch size of 4M tokens.

실험 결과

연구 질문

RQ1공개적으로 수집된 공개 데이터로 7B–65B 규모의 다중 스케일에서 고품질의 기초 모델을 학습시킬 수 있는가?
RQ2다양한 추론 예산 하에서 작은 공개 모델이 표준 벤치마크에서 더 큰 독점 모델에 비해 어떻게 성능을 보이는가?
RQ3대형 언어 모델의 강력한 성능과 실용적 추론 효율성을 얻기 위한 어떤 아키텍처 및 학습 최적화가 있는가?
RQ4광범위한 맞춤 데이터 없이도 지시어 미세조정(instruction-finetuning)이 오픈 모델의 작업 성능을 얼마나 향상시킬 수 있는가?
RQ5공개 데이터로 학습된 개방형 기초 모델의 편향성, 독성 발현 및 탄소 발자국 영향은 무엇인가?

주요 결과

LLaMA-13B는 대부분의 벤치마크에서 175B의 GPT-3를 능가하지만 크기는 10배 작다.
LLaMA-65B는 여러 평가에서 최상위 모델들(Chinchilla-70B 및 PaLM-540B)과 경쟁력이 있다.
LLaMA-65B는 Natural Questions와 TriviaQA에서 제로/휼샷 설정에서 강한 성능을 보이며, 65B가 일부 작업에서 최신 연구 수준과 유사한 결과를 달성한다.
코드 생성 능력(HumanEval, MBPP)은 코드-튜닝이 없는 여러 베이스라인보다 LLaMA가 우수하게 나타나며, 파라미터 수가 많아질수록 더 큰 이점을 보인다.
지시어 미세조정(LLaMA-I)은 MMLU 성능을 향상시키며 65B에서 68.9%에 도달해, 같은 규모의 다른 지시어 미세조정 모델 중 일부를 능가한다.
본 연구는 편향성 및 독성 패턴(RealToxicityPrompts, CrowS-Pairs, WinoGender)을 문서화하고 GPT-3 및 OPT와의 비교를 제공하며 크기 관련 경향과 영역별 편향을 언급한다.
공통 데이터 센터 맥락에서 서로 다른 모델을 학습할 때의 탄소 발자국에 대한 상세한 분석을 제시하며, 상당한 에너지 사용과 향후 배출 감소를 위한 개방성 의도를 강조한다.

Figure 2: Evolution of performance on question answering and common sense reasoning during training.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.