[논문 리뷰] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
논문은 모든 매개변수가 {-1, 0, 1}인 1.58비트 LLM인 BitNet b1.58을 소개한다. 비슷한 크기에서 FP16/LLaMA 성능과 일치하면서도 속도, 메모리 및 에너지 측면에서 큰 이점을 제공하여 새로운 확장 법칙과 1비트 LLM에 대한 잠재적 하드웨어 최적화를 가능하게 한다.
Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.
연구 동기 및 목표
- 성능을 희생하지 않으면서 LLM의 추론 비용과 에너지를 감소시키는 것을 동기화한다.
- 제로 상태를 포함하는 1.58비트 가중치 양자화 체계를 제안하여 모델링 능력을 향상시킨다.
- BitNet b1.58가 3B 크기부터 perplexity 및 엔드태스크 지표 전반에서 풀-정밀도 기준선과 일치할 수 있음을 보여준다.
- 하드웨어 및 에너지 영향력을 보여주고 더 큰 모델 및 엣지 디바이스로의 확장 가능성을 논의한다.
제안 방법
- BitNet b1.58을 도입한다. 선형 계층이 BitLinear로 대체되고 가중치가 {-1, 0, 1}로 양자화되는 Transformer이다.
- 가중치를 제약하기 위해 absmean 양자화를 사용하고, 감마를 평균 절대 가중치 값으로 정의한다.
- 편향 없이 RMSNorm, SwiGLU, 로터리 임베딩 등 LLaMA와 유사한 아키텍처 구성요소를 채택한다.
- RedPajama 데이터로 1.58비트 가중치와 8비트 활성화를 사용해 처음부터 학습한다.
- 모델 크기(700M–3.9B) 전반에 걸쳐 FP16 LLaMA 기준선과 비교하여 perplexity 및 제로샷 엔드 태스크 성능을 평가한다.
- FasterTransformer 및 2비트/Ladder 커널을 사용해 메모리, 대기 시간, 처리량 및 추정 에너지를 측정하고, 확장성 및 에너지 절감을 분석한다.
실험 결과
연구 질문
- RQ1동일한 모델 크기와 학습 설정에서 1.58비트 LLM이 perplexity와 엔드 태스크에서 풀-정밀도 LLM의 성능과 일치할 수 있는가?
- RQ2모델 크기가 커질 때 1.58비트 LLM의 메모리, 대기 시간 및 에너지 영향은 무엇인가?
- RQ3크기에 따라 비용과 정확도 측면에서 FP16 기준선에 비해 1.58비트 LLM이 파레토 개선을 보이는가?
- RQ42T 토큰으로의 학습이 BitNet b1.58를 표준 벤치마크에서 일반화 능력을 유지하거나 개선하도록 확장할 수 있는가?
주요 결과
- BitNet b1.58은 동일 구성에서 3B 사이즈부터 perplexity에서 FP16 LLaMA 기준선과 일치한다.
- BitNet b1.58은 3B에서 FP16 LLaMA에 비해 2.71배 더 빠르고 GPU 메모리 사용은 3.55배 더 적다.
- 3.9B에서 BitNet b1.58은 2.4배 더 빠르고 메모리 효율은 3.32배 더 높으며 엔드 태스크에서 LLaMA 3B를 능가한다.
- 크기에 걸쳐 BitNet b1.58은 FP16 기준선과의 성능 차이를 좁히며 3B 이후부터 엔드 태스크에서 유사한 결과를 달성한다.
- BitNet b1.58 70B는 LLaMA 70B에 비해 최대 4.1배의 속도 향상을 달성하고, 두 대의 A100 GPU에서 최대 11배의 처리량을 보이며 메모리도 감소한다.
- 에너지 분석 결과 BitNet b1.58은 7nm 칩에서 행렬 곱셈의 산술 에너지를 FP16 기준선 대비 약 71.4배 절감하며, 더 큰 모델에서 이점이 커진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.