[논문 리뷰] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
MobileLLM은 깊이와 가중치 공유 기법이 서브-십억 파라미터 LLM들이 온-디바이스 작업에서 상태-오브-더-아트에 준하는 성능을 달성하도록 만들 수 있음을 보여주며, 제로샷 추론, QA, 채팅 및 API 호출을 포함하고, 효율적인 온-디바이스 레이턴시와 메모리를 제공합니다.
This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight-sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
연구 동기 및 목표
- 클라우드 비용과 대기 시간을 줄이기 위해 1B 파라미터 미만의 고품질 LLM을 온-디바이스 사용 사례에 동기부여하고 가능하게 한다.
- 소형 LLM의 성능에 있어 너비뿐만이 아니라 깊이가 결정적임을 보여준다.
- 제한된 메모리 예산 하에서 가중치 활용도를 극대화하기 위해 임베딩 공유, 그룹화된 쿼리 어텐션, 블록-와이즈 가중치 공유 등 설계 기술을 개발한다.
- 채팅 및 API 호출 작업을 통해 실질적인 온-디바이스 활용 능력을 입증한다.
제안 방법
- SwiGLU FFN, 깊고 얇은 아키텍처, 임베딩 공유, 그룹화된 쿼리 어텐션을 사용한 강력한 베이스라인 MobileLLM을 설계한다.
- 추가 메모리 비용 없이 유효 깊이를 증가시키기 위한 즉시 블록-와이즈 계층 공유를 도입한다.
- 제로샷 상식 태스크, QA/읽기 이해 및 다운스트림 온-디바이스 작업(채팅 및 API 호출)을 평가한다.
- 깊이 대 너비, 임베딩 공유 영향, 그룹화된 쿼리 어텐션을 실험하여 효과적인 소형 모델 설정을 식별한다.
실험 결과
연구 질문
- RQ1깊이 우선 아키텍처를 사용한 서브-십억 파라미터 LLM이 제로샷 상식 및 QA 성능에서 경쟁력을 달성할 수 있는가?
- RQ2제한된 파라미터 예산 하에서 임베딩 공유와 그룹화된 쿼리 어텐션이 성능을 향상시키는가?
- RQ3모델 크기를 늘리지 않으면서 즉시 블록-와이즈 계층 공유가 정확도나 레이턴시를 개선할 수 있는가?
- RQ4더 큰 모델이나 이전의 서브-십억 모델과 비교해 MobileLLM 변형은 온-디바이스 채팅 및 API 호출 작업에서 어떠한 성능을 보이는가?
주요 결과
- 더 깊고 얇은 모델이 125M 및 350M 규모에서 더 넓은 모델을 능가하여 소형 LMs의 전통적 스케일링 법칙에 도전한다.
- 임베딩 공유는 약 11.8%의 파라미터를 줄이고 정확도 손실은 최소로 유지하며, 더 깊은 공유가 이득을 회복할 수 있다.
- 최적화된 헤드 구성의 그룹화 쿼리 어텐션(GQA)은 작은 모델의 정확도 향상을 보여주며, 16개의 쿼리 헤드와 4개의 KV 헤드를 사용하는 것이 바람직한 결과를 보인다.
- 즉시 블록-와이즈 계층 공유(MobileLLM-LS)는 지연 증가 없이 추가 메모리 비용 없이 MobileLLM보다 정확도를 개선한다.
- MobileLLM-125M 및 MobileLLM-LS-125M는 다수의 125M 경쟁 모델보다 높은 제로샷 점수를 달성; MobileLLM-350M 및 MobileLLM-LS-350M은 기존 350M 모델보다 현저한 차이로 더 우수하다.
- 채팅 벤치마크(AlpacaEval, MT-Bench)와 API 호출 작업에서 MobileLLM-LS-350M은 더 큰 모델과 경쟁력 있거나 우수한 성능을 보이며 (예: API 호출 정확일치가 LLaMA-v2 7B에 비견될 정도).
- API 호출 결과는 MobileLLM-LS-350M이 65.3% 의도 EM 및 48.8% 구조 EM을 달성하여 특정 지표에서 7B 모델과 비슷하다.
- 양자화(W8A8 PTQ)는 계층 공유와 호환되며 정확도 손실이 최소이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.