[論文レビュー] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
MobileLLM は、深さと重み共有技術が、ゼロショット推論、QA、チャット、API 呼び出しを含むオンデバイスのタスクにおいて、サブビリオン・パラメータの LLM が最先端に近い性能を実現できることを示しており、効率的なオンデバイスのレイテンシとメモリを実現します。
This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight-sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
研究の動機と目的
- 1) クラウドコストと遅延を削減するために、オンデバイス用途向けの1Bパラメータ未満の高品質な LLM の動機付けと実現。
- 2) 小型 LLM の性能には幅だけでなく深さが重要であることを示す。
- 3) 厳しいメモリ予算の下で重みの利用を最大化するためのアーキテクチャ手法(埋め込み共有、グループ化クエリアテンション、ブロック単位の重み共有)を開発。
- 4) チャットと API 呼び出しタスクを通じて実用的なオンデバイス機能を実証。
提案手法
- SwiGLU FFN、深く細いアーキテクチャ、埋め込み共有、グループ化クエリアテンションを用いた強力なベースライン MobileLLM の設計。
- 追加のメモリコストなしで実効的な深さを高めるための即時ブロック単位レイヤー共有の導入。
- ゼロショットの常識推論タスク、QA/読解、オンデバイスの下流タスク(チャットとAPI呼び出し)での評価。
- 効果的な小型モデルの構成を特定するために、深さと幅、埋め込み共有の影響、グループ化クエリアテンションを実験。
実験結果
リサーチクエスチョン
- RQ1サブビリオン・パラメータの LLM は深さ主導のアーキテクチャで競争力のあるゼロショットの常識推論と QA の性能を達成できるか。
- RQ2埋め込み共有とグループ化クエリアテンションは、厳しいパラメータ予算下で性能を向上させるか。
- RQ3即時のブロック単位レイヤー共有はモデルサイズを増やすことなく精度やレイテンシを向上させるか。
- RQ4MobileLLM のバリアントは、より大きなモデルや以前のサブビリオンモデルと比較してオンデバイスのチャットと API 呼び出しタスクでどのように性能を発揮するか。
主な発見
- 125Mおよび350Mのスケールで、より深く薄いモデルがより広いモデルよりも優れており、小型 LLM の従来のスケーリング法則に挑戦している。
- 埋め込み共有は約11.8%のパラメータ削減をもたらし、精度の損失は最小限で、より深い共有が利得を回復できる。
- 最適化されたヘッド構成を伴うグループ化クエリアテンション(GQA)は、小型モデルの精度向上をもたらし、16 ヘッドのクエリと 4 KV ヘッドの使用が有利な結果を示す。
- 即時のブロック単位レイヤー共有(MobileLLM-LS)は、遅延の増加がほとんどなく、追加のメモリコストなしで MobileLLM の精度を向上させる。
- MobileLLM-125M および MobileLLM-LS-125M は多くの同等の125M競合モデルよりゼロショットスコアが高く、MobileLLM-350M および MobileLLM-LS-350M は従来の350Mモデルを著しく上回る。
- チャットのベンチマーク(AlpacaEval、MT-Bench)および API 呼び出しタスクで、MobileLLM-LS-350M はより大きなモデルと競合する、あるいは優位な性能を示す(例:LLaMA-v2 7B と同等の API 呼び出しの正確一致)。
- API 呼び出しの結果は MobileLLM-LS-350M が 65.3% の意図 EM、48.8% の構造 EM を達成し、特定の指標で 7B モデルと同等かそれ以上であることを示す。
- 量子化(W8A8 PTQ)はレイヤー共有と互換性があり、ほとんど精度の損失を伴わない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。