QUICK REVIEW

[論文レビュー] Stable LM 2 1.6B Technical Report

Marco Bellagente, Jonathan Tow|arXiv (Cornell University)|Feb 27, 2024

Particle accelerators and beam dynamics被引用数 8

ひとこと要約

Stable LM 2 1.6B は、1.6B パラメータを持つオープンなデコーダー専用言語モデルで、透明性のある多言語データ混合で訓練され、量子化およびエッジデバイスのスループット機能とともに公開され、微調整と評価結果が提供されます。

ABSTRACT

We introduce StableLM 2 1.6B, the first in a new generation of our language model series. In this technical report, we present in detail the data and training procedure leading to the base and instruction-tuned versions of StableLM 2 1.6B. The weights for both models are available via Hugging Face for anyone to download and use. The report contains thorough evaluations of these models, including zero- and few-shot benchmarks, multilingual benchmarks, and the MT benchmark focusing on multi-turn dialogues. At the time of publishing this report, StableLM 2 1.6B was the state-of-the-art open model under 2B parameters by a significant margin. Given its appealing small size, we also provide throughput measurements on a number of edge devices. In addition, we open source several quantized checkpoints and provide their performance metrics compared to the original model.

研究の動機と目的

Stable LM 2 1.6B を構築するために用いられたデータ収集と訓練手順を説明する。
事前学習のアーキテクチャ、トークナイザー、最適化設定を説明する。
会話能力を向上させるために用いられたファインチューニング、アライメント、自己知識訓練手法の詳細を説明する。
few-shot（少数ショット）および多言語、そして多ターン対話ベンチマークを対象とした包括的評価を提示する。
提供と公開：エッジデバイスや他の推論フレームワーク向けの量子化済みチェックポイントを含む。

提案手法

FlashAttention-2 を用いた 4096 トークンのコンテキストを持つ 1.6B デコーダー専用 Transformer を訓練し、混合精度を適用する。
ドメインと言語の明示的なサンプリングウェイトを用いた約 2 兆トークンの多言語データ混合を使用する（Table 1）。
ウォームアップ、コサインおよび rsqrt 減衰を組み合わせた多段階の学習率スケジュールを適用し、その後リニアクールドダウンを行う。
Hugging Face Hub の指示データセットによる教師付きファインチューニングを実施し、その後 Direct Preference Optimization および self-knowledge training loop を行う。
さまざまな推論フレームワーク向けに Q4_0、Q4_1、Q5_K_M GGUF、および INT4 形式の量子化チェックポイントを提供・公開する。

Figure 1 : Percentage of effective training tokens by domain in the Stable LM 2 pre-training dataset.

実験結果

リサーチクエスチョン

RQ1Stable LM 2 1.6B は、同程度のサイズの他のベースモデルを複数の英語ベンチマークで上回り、会話設定において MT-Bench の大規模モデルに近づく。
RQ2モデルは、英語以外の評価設定でドイツ語、スペイン語、フランス語、イタリア語、ポルトガル語、オランダ語において強力な多言語能力を示す。
RQ3指示微調整バリアント（stablelm-2-1_6b-dpo）は Phi-1.5 を上回り、いくつかの指標で Phi-2 と比較して好ましい。
RQ4量子化済みチェックポイント（Q4_0、Q4_1、Q5_K_M GGUF、INT4）が提供され、オンデバイスまたはフレームワーク特有のデプロイを効率化する。
RQ5エッジデバイスで低精度を使用する際のスループット測定は大幅な利得を示し、様々なフレームワークの図が示されている。

主な発見

Stable LM 2 1.6B は、同程度のサイズの他のベースモデルを複数の英語ベンチマークで上回り、会話設定において MT-Bench の大規模モデルに近づく。
モデルは、英語以外の評価設定でドイツ語、スペイン語、フランス語、イタリア語、ポルトガル語、オランダ語において強力な多言語能力を示す。
指示微調整バリアント（stablelm-2-1_6b-dpo）は Phi-1.5 を上回り、いくつかの指標で Phi-2 と比較して好ましい。
量子化済みチェックポイント（Q4_0、Q4_1、Q5_K_M GGUF、INT4）が提供され、オンデバイスまたはフレームワーク特有のデプロイを効率化する。
エッジデバイスで低精度を使用する際のスループット測定は大幅な利得を示し、様々なフレームワークの図が示されている。
訓練には約 92,000 GPU-時間を要し、推定カーボンフットプリントは 11 tCO2eq である。

Figure 2 : Multi-stage infinite scheduler proposed and applied in this work.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。