[論文レビュー] Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models
論文は Jais(13B アラビア語中心のデコーダー専用LLM)およびその指示チューニング版 Jais-chat を紹介し、アラビア語と英語データとコードの混合で学習させたところ、アラビア語の性能が高く、英語の結果も競争力があり、研究のための公開リリースを提供している。
We introduce Jais and Jais-chat, new state-of-the-art Arabic-centric foundation and instruction-tuned open generative large language models (LLMs). The models are based on the GPT-3 decoder-only architecture and are pretrained on a mixture of Arabic and English texts, including source code in various programming languages. With 13 billion parameters, they demonstrate better knowledge and reasoning capabilities in Arabic than any existing open Arabic and multilingual models by a sizable margin, based on extensive evaluation. Moreover, the models are competitive in English compared to English-centric open models of similar size, despite being trained on much less English data. We provide a detailed description of the training, the tuning, the safety alignment, and the evaluation of the models. We release two open versions of the model -- the foundation Jais model, and an instruction-tuned Jais-chat variant -- with the aim of promoting research on Arabic LLMs. Available at https://huggingface.co/inception-mbzuai/jais-13b-chat
研究の動機と目的
- アラビア語がLLMで過小表示されている問題に対処するため、アラビア語中心の基盤モデルを構築する。
- アラビア語と英語データを混ぜることで、一定モデルサイズでアラビア語の性能を向上させられることを示す。
- 安全指向のファインチューニングと対話フレンドリーなインターフェースを備えた指示チューニング版(Jais-chat)を開発する。
- アラビア語 NLP 研究と責任ある展開を促進するため、モデルのオープン版を公開する。
- 幅広いベンチマークを通じてアラビア語と英語の能力を評価し、データ・安全性・偏見について論じる。
提案手法
- アラビア語と英語データおよびプログラミングコードの混合で 13B デコーダー専用 Transformer(Jais)を事前訓練する。
- アラビア語と英語の等言語露出を持つカスタムトークナイザー(Jais tokenizer)を用いて多言語性をバランスさせる。
- 長文脈推定のためにALiBi位置エンコーディングを採用し、SwiGLU活性化を用いて性能を向上させる。
- 最大更新パラメータ化(µP)を適用し、ハイパーパラメータ選択を最終モデルへ移行させる。
- 大規模混合集訓練データセットで訓練(Arabic 72B トークンを拡張/アップサンプリングして 116B、Arabic のシェア 29%、English 232B、code 46B、合計 395B トークン)。Cerebras CG-1 環境に分散。
- 3.6M Arabic と 6M English の instruction-response ペアに追加の安全プロンプトと外部分類器を用いて指示チューニング版(Jais-chat)をファインチューニング。)
実験結果
リサーチクエスチョン
- RQ113B パラメータで、アラビア語のみモデルと比較して、アラビア語と英語の混合トレーニングがアラビア語の習熟度と推論に与える影響はどの程度か?
- RQ2アラビア語中心のLLMは、英語中心のモデルと比較して英語データが限られているにもかかわらず、英語で競争力のある性能を達成できるか?
- RQ3指示チューニングと安全性整合性がアラビア語LLMの使い勝手とリスク緩和に与える影響は?
- RQ4前処理、トークナイザ設計、アーキテクチャの選択(ALiBi、SwiGLU、µP)がアラビア語の言語モデリング品質に与える影響はどの程度か?
- RQ5安全性とバイアス緩和の観点から、オープンなアラビア語LLMを公開する際のトレードオフと要件は何か?
主な発見
- Jais は、同程度のサイズのオープンなアラビア語モデルおよび多言語モデルと比べて、アラビア語の知識と推論がかなり優れている。
- Jais は、英語データが substantially less であるにもかかわらず英語で競争力がある。
- 1:2 の Arabic–English データ混合は、13B モデルのアラビア語のみの訓練を上回り、このスケールでのクロスリンガル転送の利点を示している。
- 本研究の実験で 13B Jais は 30B のアラビア語のみモデルを上回り、データ混合とアーキテクチャ選択による効率向上を強調している。
- Jais と Jais-chat は、アラビア語LLM研究開発を促進するために公開されており、説明されている安全対策がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。