QUICK REVIEW

[論文レビュー] Aya 23: Open Weight Releases to Further Multilingual Progress

Viraat Aryabumi, John Dang|arXiv (Cornell University)|May 23, 2024

Artificial Intelligence in Healthcare and Education被引用数 8

ひとこと要約

Aya 23は、23言語をカバーする8Bおよび35Bのオープンウェイトを公開し、深さと幅のバランスを取り、Aya 101および競合モデルよりも識別・生成・多言語タスク全般で性能を向上させます。

ABSTRACT

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (Üstün et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

研究の動機と目的

英語以外の言語カバーを拡大することで、LLMにおけるデータ不足と多言語性に対処する。
事前学習中に限られた言語セットへより大きな容量を割り当てる影響を調査する。
識別・生成・数学的推論タスクを横断する多言語および跨言語パフォーマンスを評価する。

提案手法

基本アーキテクチャ：Cohere Command 系列に基づくデコーダー専用の Transformer、並列アテンション/FFN、SwiGLU、バイアスなし、RoPE 位置埋め込み、256k BPE トークナイザー。
指示微調整で、多言語テンプレート、人間の注釈、翻訳データ、合成データを含む多言語データ源の混合を用い、1.63M例の多言語ファインチューニングセットを作成。
トレーニング設定：13,200 更新ステップ、8192 コンテキスト長、Cosine LR スケジュールを用いる Adam、ピーク LR 6e-4、終端 LR 6e-5、バッチサイズ 64、TPUv4、最大128ポッドスライス。
モデル変種：Aya-23-8BおよびAya-23-35B、8BモデルにはGrouped Query Attention (GQA)を、より大きなモデルには標準アテンションを適用。
評価フレームワーク：Üstün et al. (2024) および eval-harness による多言語評価、識別タスク、Multilingual MMLU、MGSM、翻訳、要約、さらには安全性/バイアス評価。

実験結果

リサーチクエスチョン

RQ1事前学習言語を23言語に集中させることで、広範な多言語モデルと比較して各言語の性能を改善できるか。
RQ2Aya 23モデルは23言語において、識別・生成・翻訳・数学的推論タスクでどのように性能を示すか。
RQ3強力なベースラインと比較した場合、multilingual設定におけるAya 23モデルの安全性と有害性プロファイルはどうか。
RQ4Aya 23のオープンウェイト公開は、多言語NLPにおけるアクセス性と研究の進歩を有意に拡大するか。

主な発見

Aya 23-35Bは評価対象のタスクと言語全てで最高スコアを達成し、Aya 101および競合モデルを上回る。
Aya 23-8Bは小型モデルの中で最高クラスの多言語性能を示し、識別タスクで最大14%、生成タスクで最大20%、多言語MMLUで最大41.6%、Aya 101と比較。
Aya 23モデルは強力な多言語数学的推論を示し、MGSMの性能はAya 101と比較して6.6倍の向上。
オープンエンド評価では、GPT-4 judgeおよび人間評価で基準モデルより一貫してAya 23モデルが好まれ、特に非ヨーロッパ言語で顕著。
安全性分析は、Aya-23がAya-101-13Bより有害な応答を低減し、より大きなモデルがいくつかの言語でさらに有害性を低減していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。