[論文レビュー] Phoenix: Democratizing ChatGPT across Languages
PhoenixはBLOOMZ(Phoenix)に基づくオープンソースの多言語LLMであり、ラテン語版のChimera(LLaMAバックボーン)と連携して、さまざまな言語でChatGPT型の機能を民主化し、非ラテン系言語で高い性能を発揮し、英語モデルと競合する成果を挙げている。
This paper presents our efforts to democratize ChatGPT across language. We release a large language model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources (covering both Latin and non-Latin languages). We believe this work will be beneficial to make ChatGPT more accessible, especially in countries where people cannot use ChatGPT due to restrictions from OpenAI or local goverments. Our data, code, and models are available at https://github.com/FreedomIntelligence/LLMZoo.
研究の動機と目的
- 多様な言語でChatGPTのような対話モデルの構築と研究の敷居を下げる。
- 指示遵守データと対話データの両方を活用して多言語LLMを訓練する。
- 言語横断の性能を評価し、既存のオープンソースおよびクローズドソースモデルと比較するベンチマークを設定する。
- 事前学習および事後訓練段階で多言語データの価値を示し、言語特有の偏りを減らす。
提案手法
- Alpaca由来のデータを統合し、翻訳後データとユーザー中心の指示データセットを40言語に翻訳して、多言語指示データを構築する。
- ShareGPTとDiscordチャンネルから対話データを収集し、40言語に翻訳して多言語チャット訓練を支援する。
- 指示遵守とマルチターン対話を統合して、BLOOMZベースのバックボーンを微調整し、Phoenix(多言語)とラテン系シャーシのChimera(LLaMAバックボーン)を形成する。
- 最大コンテキスト長2048で学習し、AdamW、バッチサイズ256、3エポック、学習率2e-5、ウェイトデカイを適用しない。
- 自動評価(GPT-4およびGPT-3.5 Turboをレビュアーとして)と人間評価を、中国語、英語、および複数の非ラテン言語で実施する。
- オープンソースLLM(BELLE、Chinese-Alpaca、Vicuna など)および選定されたクローズドモデル(ChatGPT、Baidu-Wenxin)と比較してPhoenixの位置づけを明確にする。

実験結果
リサーチクエスチョン
- RQ1指示遵守データと対話データの両方で訓練された多言語LLMは、複数の言語で既存のオープンソースモデルを上回ることができるか。
- RQ2多言語税が非ラテン言語の性能に与える影響はどの程度か、バックボーンの選択(BLOOMZ vs. LLaMA)で緩和できるか。
- RQ3最先端のオープンソースおよびクローズドソースモデルと比較して、Latinおよび非Latin言語全体でのPhoenixとChimeraの相対的な性能はどの程度か。
- RQ4指示データと対話データを統合することで、いずれか一方のデータのみを使用する場合と比べて測定可能な向上が得られるか。
主な発見
- Phoenixはオープンソースの中国語LLMの中で最先端の性能を達成し、多くの非ラテン言語モデルを上回る。
- 非ラテン言語では、Arabic、日本語、韓国語のベンチマークを含む既存のオープンソースLLMを大幅に上回る。
- Chimera(Latin Phoenix)はGPT-4相当の品質を獲得し、GPT-4評価で96.6%のChatGPT Qualityを達成、オープンソースの新たなSOTAを設定。
- Phoenixは中国語および英語のベンチマークでBaigu-WenxinとBELLEと高い競争力を示すが、英語では一部の非オープンソースモデルが高い場合がある。
- アブレーション結果は、指示データを追加すると、対象タスクでPhoenix/Chimeraが約5-6%の相対的改善を示すことを示している。
- 人間評価は、Phoenixがしばしば確立された中国語オープンソースモデルのいくつかを上回るか、同等であり、商用モデルと競争力があることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。