Skip to main content
QUICK REVIEW

[论文解读] Phoenix: Democratizing ChatGPT across Languages

Zhihong Chen, Feng Jiang|arXiv (Cornell University)|Apr 20, 2023
Artificial Intelligence in Healthcare and Education被引用 20
一句话总结

Phoenix 是一个基于 BLOOMZ (Phoenix) 的开源多语言大模型,以及一个基于 LLaMA 主干的拉丁语版本 Chimera,它在多语言环境中普及类似 ChatGPT 的能力,在非拉丁语言中表现出色,并且在英语模型方面具有竞争力。

ABSTRACT

This paper presents our efforts to democratize ChatGPT across language. We release a large language model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources (covering both Latin and non-Latin languages). We believe this work will be beneficial to make ChatGPT more accessible, especially in countries where people cannot use ChatGPT due to restrictions from OpenAI or local goverments. Our data, code, and models are available at https://github.com/FreedomIntelligence/LLMZoo.

研究动机与目标

  • 降低在多种语言中构建和研究类似 ChatGPT 的对话模型的门槛。
  • 结合指令遵循数据与对话数据来训练多语言 LLM。
  • 评估跨语言性能并与现有开源和闭源模型建立基准。
  • 展示多语言数据在预训练和后训练阶段减少语言特定偏差的价值。

提出的方法

  • 通过将 Alpaca 派生数据、翻译后数据和面向用户的指令数据集翻译成 40 种语言来构建多语言指令数据。
  • 从 ShareGPT 和 Discord 频道收集对话数据,然后翻译成 40 种语言,以支持多语言聊天训练。
  • 对基于 BLOOMZ 的骨干网络进行微调,形成 Phoenix(多语言)和拉丁底盘 Chimera(LLaMA 主干),通过整合指令遵循和多轮对话。
  • 在最大上下文长度 2048 条的设定下训练,使用 AdamW,批量大小 256,3 轮,学习率 2e-5,且不进行权重衰减。
  • 使用自动评估(以 GPT-4 和 GPT-3.5 Turbo 作为评审)和人工评估,在中文、英文以及多种非拉丁语言上进行评估。
  • 与开源 LLMs(如 BELLE、Chinese-Alpaca、Vicuna)以及精选的闭源模型(ChatGPT、Baidu-Wenxin)进行对比,以定位 Phoenix。
Phoenix: Democratizing ChatGPT across Languages

实验结果

研究问题

  • RQ1在多种语言上,能否通过同时训练指令遵循和对话数据的多语言 LLM 超越现有的开源模型?
  • RQ2多语言开销如何影响非拉丁语言的性能,是否可通过骨干网络选择(BLOOMZ 与 LLaMA)来缓解?
  • RQ3在拉丁语和非拉丁语之间,Phoenix 与 Chimera 相对于最先进的开源与闭源模型的相对性能如何?
  • RQ4将指令数据与对话数据结合,是否能带来较单独使用任一数据类型的可测量提升?

主要发现

  • Phoenix 在开源中文 LLM 中取得了最先进的性能,并且优于许多非拉丁语言模型。
  • 在非拉丁语言中,Phoenix 在阿拉伯语、日语、韩语等基准测试中,整体优于现有开源 LLM。
  • Chimera(Latin Phoenix)在 GPT-4 评估中的 ChatGPT Quality 为 96.6%,达到与 GPT-4 相似的质量,设定了新的开源 SOTA。
  • Phoenix 在中文和英文基准测试中与 Baidu-Wenxin 和 BELLE 具有很强的竞争力,尽管某些非开源模型在英文方面仍然更高。
  • 消融结果表明,增加指令数据在目标任务上使 Phoenix/Chimera 获得约 5-6% 的相对提升。
  • 人工评估表明 Phoenix 经常领先或达到若干成熟开源中文模型的水平,并且与商业模型保持竞争力。
Figure 1 : Language Distribution in Our Dataset: Top 15 Languages Represented out of 133.
Figure 1 : Language Distribution in Our Dataset: Top 15 Languages Represented out of 133.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。