[论文解读] Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities
Swallow,一种增强的日语能力的基于 Llama-2 的大型语言模型,通过在日语数据上的持续预训练(并进行词汇扩展)构建,在达到 100B 标记前呈单调提升,在日语任务上超越从英语/日语从零训练的模型。
Cross-lingual continual pre-training of large language models (LLMs) initially trained on English corpus allows us to leverage the vast amount of English language resources and reduce the pre-training cost. In this study, we constructed Swallow, an LLM with enhanced Japanese capability, by extending the vocabulary of Llama 2 to include Japanese characters and conducting continual pre-training on a large Japanese web corpus. Experimental results confirmed that the performance on Japanese tasks drastically improved through continual pre-training, and the performance monotonically increased with the amount of training data up to 100B tokens. Consequently, Swallow achieved superior performance compared to other LLMs that were trained from scratch in English and Japanese. An analysis of the effects of continual pre-training revealed that it was particularly effective for Japanese question answering tasks. Furthermore, to elucidate effective methodologies for cross-lingual continual pre-training from English to Japanese, we investigated the impact of vocabulary expansion and the effectiveness of incorporating parallel corpora. The results showed that the efficiency gained through vocabulary expansion had no negative impact on performance, except for the summarization task, and that the combined use of parallel corpora enhanced translation ability.
研究动机与目标
- 通过持续预训练将英语训练的 LLM 转移到日语,以实现高效跨语言适应。
- 量化日语数据量和模型规模如何影响日语和英语任务的性能。
- 研究词汇扩展和并行语料作为改进日语生成与翻译的技术。
- 评估持续预训练在日语上相较于从零训练的模型是否带来收益。
- 为日语情境下的跨语言持续预训练提供可行指南。
提出的方法
- 通过日语子词和字符(VE)扩展 Llama 2 的词汇。
- 使用重放策略,在以日语文本为主的 100B-token 混合数据集上进行持续预训练(约 90% 日语,10% 英语)。
- 使用 llm-jp-eval 和 LM Evaluation Harness,在六项日语与英语任务上评估,包括 QA、RC、AS、AR、CR、MT。
- 将 Swallow(7B/13B/70B)与基础 Llama 2 变体以及日语从零训练模型进行比较。
- 分析 VE 与平行语料对任务表现与翻译能力的影响。
- 使用 Flash Attention 2、带热身的余弦学习率调度以及 AdamW 优化。

实验结果
研究问题
- RQ1从英文到日文的持续预训练是否在各模型规模上提升日文任务性能?
- RQ2持续预训练中的日语数据量如何影响性能,是否存在单调关系?
- RQ3词汇扩展对各任务的性能和效率有何影响?
- RQ4将日英平行语料整合是否提升翻译能力,同时影响其他任务?
主要发现
- 截至 2023 年 12 月,在日本开发的日语模型中,Swallow 在所评估任务中取得了最高性能。
- 经持续预训练后,日语平均性能比 Llama 2 变体提升约 7 点。
- 日语 QA 任务提升高达约 75%;MGSM 逻辑推理提升 36–63%;英语 QA/AR 下降 6–23%。
- 性能随日语训练数据增加呈单调提升,直至 ~100B tokens,最大提升出现在前 20B tokens。
- 词汇扩展对日语任务总体影响较小,自动摘要表现降级(约 5–15%)。
- 平行语料显著提升翻译(En-Ja 9–24%,Ja-En 14–51%),具混合或两阶段设置,但对非翻译任务的提升并不一贯。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。