[论文解读] Tower: An Open Multilingual Large Language Model for Translation-Related Tasks
Tower 是一个面向翻译工作流的开放型多语言大模型,通过持续预训练和指令微调构建,超越开放对手、接近闭源模型性能,并发布了资源。
While general-purpose large language models (LLMs) demonstrate proficiency on multiple tasks within the domain of translation, approaches based on open LLMs are competitive only when specializing on a single task. In this paper, we propose a recipe for tailoring LLMs to multiple tasks present in translation workflows. We perform continued pretraining on a multilingual mixture of monolingual and parallel data, creating TowerBase, followed by finetuning on instructions relevant for translation processes, creating TowerInstruct. Our final model surpasses open alternatives on several tasks relevant to translation workflows and is competitive with general-purpose closed LLMs. To facilitate future research, we release the Tower models, our specialization dataset, an evaluation framework for LLMs focusing on the translation ecosystem, and a collection of model generations, including ours, on our benchmark.
研究动机与目标
- 说明需要为翻译工作流定制的开放 LLM 的必要性。
- 开发一个两阶段训练方案,使 LLMs 为翻译进行定制:对多语言数据进行持续预训练(TowerBase)以及指令微调(TowerInstruct)。
- 在翻译相关任务与工作流上对结果模型与开源和闭源基线进行评估。
- 发布资源以促进未来研究,包括模型、数据集和评估框架。
提出的方法
- 对多语言混合的单语和并行数据进行持续预训练,以获得 TowerBase。
- 在与翻译相关的指令上微调 TowerBase,以获得 TowerInstruct。
- 在翻译相关任务与工作流上对 TowerBase 和 TowerInstruct 与开放和闭源模型进行评估。
- 发布专门数据集、评估框架和用于基准测试的模型生成结果。
实验结果
研究问题
- RQ1通过对多语言数据的持续预训练,是否能够改善开源 LLM 在翻译相关任务上的表现?
- RQ2在翻译工作流上进行基于指令的微调是否能超越基础预训练的性能?
- RQ3在翻译任务与工作流上,Tower 模型与开放的 LLM 以及闭源通用型 LLM 相比表现如何?
- RQ4哪些资源(数据集、评估框架)最有助于研究聚焦翻译的 LLM?
主要发现
- TowerBase 和 TowerInstruct 在若干翻译工作流任务上超越了开放的替代方案。
- Tower 模型在与通用闭源 LLM 的对比中具有竞争力的表现。
- 作者发布模型、专门数据集、评估框架以及示例生成,以支持可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。