[论文解读] Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain
本文提出 Medical mT5,首个用于医学领域的开源多语言文本到文本大模型,在一个大规模多语言医学语料库上训练,并在英语、西班牙语、法语和意大利语任务上评估。它在多语言序列标注方面取得了强劲的结果,在英语问答任务上对比最先进模型也具备竞争力。
Research on language technology for the development of medical applications is currently a hot topic in Natural Language Understanding and Generation. Thus, a number of large language models (LLMs) have recently been adapted to the medical domain, so that they can be used as a tool for mediating in human-AI interaction. While these LLMs display competitive performance on automated medical texts benchmarks, they have been pre-trained and evaluated with a focus on a single language (English mostly). This is particularly true of text-to-text models, which typically require large amounts of domain-specific pre-training data, often not easily accessible for many languages. In this paper, we address these shortcomings by compiling, to the best of our knowledge, the largest multilingual corpus for the medical domain in four languages, namely English, French, Italian and Spanish. This new corpus has been used to train Medical mT5, the first open-source text-to-text multilingual model for the medical domain. Additionally, we present two new evaluation benchmarks for all four languages with the aim of facilitating multilingual research in this domain. A comprehensive evaluation shows that Medical mT5 outperforms both encoders and similarly sized text-to-text models for the Spanish, French, and Italian benchmarks, while being competitive with current state-of-the-art LLMs in English.
研究动机与目标
- 通过构建一个大型多语言医学语料库并训练一个文本到文本模型,解决缺乏多语言、开源的医学LLM的问题。
- 除英语外为西班牙语、法语和意大利语提供基准,以促进多语言医学NLP研究。
- 表明在领域特定数据上继续预训练可以提升非英语语言的表现。
- 展示模型在多任务与零样本跨语言设置中的有效性。
提出的方法
- 从公开来源构建一个大型多语言医学语料库(英语、西班牙语、法语、意大利语),总量约为3十亿词。
- 使用医学语料对现有的 mT5 检查点进行微调,生成 Medical-mT5-large(738M 参数)和 Medical-mT5-xl(3B 参数)。
- 预训练遵循原始 mT5 工作中的 span-corruption 目标和自监督设置,序列长度受硬件约束。
- 引入两个新的多语言评估数据集:Argument Mining 和 Abstractive Question Answering,覆盖西班牙语、法语、意大利语。
- 将所有任务框定为文本到文本问题,并应用受限解码以保持输入单词和有效注释。
- 与基线比较,包括 mT5、SciFive、Flan-T5,以及仅编码器模型,在单语和多语设置中。
实验结果
研究问题
- RQ1在英语、西班牙语、法语和意大利语上,训练于医学数据的多语言文本到文本模型,是否在序列标注和问答任务中表现良好?
- RQ2在多任务和零样本跨语言设置中,基于医学数据的领域特定预训练是否能提升非英语语言的表现?
- RQ3在评估多语言医学生成方面存在哪些挑战和局限性,Medical mT5 相对于英语及其他语言的强基线表现如何?
主要发现
- Medical mT5 在西班牙语、法语和意大利语序列标注基准上优于同规模的文本到文本基线。
- Medical mT5 在医学文本到文本任务上与英语最先进模型竞争。
- 零样本跨语言迁移显示,当在英语数据上进行微调时,Medical mT5及其 xl 变体在非英语语言上表现出色。
- 与单任务设置相比,多任务微调在西班牙语、法语和意大利语上实现最佳的整体表现。
- 更大的 Medical-mT5-xl 在单任务设置中可能过拟合,但在多任务和跨语言场景中表现出色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。