QUICK REVIEW

[论文解读] Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Benchmarking Datasets

Yifan Peng, Shankai Yan|arXiv (Cornell University)|Jun 13, 2019

Topic Modeling参考文献 39被引用 70

一句话总结

BLUE 基准在十个生物医学/临床数据集上跨越五个任务评估 BERT 与 ELMo，并发现以 PubMed 摘要和 MIMIC-III 临床笔记进行预训练的 BERT 模型在整体上表现最佳，凸显生物医学跨类别预训练的价值。

ABSTRACT

Inspired by the success of the General Language Understanding Evaluation benchmark, we introduce the Biomedical Language Understanding Evaluation (BLUE) benchmark to facilitate research in the development of pre-training language representations in the biomedicine domain. The benchmark consists of five tasks with ten datasets that cover both biomedical and clinical texts with different dataset sizes and difficulties. We also evaluate several baselines based on BERT and ELMo and find that the BERT model pre-trained on PubMed abstracts and MIMIC-III clinical notes achieves the best results. We make the datasets, pre-trained models, and codes publicly available at https://github.com/ncbi-nlp/BLUE_Benchmark.

研究动机与目标

介绍 Biomedical Language Understanding Evaluation (BLUE) 基准，覆盖生物医学和临床领域的五个任务。
评估基于 BERT 和 ELMo 的基线模型，以建立强大的生物医学语言表示。
展示跨文本类型的预训练对下游生物医学NLP任务的影响。

提出的方法

构建 BLUE：五个任务，覆盖生物医学文献和临床笔记的十个语料库。
在 PubMed 摘要和 MIMIC-III 临床笔记上进行 BERT 预训练（以及 PubMed+MIMIC-III 组合预训练）。
在每个 BLUE 任务上对 BERT 模型进行微调，使用任务特定的输入格式（如用于相似度的句对、用于命名实体识别的 BIO 标注）。
与基于 ELMo 的基线进行比较，后者在 PubMed 摘要上预训练。
提供公开可用的数据集、预训练模型和代码，以实现公平基准测试。

实验结果

研究问题

RQ1基于 BERT 和 ELMO 的表示在多样化的生物医学和临床NLP任务中的表现如何？
RQ2与单一文本类型预训练相比，在多种文本类型（生物医学和临床）上的预训练是否提升了性能？
RQ3哪些任务类型（NER、关系提取、句子相似性、文档分类、推理）最能从生物医学中的上下文语言模型中获益？

主要发现

在 BLUE 任务中，基于 PubMed 摘要和 MIMIC-III 进行预训练的 BERT 模型取得最佳结果。
在 PubMed+MIMIC-III 预训练的 BERT 通常优于单一文本类型的预训练，强调跨文本类型迁移学习的好处。
基础规模的 BERT 模型在若干任务上通常超越大型模型，可能与数据规模与句子长度因素有关。
在大多数任务上，ELMo 基线落后于最佳的 BERT 配置，凸显现代上下文化变换模型在生物医学中的优势。
在句子相似性、文档分类和部分 NER 任务上，BERT-Base(P+M) 或 BERT-Large(P) 的表现随数据集特征（如平均句子长度）而有显著变化。
BLUE 基准提供广泛的代码和预训练模型，以促进生物医学 NLP 中的公平比较。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。