Skip to main content
QUICK REVIEW

[论文解读] Representing the circular economy research landscape - a text analysis approach based on context specific noun phrase embeddings

Richter, Daniel, Baaden, Philipp|Fraunhofer-Publica (Fraunhofer-Gesellschaft)|Jan 1, 2023
Topic Modeling被引用 83
一句话总结

注:提供的内容对应 SciBert,一种在科学领域预训练的语言模型。该摘要反映了该工作。SciBert 预训练语言模型在多个科学 NLP 任务上相对于 BERT 通过在大型领域内语料库上训练并使用领域内词汇表,在生物医学、计算机科学和跨领域任务的多个数据集上达到新的 state-of-the-art 结果。

ABSTRACT

79

研究动机与目标

  • 说明在科学 NLP 中需要可扩展的高质量带注释数据,并利用对大型科学语料的无监督预训练。

提出的方法

  • 采用 BERT 架构,包含两种训练目标(masked token prediction 与 next-sentence prediction),但在科学语料上进行预训练。
  • 构建 SciVocab,通过 SentencePiece 创建一个领域特定的 WordPiece 词汇表,共 30K 个标记。
  • 比较在冻结的 SciBert 嵌入上微调任务特定架构与使用冻结嵌入作为上下文特征的差异。
  • 在一系列核心 NLP 任务上进行评估,包括 NER、PICO 提取、文本分类、关系分类和依赖解析,覆盖多个数据集。
  • 分析领域内词汇表对性能的影响相对于领域内预训练的影响。

实验结果

研究问题

  • RQ1SciBert 在科学文本上预训练后是否在科学 NLP 任务上优于 Bert-Base?
  • RQ2在下游任务中使用领域内词汇表(SciVocab)与使用原始 BERT 词汇表(BaseVocab)有何影响?
  • RQ3在科学领域内,微调是否优于在冻结嵌入上使用任务特定架构?
  • RQ4SciBert 在生物医学、计算机科学和跨领域数据集上的表现如何?

主要发现

  • SciBert 在科学任务上无论是否进行微调都优于 Bert-Base(论文中的平均提升)。
  • SciBert 在生物医学和计算机科学领域的若干数据集上实现了新的 state-of-the-art 结果。
  • 领域内词汇表(SciVocab)带来额外提升,尽管大多数改进来自领域内预训练。
  • 在大多数数据集上,微调通常比在冻结嵌入之上使用任务特定架构获得更大提升。
  • SciBert 在多领域任务上表现更优,且在某些生物医学数据集上可与或超过某些领域特定基线如 BioBERT。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。