QUICK REVIEW

[论文解读] Representing the circular economy research landscape - a text analysis approach based on context specific noun phrase embeddings

Richter, Daniel, Baaden, Philipp|Fraunhofer-Publica (Fraunhofer-Gesellschaft)|Jan 1, 2023

Topic Modeling被引用 83

一句话总结

注：提供的内容对应 SciBert，一种在科学领域预训练的语言模型。该摘要反映了该工作。SciBert 预训练语言模型在多个科学 NLP 任务上相对于 BERT 通过在大型领域内语料库上训练并使用领域内词汇表，在生物医学、计算机科学和跨领域任务的多个数据集上达到新的 state-of-the-art 结果。

ABSTRACT

研究动机与目标

说明在科学 NLP 中需要可扩展的高质量带注释数据，并利用对大型科学语料的无监督预训练。

提出的方法

采用 BERT 架构，包含两种训练目标（masked token prediction 与 next-sentence prediction），但在科学语料上进行预训练。
构建 SciVocab，通过 SentencePiece 创建一个领域特定的 WordPiece 词汇表，共 30K 个标记。
比较在冻结的 SciBert 嵌入上微调任务特定架构与使用冻结嵌入作为上下文特征的差异。
在一系列核心 NLP 任务上进行评估，包括 NER、PICO 提取、文本分类、关系分类和依赖解析，覆盖多个数据集。
分析领域内词汇表对性能的影响相对于领域内预训练的影响。

实验结果

研究问题

RQ1SciBert 在科学文本上预训练后是否在科学 NLP 任务上优于 Bert-Base？
RQ2在下游任务中使用领域内词汇表（SciVocab）与使用原始 BERT 词汇表（BaseVocab）有何影响？
RQ3在科学领域内，微调是否优于在冻结嵌入上使用任务特定架构？
RQ4SciBert 在生物医学、计算机科学和跨领域数据集上的表现如何？

主要发现

SciBert 在科学任务上无论是否进行微调都优于 Bert-Base（论文中的平均提升）。
SciBert 在生物医学和计算机科学领域的若干数据集上实现了新的 state-of-the-art 结果。
领域内词汇表（SciVocab）带来额外提升，尽管大多数改进来自领域内预训练。
在大多数数据集上，微调通常比在冻结嵌入之上使用任务特定架构获得更大提升。
SciBert 在多领域任务上表现更优，且在某些生物医学数据集上可与或超过某些领域特定基线如 BioBERT。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。