[论文解读] Building astroBERT, a language model for Astronomy & Astrophysics
本文介绍了astroBERT,一种基于BERT的变换器架构、在NASA ADS数据库中395,499篇天文学论文上微调的领域特定语言模型。该模型在科学文本上通过掩码语言建模和下一句预测进行训练,其在天文学组织命名实体识别任务上的F1得分达到90.2%,优于BERT和SciBERT,证明其在天体物理学语义搜索中的有效性。
The existing search tools for exploring the NASA Astrophysics Data System (ADS) can be quite rich and empowering (e.g., similar and trending operators), but researchers are not yet allowed to fully leverage semantic search.<br> For example, a query for "results from the Planck mission" should be able to distinguish between all the various meanings of Planck (person, mission, constant, institutions and more) without further clarification from the user.<br> At ADS, we are applying modern machine learning and natural language processing techniques to our dataset of recent astronomy publications to train astroBERT, a deeply contextual language model based on research at Google.<br> Using astroBERT, we aim to enrich the ADS dataset and improve its discoverability, and in particular we are developing our own named entity recognition tool. We present here our preliminary results and lessons learned.
研究动机与目标
- 开发适用于天文学和天体物理学领域的领域自适应语言模型,以提升科学文本的语义理解能力。
- 解决现有ADS搜索工具在处理如'Planck'等模糊术语时缺乏强大语义搜索能力的局限性。
- 在高质量、清洗过的天文学文献上训练语言模型,以实现对设施、任务和组织的更好命名实体识别(NER)。
- 在天体物理学领域特定的命名实体识别任务上超越通用模型如BERT和SciBERT。
- 通过Huggingface将训练好的模型公开发布,以供更广泛的社区使用。
提出的方法
- 使用16GB清洗后的英文文本(来自ADS数据库中395,499篇天文学论文)基于BERT架构预训练astroBERT。
- 采用自定义WordPiece分词器,词汇表大小为30,000,保留大小写并去除变音符号,以提升实体识别性能。
- 在预训练过程中执行掩码语言建模(MLM)和下一句预测(NSP),以学习上下文表征。
- 在包含6,279个标注组织名称的1,856个句子的精选数据集上对模型进行微调。
- 使用10折交叉验证评估命名实体识别任务的性能,并在多个数据集上比较各模型的困惑度。
- 采用混合精度浮点运算训练,以减少显存占用并在V100 GPU上加速训练。
实验结果
研究问题
- RQ1基于天文学文献预训练的BERT模型是否能在天体物理学命名实体识别任务上超越通用领域模型如BERT和SciBERT?
- RQ2在预训练过程中包含下一句预测(NSP)任务,对下游命名实体识别任务性能有何影响?
- RQ3与基于通用维基百科的BERT相比,基于科学天文学文本的领域特定预训练在多大程度上提升了语义理解能力?
- RQ4数据清洗和分词器设计对天文学科学NLP任务模型性能有何影响?
- RQ5微调后的astroBERT模型是否能在科学手稿中实现对组织缩写和全称的高F1得分识别?
主要发现
- astroBERT(NSP+MLM)在命名实体识别任务上的F1得分为0.902,优于BERT(0.859)和astroBERT(MLM)(0.893)。
- astroBERT(NSP+MLM)在ADS数据集上的困惑度为5.71,表明其在天文学文本上具有出色的语言建模性能。
- astroBERT(MLM)与BERT的词汇重叠度为24.5%,与SciBERT的词汇重叠度为35.3%,表明其具有显著的领域特异性适应性。
- 在包含38亿词的完整ADS数据集上进行训练,显著提升了科学文本的性能,ADS数据集上的困惑度从BERT的41.3降至astroBERT的4.16。
- 命名实体识别微调仅需3个周期,每个周期约90秒,表明其具有高效的适应能力。
- 在配备两块V100 GPU和768GB内存的系统上,MLM训练每周期耗时约8小时,NSP+MLM训练每周期耗时约22小时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。