Skip to main content
QUICK REVIEW

[论文解读] Annotating and Extracting Synthesis Process of All-Solid-State Batteries from Scientific Literature

Fusataka Kuniyoshi, Kohei Makino|arXiv (Cornell University)|Feb 17, 2020
Machine Learning in Materials Science参考文献 35被引用 23
一句话总结

本文介绍了SynthASSBs语料库,这是一个新型数据集,包含243个全固态电池(ASSB)合成过程的流程图标注,以及一种结合深度学习序列标注器和基于规则的关系抽取器的自动化机器阅读框架。该系统在实体检测任务中取得0.826的宏平均F1分数,在关系抽取任务中取得0.887的宏平均F1分数,实现了从科学文献中结构化提取合成过程,以支持计算材料设计。

ABSTRACT

The synthesis process is essential for achieving computational experiment design in the field of inorganic materials chemistry. In this work, we present a novel corpus of the synthesis process for all-solid-state batteries and an automated machine reading system for extracting the synthesis processes buried in the scientific literature. We define the representation of the synthesis processes using flow graphs, and create a corpus from the experimental sections of 243 papers. The automated machine-reading system is developed by a deep learning-based sequence tagger and simple heuristic rule-based relation extractor. Our experimental results demonstrate that the sequence tagger with the optimal setting can detect the entities with a macro-averaged F1 score of 0.826, while the rule-based relation extractor can achieve high performance with a macro-averaged F1 score of 0.887.

研究动机与目标

  • 为解决科学文献中全固态电池(ASSB)合成过程缺乏标注的结构化数据的问题。
  • 开发一种机器阅读系统,可自动从ASSB研究论文的实验部分提取逐步的合成过程。
  • 创建一个以合成流程图为标注方式的领域特定语料库,以支持无机材料化学中的下游计算设计。
  • 实现实验参数、操作及其序列的自动化、结构化提取,用于材料发现流程。

提出的方法

  • 将合成过程表示为有向无环图(DAG),其中顶点代表材料、操作和条件,边代表程序性关系和指代关系。
  • 基于深度学习的序列标注模型使用BIO标注方案,用于识别文本中的实体,如材料、操作和属性。
  • 基于规则的关系抽取器利用词距和句法线索,将操作与材料或条件关联,通过启发式方法解决共指和序列依赖问题。
  • 语料库名为SynthASSBs,由243篇ASSB研究论文的实验部分构建而成,并通过评分者间一致性测量确保可靠性。
  • 使用实体检测和关系抽取任务的宏平均F1分数对框架进行评估。
  • 部署了一个网络应用原型,以演示从输入文本实时提取合成过程的功能。

实验结果

研究问题

  • RQ1基于深度学习的序列标注器能否准确识别ASSB文献中的关键合成实体(如材料、操作、条件)?
  • RQ2基于规则的关系抽取器能否有效从非结构化文本中重建ASSB合成的程序流程?
  • RQ3与基线方法相比,该组合框架在实体和关系抽取任务中的表现如何?
  • RQ4当前抽取流程的主要失败模式是什么,如何加以改进?

主要发现

  • 基于深度学习的序列标注器在检测材料、操作和属性等合成实体方面,取得了0.826的宏平均F1分数。
  • 基于规则的关系抽取器在识别操作与材料或条件之间关系方面,取得了0.887的宏平均F1分数。
  • 序列标注中的过检测和欠检测错误主要源于无关属性(如容器尺寸)以及罕见形容词或单位(如“naturally”、“mm-thick”)。
  • 关系抽取中的主要错误来源是忽略句法结构的距离规则(73处错误)和复杂的分支/多流程序列(28处错误)。
  • 系统成功从一段示例文本中重建了完整的合成图,如图11和图12所示。
  • 作者指出,需要开发一种结合句法解析的基于深度学习的关系抽取器,以克服当前的局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。