[论文解读] Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models
该论文提出一种简单、与模型无关的工作流,使用大语言模型并可选的人类监督,从全文论文中提取材料数据,在中等规模数据库中实现高精度和高召回,编码量最少。
Accurate and comprehensive material databases extracted from research papers are crucial for materials science and engineering, but their development requires significant human effort. With large language models (LLMs) transforming the way humans interact with text, LLMs provide an opportunity to revolutionize data extraction. In this study, we demonstrate a simple and efficient method for extracting materials data from full-text research papers leveraging the capabilities of LLMs combined with human supervision. This approach is particularly suitable for mid-sized databases and requires minimal to no coding or prior knowledge about the extracted property. It offers high recall and nearly perfect precision in the resulting database. The method is easily adaptable to new and superior language models, ensuring continued utility. We show this by evaluating and comparing its performance on GPT-3 and GPT-3.5/4 (which underlie ChatGPT), as well as free alternatives such as BART and DeBERTaV3. We provide a detailed analysis of the method's performance in extracting sentences containing bulk modulus data, achieving up to 90% precision at 96% recall, depending on the amount of human effort involved. We further demonstrate the method's broader effectiveness by developing a database of critical cooling rates for metallic glasses over twice the size of previous human curated databases.
研究动机与目标
- 促进从文本高效提取材料数据以构建中等规模数据库。
- 提出一个灵活的工作流,利用通用的 LLM,最小编码量和可选的人类监督。
- 展示该方法在多种模型与属性上实现高精度和高召回。
- 通过构建关于体积模量句子的数据库以及一个更大规模的金属玻璃临界冷却速率数据库来演示适用性。
提出的方法
- 将论文拆分为句子,并使用一个零-shot 的 LLM 来将句子分类为包含目标性质。
- 可选地用一个小型人工验证数据集对 LLM 进行微调以提高精度和召回(步骤2)。
- 将正句中的数据结构化为完整的数据点(材料、数值、单位,以及可选的温度),并让人类参与以确保高精度(步骤3)。
- 提供一个轻量级工作流,几乎不需要编码,并且可适配不同的 LLM 与属性。
- 比较 GPT-3、GPT-3.5/4 以及开源模型如 BART 和 DeBERTaV3 的性能,以体积模量提取作为基准进行评估。
实验结果
研究问题
- RQ1简单的零-shot 句子分类能否由 LLM 识别出全文中包含给定材料性质的句子?
- RQ2可选的人机互操作的微调如何影响中等规模数据提取任务的精度与召回?
- RQ3使用该工作流构建约 1000 条目数据库的实际数据吞吐量和人工时间成本是多少?
- RQ4该方法是否能够在不进行大幅再工程的情况下适应不同的属性和语言模型?
主要发现
- 使用 LLM 的零-shot 句子分类可以以较高的召回率识别包含目标属性的句子;精度随模型与提示而异。
- 可选的步骤2 人工辅助微调可以提高精度和召回,从而在最终结构化数据中实现近乎完美的精度。
- 步骤3 的数据结构化,在模型概率和人工评审的引导下,实现几近完美的精度同时保持高召回,使数据库在一个工作日内达到约 1000 条目。
- GPT-3/3.5/4 和开源模型(BART、DeBERTaV3)均可使用,性能因模型与提示而异;聊天模型在其单一报告点中给出 100% 召回。
- 对于体积模量,该方法在人工投入和使用的模型不同的情况下,精度最高可达 90%,召回率为 96%。
- 通过开发一个金属玻璃临界冷却速率数据库,规模是之前人工整理数据库的两倍,展示了更广泛的实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。