[论文解读] SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation
SciQAG 提供一个开源框架,通过微调一个开放的大型语言模型,从全文论文自动生成 960,000 个科学 QA 对,并使用五维 RACAR 指标评估质量。它包括种子 QA 生成、可扩展的 QA 生成、以及自动评估,并公开发布数据、模型和代码。
We introduce SciQAG, a novel framework for automatically generating high-quality science question-answer pairs from a large corpus of scientific literature based on large language models (LLMs). SciQAG consists of a QA generator and a QA evaluator, which work together to extract diverse and research-level questions and answers from scientific papers. Utilizing this framework, we construct a large-scale, high-quality, open-ended science QA dataset containing 188,042 QA pairs extracted from 22,743 scientific papers across 24 scientific domains. We also introduce SciQAG-24D, a new benchmark task designed to evaluate the science question-answering ability of LLMs. Extensive experiments demonstrate that fine-tuning LLMs on the SciQAG dataset significantly improves their performance on both open-ended question answering and scientific tasks. To foster research and collaboration, we make the datasets, models, and evaluation codes publicly available, contributing to the advancement of science question answering and developing more interpretable and reasoning-capable AI systems.
研究动机与目标
- 介绍 SciQAG,一个可扩展的框架,用于从科研文章自动生成 QA 对。
- 提出一个五维 RACAR 评估指标,用于评估 QA 质量在相关性、来源中立性、完整性、准确性和合理性这五个维度上的表现。
- 展示从全文论文生成高质量 QA 对,并发布数据集/模型以用于科学领域闭卷问答的基准测试。
提出的方法
- 使用 GPT-4,结合领域专家提示,从 123 篇论文中生成种子 QA,以提炼论文知识。
- 在种子 QA 对上对开源 LLM 进行微调,以创建用于全文论文的 QA 生成器 G。
- 将 QA 生成器应用于大量全文科学文章,以生成 QA 对。
- 使用基于 GPT-4 的 RACAR 指标在五个维度以及额外指标(多样性、覆盖率、数值值有效性)对 QA 对进行评估。
- 可选地使用种子 QA 数据进行微调,并将 RACAR 分数作为筛选标准以迭代改进数据质量。
实验结果
研究问题
- RQ1能否将开源 LLM 微调到从全文科学文章生成高质量长篇 QA 对?
- RQ2五维 RACAR 评估是否能可靠地反映自动生成的科学 QA 对的质量?
- RQ3就覆盖范围和数字准确性而言,生成的 QA 对有多么多样且与来源相关?
主要发现
| 模型 | N | 相关性 | 来源中立性 | 完整性 | 准确性 | 合理性 |
|---|---|---|---|---|---|---|
| GPT-3.5 | 10 | 2.81 | 2.40 | 2.65 | 2.62 | 2.88 |
| Vicuna-finetuned (ours) | 10 | 2.73 | 2.29 | 2.35 | 2.39 | 2.63 |
| Vicuna-finetuned (ours) | 100 | 2.76 | 2.28 | 2.34 | 2.44 | 2.66 |
- 该框架从 96,000 篇论文生成 960,000 个 QA 对,使来自科学文献的闭卷 QA 数据具有可扩展性。
- 在 GPT-4 评估下,QA 对在各维度的平均 RACAR 得分约为 2.5(满分 3),表明质量较高。
- 在可用选项中,使用种子 QA 数据微调的开源模型在 RACAR 指标上优于零-shot 提示。
- 生成的问题显示出相当大的多样性,在 100 篇论文中大多数成对相似度低于 0.5。
- 在 100 篇论文中,对原文句子的答案的平均覆盖率为 68%,答案来自约 64% 的论文段落。
- 生成的答案中的数值大多与源文本一致(数值 96.7%),有 54% 的答案包含数字。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。