QUICK REVIEW

[論文レビュー] SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation

Yuwei Wan, Yixuan Liu|arXiv (Cornell University)|May 16, 2024

Topic Modeling被引用数 5

ひとこと要約

SciQAGは、オープンLLMのファインチューニングにより、全文から960,000件の科学QAペアを自動生成するオープンソースのフレームワークを提示し、品質を5次元RACARメトリクスで評価します。 seed QA生成、スケーラブルなQA生成、自動評価に加え、データ・モデル・コードの公開を含みます。

ABSTRACT

We introduce SciQAG, a novel framework for automatically generating high-quality science question-answer pairs from a large corpus of scientific literature based on large language models (LLMs). SciQAG consists of a QA generator and a QA evaluator, which work together to extract diverse and research-level questions and answers from scientific papers. Utilizing this framework, we construct a large-scale, high-quality, open-ended science QA dataset containing 188,042 QA pairs extracted from 22,743 scientific papers across 24 scientific domains. We also introduce SciQAG-24D, a new benchmark task designed to evaluate the science question-answering ability of LLMs. Extensive experiments demonstrate that fine-tuning LLMs on the SciQAG dataset significantly improves their performance on both open-ended question answering and scientific tasks. To foster research and collaboration, we make the datasets, models, and evaluation codes publicly available, contributing to the advancement of science question answering and developing more interpretable and reasoning-capable AI systems.

研究の動機と目的

SciQAG を紹介する、科学論文から QA ペアを自動生成するスケーラブルなフレームワーク。
関連性、無偏性、網羅性、正確性、合理性の5次元 RACAR 評価指標を提案する。
全文からの高品質なQAペア生成を実証し、科学分野のクローズドブックQAのベンチマーク用データセット/モデルを公開する。

提案手法

分野専門家プロンプトを用いたGPT-4で、123論文からシードQA生成を実施し、論文知識を蒸留する。
シードQAペアでオープンソースL LMをファインチューニングして、全文論文用のQAジェネレータ G を作成する。
QAジェネレータを大規模な全文科学記事コーパスに適用してQAペアを生成する。
GPT-4ベースの RACAR 指標を用いて5次元でQAペアを評価し、追加指標（多様性、網羅性、数値値の検証）も用いる。
任意でシードQAデータでファインチューニングし、RACARスコアをフィルターとしてデータ品質を反復的に向上させる。

実験結果

リサーチクエスチョン

RQ1オープンソースのLLMをファインチューニングして、全文の科学論文から高品質な長文QAペアを生成できるか？
RQ25次元 RACAR 評価は自動生成された科学QAペアの品質を信頼性高く反映するか？
RQ3生成されたQAペアは、カバレッジと数値精度の観点でどれだけ多様性があり、出典に基づいているか？

主な発見

モデル	N	関連性	無偏性	網羅性	正確性	合理性
GPT-3.5	10	2.81	2.40	2.65	2.62	2.88
Vicuna-finetuned (ours)	10	2.73	2.29	2.35	2.39	2.63
Vicuna-finetuned (ours)	100	2.76	2.28	2.34	2.44	2.66

このフレームワークは96,000論文から960,000のQAペアを生成し、科学文献からのスケーラブルなクローズドブックQAデータを実現する。
GPT-4で評価した場合、各次元で平均RACARスコアは約2.5/3となり、高品質を示す。
シードQAデータでファインチューニングしたオープンソースモデルは、他の選択肢の中でRACAR指標のゼロショットプロンプトよりも優れている。
生成された質問は大きな多様性を示し、100論文でほとんどのペアワイズ類似度が0.5未満である。
出典論文の文に対する回答の平均カバレッジ率は100論文で68%、回答は論文のチャンクの約64%から抽出される。
生成された回答の数値はほとんど出典本文に対応しており（数値の96.7%）、回答の54%に数字が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。