QUICK REVIEW

[논문 리뷰] SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation

Yuwei Wan, Yixuan Liu|arXiv (Cornell University)|2024. 05. 16.

Topic Modeling인용 수 5

한 줄 요약

SciQAG는 오픈 소스 프레임워크로, 오픈 LLM을 미세 조정하여 전체 텍스트 논문에서 960,000개의 과학 QA 쌍을 자동으로 생성하고, 다섯 차원 RACAR 지표로 품질을 평가합니다. 시드 QA 생성, 확장 가능한 QA 생성, 자동 평가를 포함하며, 데이터, 모델, 코드의 공개 Release를 제공합니다.

ABSTRACT

We introduce SciQAG, a novel framework for automatically generating high-quality science question-answer pairs from a large corpus of scientific literature based on large language models (LLMs). SciQAG consists of a QA generator and a QA evaluator, which work together to extract diverse and research-level questions and answers from scientific papers. Utilizing this framework, we construct a large-scale, high-quality, open-ended science QA dataset containing 188,042 QA pairs extracted from 22,743 scientific papers across 24 scientific domains. We also introduce SciQAG-24D, a new benchmark task designed to evaluate the science question-answering ability of LLMs. Extensive experiments demonstrate that fine-tuning LLMs on the SciQAG dataset significantly improves their performance on both open-ended question answering and scientific tasks. To foster research and collaboration, we make the datasets, models, and evaluation codes publicly available, contributing to the advancement of science question answering and developing more interpretable and reasoning-capable AI systems.

연구 동기 및 목표

SciQAG를 소개하는: 과학 기사의 QA 쌍 자동 생성을 위한 확장 가능한 프레임워크.
QA 품질을 다섯 차원 RACAR 평가 지표로 제안합니다(관련성, 비편향성, 완전성, 정확성, 합리성).
전체 텍스트 논문에서 고품질 QA 쌍 생성을 시연하고, 벤치마킹을 위한 데이터셋/모델을 공개합니다.

제안 방법

도메인 전문가 프롬프트를 사용한 GPT-4로 123편에서 시드 QA 생성을 통해 논문 지식을 추출합니다.
시드 QA 쌍으로 오픈 소스 LLM을 미세 조정하여 전체 텍스트 논문용 QA 생성기 G를 만듭니다.
QA 생성기를 전체 텍스트과학 논문 대규모 말뭉치에 적용해 QA 쌍을 생성합니다.
GPT-4 기반 RACAR 다섯 차원 및 추가 지표(다양성, 범위, 숫자 값 검증)를 통해 QA 쌍을 평가합니다.
선택적으로 시드 QA 데이터로 미세 조정하고 RACAR 점수를 필터로 사용해 데이터 품질을 반복적으로 개선합니다.

실험 결과

연구 질문

RQ1오픈 소스 LLM을 미세 조정해 전체 텍스트 과학 논문에서 고품질의 장문 QA 쌍을 생성할 수 있는가?
RQ2다섯 차원 RACAR 평가가 자동으로 생성된 과학 QA 쌍의 품질을 신뢰성 있게 반영하는가?
RQ3생성된 QA 쌍의 다양성과 원천 근거 확보 측면에서 범위와 수치 정확성은 얼마나 깨끗하고 근거 있는가?

주요 결과

모델	N	관련성	비편향성	완전성	정확성	합리성
GPT-3.5	10	2.81	2.40	2.65	2.62	2.88
Vicuna-finetuned (ours)	10	2.73	2.29	2.35	2.39	2.63
Vicuna-finetuned (ours)	100	2.76	2.28	2.34	2.44	2.66

프레임워크는 96,000편의 논문으로부터 960,000개의 QA 쌍을 생성하여 과학 문헌에서 확장 가능한 폐쇄형 시험 QA 데이터를 제공합니다.
QA 쌍은 GPT-4에 의해 평가될 때 다섯 차원에서 평균 RACAR 점수가 약 2.5/3에 도달하여 높은 품질을 나타냅니다.
시드 QA 데이터로 미세 조정된 오픈 소스 모델이 RACAR 지표에서 제로샷 프롬프트보다 우수한 성능을 보입니다.
생성된 질문은 상당한 다양성을 보이며, 100편의 논문에서 대부분의 쌍 간 유사도는 0.5 미만입니다.
논문 원문 문장에 대한 답변의 평균 커버리지 비율은 100편 기준 68%이며, 논문 조각의 약 64%에서 답이 소스됩니다.
생성된 값의 숫자 값은 대체로 원문과 일치하며(숫자 값의 96.7%), 답변의 54%가 수치를 포함합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.