[論文レビュー] SF-RAG: Structure-Fidelity Retrieval-Augmented Generation for Academic Question Answering
SF-RAGは学術論文の native 階層構造を維持して構造忠実性リトリーバルを実行し、固定トークン予算の下でQAの証拠割り当てを改善し、取得の断片化を低減します。
Efficient question-answering (QA) over extensive scientific literature is essential for evidence-based engineering decision-making. Retrieval-augmented generation (RAG) is increasingly applied to question-answering over long academic papers, where accurate evidence allocation under a fixed token budget is critical. However, existing approaches flatten papers into unstructured chunks, destroying the native hierarchical structure and forcing retrieval to operate in a disordered space. This produces fragmented contexts, misallocates tokens to non-evidential regions, and increases the reasoning burden for downstream language models.To address these issues, we propose SF-RAG, an RAG framework that treats the native hierarchical structure of academic papers as a low-entropy retrieval prior.SF-RAG first inherits the native hierarchy to construct a structure-fidelity index, which prevents entropy increase at the source.It then designs a path-guided retrieval mechanism that aligns query semantics to relevant sections and selects high relevance root-to-leaf paths under a fixed token budget, yielding compact, coherent, and low-entropy retrieval contexts.In contrast to existing RAG approaches, SF-RAG avoids entropy increase caused by destructive preprocessing and provides a native low-entropy structural basis for subsequent retrieval. We further introduce entropy-based structural diagnostics to quantify retrieval fragmentation and evidence allocation accuracy.Evaluations across three QA benchmarks show that SF-RAG significantly reduces retrieval fragmentation and improves evidence allocation. These structural benefits drive superior answer quality, establishing a scalable foundation for intelligent engineering document systems and future applications in technical specifications.
研究の動機と目的
- 長大な科学文献に対するエビデンスベースのエンジニアリング意思決定のための効率的なQAを動機付ける。
- 論文を非構造化のチャンクに平坦化することの制約と、証拠割り当てへの影響を特定する。
- リトリーバルを強化する構造を維持するリトリーバル拡張生成フレームワークを提案する。
提案手法
- native 論文階層を継承して構造忠実性インデックスを構築する。
- クエリと関連セクションおよびルート-ツ-リーフパスをトークン予算下で合わせるパス案内リトリーバル機構を設計する。
- 破壊的な事前処理を避け、構造的文脈を保持することで低エントロピーのリトリーバルを実現する。
- エントロピーを用いた構造診断を導入し、断片化と証拠割り当てを定量化する。
実験結果
リサーチクエスチョン
- RQ1学術論文の native 階層構造を preserving することは RAG ベースの QA における取得の断片化を低減できるか?
- RQ2構造忠実性リトリーバルは固定トークン予算下で証拠割り当てと回答品質を改善するか?
- RQ3エントロピーに基づく構造診断は学術 QA における取得性能をどのように反映するか?
- RQ4パス案内リトリーバルはクエリを関連セクションへ整列させる影響はどの程度か?
主な発見
- SF-RAGはベースラインと比較して取得の断片化を大幅に低減する。
- SF-RAGは取得コンテキストの構造的一貫性を維持することで証拠割り当てを改善する。
- 構造認識的アプローチはトークン制約下の学術QAベンチマークで優れた回答品質を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。