[論文レビュー] Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark
この論文は、エージェント型フェデレーテッド KGQA の SPARQL-MCP を導入し、結合された FK GQA ベンチマークを構築し、三つの設定で LLM エージェント(GPT-5.2 および Qwen3-8B)を評価して、GPT-5.2 が 42.1–45.4% の精度を達成することを示し、エンドポイントの高レベル説明がパフォーマンスに与える影響を強調します。
Standard protocols such as the Model Context Protocol (MCP) that allow LLMs to connect to tools have recently boosted "agentic" AI applications, which, powered by LLMs' planning capabilities, promise to solve complex tasks with the access of external tools and data sources. In this context, publicly available SPARQL endpoints offer a natural connection to combine various data sources through MCP by (a) implementing a standardised protocol and query language, (b) standardised metadata formats, and (c) the native capability to federate queries. In the present paper, we explore the potential of SPARQL-MCP-based intelligent agents to facilitate federated SPARQL querying: firstly, we discuss how to extend an existing Knowledge Graph Question Answering benchmark towards agentic federated Knowledge Graph Question Answering (FKGQA); secondly, we implement and evaluate the ability of integrating SPARQL federation with LLM agents via MCP (incl. endpoint discovery/source selection, schema exploration, and query formulation), comparing different architectural options against the extended benchmark. Our work complements and extends prior work on automated SPARQL query federation towards fruitful combinations with agentic AI.
研究の動機と目的
- KGQA ベンチマークをエージェント型フェデレーテッド KGQA(FKGQA)へ拡張する。
- エンドポイント発見、スキーマ探索、フェデレーションを可能にする SPARQL-MCP サーバを開発する。
- 最新の大規模言語モデル(LLM)を用いてエージェント型 SPARQL を建設的な設計で評価する。
- フェデレーテッド設定におけるモデル挙動、エンドポイント発見パターン、クエリ効率を分析する。
提案手法
- 動的エンドポイント探索と VoID メタデータ処理に対応するフェデレーテッド照会の SPARQL-MCP 拡張を提案する。
- 複数サービスの SERVICE 呼び出しを管理しエンドポイントブロックを解消するプロキシフェデレーションエンジンを統合する。
- Spider4SPARQL をフェデレーテッド KGQA ベンチマークへ拡張し、垂直・クラスベース・水平シャード分割を適用する。
- ReAct スタイルのエージェントと MSP(MCP)ツールを用いて、3 つのエージェント型設定(ベースライン、高レベルエンドポイント説明、void_tool VoID 取得)を評価する。
- GPT-5.2 および Qwen3-8B に対して、統語的妥当性、パイプライン精度、エンドポイント精度、挙動パターンを測定する。
実験結果
リサーチクエスチョン
- RQ1エージェント型 SPARQL エージェントは自然言語質問からエンドポイントを自律的に発見し、スキーマを探索し、フェデレーテッド SPARQL クエリを組み立てられるか。
- RQ2エンドポイント発見とスキーマ探索戦略がフェデレーテッド KGQA の精度と効率にどう影響するか。
- RQ3高容量モデル(GPT-5.2)と小型モデル(Qwen3-8B)のエージェント型 SPARQL タスクの性能差はどのようか。
- RQ4高レベルのエンドポイント説明を提供すると、ソース選択が改善され不要なフェデレーションが減るか。
主な発見
- GPT-5.2 は 42.1%(ベースライン)、45.4%(高レベル)、43.5%(void_tool)という精度を達成し、フェデレーションの複雑さにもかかわらず Spider4SPARQL の最先端と同等程度である。
- Qwen3-8B は 13.1%(ベースライン)、13.2%(高レベル)、13.8%(void_tool)で、GPT-5.2 より大幅に低い。
- 全実行における統語的成功率は 75.7%(29,431/38,886)、GPT-5.2 が 97.4–98.0%、Qwen が 41.5–61.1%。
- GPT-5.2 はベースラインでエンドポイント参照率が高く(90.7%)、void_tool で 91.7%、高レベルでは 25.8% と低い一方、Qwen-8B は void_tool でエンドポイント成功率 98.6% を達成。
- GPT-5.2 のクエリの大部分はベースラインで自明なフェデレーション(90.2–91.7%)、高レベルで 11.0% に低下。Qwen-8B は引き続き非常に自明(68.5–98.6%)。
- 現実的なフェデレーションは平均 4.84 シャードに及び、クエリの 24.49% が正確に 1 シャードと一致、データセット間の平均ファンアウトは 6.48 シャード(最小 2、最大 14)。
- VoID 取得呼び出しは設定間で約 1.0–1.1 回、全体のエンドツーエンド実行時間の中央値はモデルにより 16.3–31.9 秒程度。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。