[논문 리뷰] Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark
본 논문은 에이전트적 연합 KGQA를 위한 SPARQL-MCP를 도입하고, 결합된 FKGQA 벤치마크를 구축하며, 세 가지 설정에서 LLM 에이전트(GPT-5.2 및 Qwen3-8B)를 평가하여 GPT-5.2가 42.1–45.4%의 정확도를 달성하고, 고수준 엔드포인트 설명이 성능에 미치는 영향을 강조한다.
Standard protocols such as the Model Context Protocol (MCP) that allow LLMs to connect to tools have recently boosted "agentic" AI applications, which, powered by LLMs' planning capabilities, promise to solve complex tasks with the access of external tools and data sources. In this context, publicly available SPARQL endpoints offer a natural connection to combine various data sources through MCP by (a) implementing a standardised protocol and query language, (b) standardised metadata formats, and (c) the native capability to federate queries. In the present paper, we explore the potential of SPARQL-MCP-based intelligent agents to facilitate federated SPARQL querying: firstly, we discuss how to extend an existing Knowledge Graph Question Answering benchmark towards agentic federated Knowledge Graph Question Answering (FKGQA); secondly, we implement and evaluate the ability of integrating SPARQL federation with LLM agents via MCP (incl. endpoint discovery/source selection, schema exploration, and query formulation), comparing different architectural options against the extended benchmark. Our work complements and extends prior work on automated SPARQL query federation towards fruitful combinations with agentic AI.
연구 동기 및 목표
- KGQA 벤치마킹을 에이전트적 연합 KGQA(FKGQA)로 확장한다.
- 엔드포인트 발견, 스키마 탐색 및 연합를 가능하게 하는 SPARQL-MCP 서버를 개발한다.
- 아키텍처 구성을 가로지르는 최신 LLM을 사용한 에이전트형 SPARQL의 평가를 수행한다.
- 연합 설정에서 모델 동작, 엔드포인트 발견 패턴 및 쿼리 효율성을 분석한다.
제안 방법
- 동적 엔드포인트 탐색 및 VoID 메타데이터 처리를 포함하는 페더레이티드 질의를 위한 SPARQL-MCP 확장을 제안한다.
- 다중 서비스 SERVICE 호출을 관리하고 엔드포인트 차단을 해결하기 위해 프록시 연합 엔진을 통합한다.
- Spider4SPARQL을 수직, 클래스 기반, 수평 샤드 파티셔닝이 있는 페더레이티드 KGQA 벤치마크로 확장한다.
- ReAct 스타일 에이전트와 MSP(MCP) 도구를 사용하여 세 가지 에이전트형 구성(기준선, 고수준 엔드포인트 설명, void_tool VoID 검색)을 평가한다.
- GPT-5.2와 Qwen3-8B 전반에 걸친 구문 타당성, 파이프라인 정확도, 엔드포인트 정확도 및 행동 양상을 측정한다.
실험 결과
연구 질문
- RQ1에이전트형 SPARQL 에이전트가 자연어 질문으로부터 엔드포인트를 자율적으로 발견하고, 스키마를 탐색하며, 연합 SPARQL 쿼리를 형성할 수 있는가?
- RQ2엔드포인트 발견 및 스키마 탐색 전략이 페더레이티드 KGQA의 정확도와 효율성에 어떤 영향을 미치는가?
- RQ3대용량 모델(GPT-5.2)과 소형 모델(Qwen3-8B) 간의 에이전트형 SPARQL 작업에서의 성능 차이는 무엇인가?
- RQ4고수준 엔드포인트 설명을 제공하는 것이 소스 선택을 개선하고 불필요한 연합을 줄이는가?
주요 결과
- GPT-5.2는 기본선에서 42.1%, high_level에서 45.4%, void_tool에서 43.5%의 정확도를 달성했으며, 페더레이션의 복잡성에도 불구하고 Spider4SPARQL의 최첨단 성능에 근접했다.
- Qwen3-8B는 기본선에서 13.1%, high_level에서 13.2%, void_tool에서 13.8%의 정확도를 달성했으며, GPT-5.2에 비해 현저히 낮다.
- 구문적 성공률은 모든 실행에서 75.7%(29,431/38,886)였고 GPT-5.2에서 97.4–98.0%, Qwen에서 41.5–61.1%를 보였다.
- GPT-5.2는 기본선(90.7%)과 void_tool(91.7%)에서 높은 엔드포인트 상담 비율을 보였으나 high_level에서는 25.8%로 크게 감소했고, Qwen-8B는 void_tool에서 엔드포인트 성공률이 98.6%에 도달했다.
- GPT-5.2의 쿼리 대다수는 기본선에서 탁월한 연합이었으며(90.2–91.7%), high_level에서 11.0%로 감소했고, Qwen-8B는 여전히 매우 단순했다(68.5–98.6%).
- 실현된 페더레이션은 평균 4.84 샤드에 걸쳐 실행되었고, 정확히 한 샤드와 일치하는 쿼리는 24.49%였으며, 데이터셋 간 평균 팬아웃은 6.48 샤드(min 2, max 14)였다.
- VoID 검색 호출은 세팅 간 대략 1.0–1.1회로 나타났고, 전체 엔드투엔드 런타임의 중앙값은 모델에 따라 약 16.3–31.9초였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.