[논문 리뷰] ViHERMES: A Graph-Grounded Multihop Question Answering Benchmark and System for Vietnamese Healthcare Regulations
ViHERMES 데이터셋을 베트남 보건 규제에 대한 다단계 QA용으로 도입하고, 검색 기반 베이스라인보다 우수한 그래프 인식 QA 시스템을 제시한다.
Question Answering (QA) over regulatory documents is inherently challenging due to the need for multihop reasoning across legally interdependent texts, a requirement that is particularly pronounced in the healthcare domain where regulations are hierarchically structured and frequently revised through amendments and cross-references. Despite recent progress in retrieval-augmented and graph-based QA methods, systematic evaluation in this setting remains limited, especially for low-resource languages such as Vietnamese, due to the lack of benchmark datasets that explicitly support multihop reasoning over healthcare regulations. In this work, we introduce the Vietnamese Healthcare Regulations-Multihop Reasoning Dataset (ViHERMES), a benchmark designed for multihop QA over Vietnamese healthcare regulatory documents. ViHERMES consists of high-quality question-answer pairs that require reasoning across multiple regulations and capture diverse dependency patterns, including amendment tracing, cross-document comparison, and procedural synthesis. To construct the dataset, we propose a controlled multihop QA generation pipeline based on semantic clustering and graph-inspired data mining, followed by large language model-based generation with structured evidence and reasoning annotations. We further present a graph-aware retrieval framework that models formal legal relations at the level of legal units and supports principled context expansion for legally valid and coherent answers. Experimental results demonstrate that ViHERMES provides a challenging benchmark for evaluating multihop regulatory QA systems and that the proposed graph-aware approach consistently outperforms strong retrieval-based baselines. The ViHERMES dataset and system implementation are publicly available at https://github.com/ura-hcmut/ViHERMES.
연구 동기 및 목표
- 베트남 보건 환경에서 다단계 규제 QA의 필요성을 고취하고 적합한 벤치마크의 부족을 해결한다.
- 다양한 규제 간 의존 패턴을 가진 고품질의 증거 기반 데이터셋으로서 ViHERMES를 제안한다.
- 법적으로 타당하고 일관된 답변을 개선하기 위해 그래프 인식 검색 프레임워크(SRKG)와 다중 에이전트 QA 시스템을 개발한다.
- ViHERMES에서 제안된 시스템이 강력한 검색 기반 벤치라인 대비 이점을 보임을 실증한다.
제안 방법
- 의미 단위 클러스터링과 그래프에서 영감을 받은 데이터 마이닝을 결합한 파이프라인으로 일관된 규제 맥락을 선택하여 ViHERMES를 구성한다.
- 구조 주도 규제 지식 그래프(SRKG)에서 규제 단위를 구조적 및 법적 간선으로 노드로 표현한다.
- 규제 단위에 대한 시드 검색과 관계 인식 전파를 사용하여 경계 맥락 세트를 구성한다.
- 인터프리터, 파서라이더, 감사관, 지휘자 등 다중 에이전트 시스템을 활용하여 쿼리를 경로화하고, 증거를 검색하며, 근거를 검증하고, 답변을 생성한다.
- 토큰 수준 F1, LLM-판사 정확도 지표, 증거 검색 Recall@5로 평가한다.
- Naive RAG, IRCoT, 및 그래프 기반 벤치마크(MiniRAG, RAPTOR, LightRAG, HippoRAG2)와 비교한다.

실험 결과
연구 질문
- RQ1베트남 보건 규제에 걸친 다단계 추론을 어떻게 효과적으로 모델링하고 평가할 수 있는가?
- RQ2시드 검색과 관계 인식 전파를 갖춘 구조 주도 SRKG가 규제 QA에서 근거 확립과 정확도를 베이스라인보다 개선하는가?
- RQ3각 시스템 구성요소(Interpreter, Pathfinder, Auditor)가 전체 QA 성능에 미치는 영향은 무엇인가?
- RQ4그래프 인식 규제 QA에서 정확도, 근거 신뢰성, 추론 대기 시간 간의 트레이드오프는 무엇인가?
주요 결과
- ViHERMES는 평가된 방법들 중 F1, LLM Judge, Recall@5에서 최고 QA 성능을 달성한다.
- 제안된 시스템(Ours)은 ViHERMES 테스트 세트에서 F1 0.8334, LLM Judge 0.7554, Recall@5 0.8461를 달성한다.
- 감사관(Auditor) 또는 인터프리터(Interpreter)를 제거하면 성능이 저하되며, 근거 검증과 의도 라우팅의 중요성을 강조한다.
- 시드 SRKG 기반 검색과 관계 인식 전파가 평면적인 밀집-희소 검색 베이스라인 및 다른 그래프 베이스라인을 능가한다.
- 추론 지연 시간(~14.74초)은 RAPTOR와 비슷하거나 HippoRAG2보다 빠르며, 그래프 토큰의 효율적 활용을 보인다.
- Pathfinder를 구조 비인식 검색으로 교체하면 성능 저하가 크게 나타나며 SRKG 접근법의 타당성을 입증한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.