[論文レビュー] ViHERMES: A Graph-Grounded Multihop Question Answering Benchmark and System for Vietnamese Healthcare Regulations
ViHERMES データセットを提案し、ベトナムの医療規制に対するマルチホップ QA と、リトリーバルベースの基準を凌駕するグラフ認識 QA システムを紹介します。
Question Answering (QA) over regulatory documents is inherently challenging due to the need for multihop reasoning across legally interdependent texts, a requirement that is particularly pronounced in the healthcare domain where regulations are hierarchically structured and frequently revised through amendments and cross-references. Despite recent progress in retrieval-augmented and graph-based QA methods, systematic evaluation in this setting remains limited, especially for low-resource languages such as Vietnamese, due to the lack of benchmark datasets that explicitly support multihop reasoning over healthcare regulations. In this work, we introduce the Vietnamese Healthcare Regulations-Multihop Reasoning Dataset (ViHERMES), a benchmark designed for multihop QA over Vietnamese healthcare regulatory documents. ViHERMES consists of high-quality question-answer pairs that require reasoning across multiple regulations and capture diverse dependency patterns, including amendment tracing, cross-document comparison, and procedural synthesis. To construct the dataset, we propose a controlled multihop QA generation pipeline based on semantic clustering and graph-inspired data mining, followed by large language model-based generation with structured evidence and reasoning annotations. We further present a graph-aware retrieval framework that models formal legal relations at the level of legal units and supports principled context expansion for legally valid and coherent answers. Experimental results demonstrate that ViHERMES provides a challenging benchmark for evaluating multihop regulatory QA systems and that the proposed graph-aware approach consistently outperforms strong retrieval-based baselines. The ViHERMES dataset and system implementation are publicly available at https://github.com/ura-hcmut/ViHERMES.
研究の動機と目的
- ベトナムの医療現場における規制QA のマルチホップの必要性を動機づけ、適切なベンチマークの欠如に対処する。
- 規制の多様な依存パターンを持つ高品質でエビデンスに基づくデータセットとして ViHERMES を提案する。
- グラフ認識リトリーバル枠組み(SRKG)とマルチエージェント QA システムを開発し、法的に妥当で首尾一貫した回答を改善する。
- ViHERMES で強力なリトリーバルベースの基準よりも提案システムの経験的利得を実証する。
提案手法
- 意味的クラスタリングとグラフ風データマイニングを組み合わせたパイプラインで一貫性のある規制文脈を選択して ViHERMES を構築する。
- 規制単位を構造駆動型規制知識グラフ(SRKG)のノードとして表現し、構造的および法的エッジを持つ。
- 種付きリトリーバルと関係認識伝播を用いて境界付き文脈セットを構築する。
- クエリをルーティングし、証拠を取得し、 grounding を検証し、回答を生成するためのマルチエージェントシステム(Interpreter、Pathfinder、Auditor、Conductor)を採用する。
- トークンレベルの F1、LLM-as-a-Judge の正確性指標、証拠取得の Recall@5 で評価する。
- Naive RAG、IRCoT、グラフベースの基準(MiniRAG、RAPTOR、LightRAG、HippoRAG2)と比較する。

実験結果
リサーチクエスチョン
- RQ1ベトナムの医療規制を横断するマルチホップ推論をどのように効果的にモデル化・評価できるか。
- RQ2種付きリトリーバルと関係認識伝播を備えた構造駆動型 SRKG は、規制QA における grounding と精度をベースラインより改善するか。
- RQ3各システム要素(Interpreter、Pathfinder、Auditor)が全体の QA パフォーマンスに与える影響は何か。
- RQ4グラフ認識規制QA における正確さ、grounding の信頼性、推論待機時間のトレードオフはどうなるか。
主な発見
| Method | F1 | LLM Judge | Recall@5 |
|---|---|---|---|
| Naive RAG (BM25) | 0.3076 | 0.2027 | 0.2617 |
| Naive RAG (Dense) | 0.3289 | 0.2433 | 0.3241 |
| Naive RAG (Hybrid) | 0.4127 | 0.3324 | 0.3989 |
| IRCoT | 0.4835 | 0.3751 | 0.4254 |
| MiniRAG | 0.5429 | 0.4856 | 0.5083 |
| RAPTOR | 0.5941 | 0.5783 | 0.5563 |
| LightRAG | 0.7855 | 0.6756 | 0.7256 |
| HippoRAG 2 | 0.8023 | 0.7332 | 0.8032 |
| Ours | 0.8334 | 0.7554 | 0.8461 |
| w/o Auditor | 0.8150 | 0.6823 | 0.8267 |
| w/o Interpreter | 0.6540 | 0.5434 | 0.6134 |
| w/o Pathfinder | 0.7734 | 0.6927 | 0.7955 |
- ViHERMES は評価対象の方法の中で F1、LLM Judge、Recall@5 の全てで最高の QA パフォーマンスを達成した。
- 提案システム(Ours)は ViHERMES テストセットで F1 0.8334、LLM Judge 0.7554、Recall@5 0.8461 を達成。
- Auditor または Interpreter を削除すると性能が低下し、 grounding 検証と意図ルーティングの重要性を浮き彫りにする。
- seeded SRKG ベースのリトリーバルと関係認識伝播は、平坦な密集・まばらリトリーバル基準や他のグラフ基準を上回る。
- 推論待機時間は (~14.74s) で RAPTOR と競合的で、HippoRAG2 より速く、グラフトークンの効率的利用を実現。
- アブレーション実験は、Pathfinder を非構造認識のリトリーバルと置換すると性能が大幅に低下することを示し、SRKG アプローチを検証。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。