Skip to main content
QUICK REVIEW

[論文レビュー] Halo: Domain-Aware Query Optimization for Long-Context Question Answering

Pramod Chunduri, Francisco Romero|arXiv (Cornell University)|Mar 18, 2026
Topic Modeling被引用数 0
ひとこと要約

Halo はユーザープロンプトからドメイン知識を構造化指示(構造化・フィルタ・検証)として自動抽出し、それを多段階のQAパイプラインに適用して、長文脈の質問に対する精度を向上させコストを削減します。

ABSTRACT

Long-context question answering (QA) over lengthy documents is critical for applications such as financial analysis, legal review, and scientific research. Current approaches, such as processing entire documents via a single LLM call or retrieving relevant chunks via RAG have two drawbacks: First, as context size increases, response quality can degrade, impacting accuracy. Second, iteratively processing hundreds of input documents can incur prohibitively high costs in API calls. To improve response quality and reduce the number of iterations needed to get the desired response, users tend to add domain knowledge to their prompts. However, existing systems fail to systematically capture and use this knowledge to guide query processing. Domain knowledge is treated as prompt tokens alongside the document: the LLM may or may not follow it, there is no reduction in computational cost, and when outputs are incorrect, users must manually iterate. We present Halo, a long-context QA framework that automatically extracts domain knowledge from user prompts and applies it as executable operators across a multi-stage query execution pipeline. Halo identifies three common forms of domain knowledge - where in the document to look, what content to ignore, and how to verify the answer - and applies each at the pipeline stage where it is most effective: pruning the document before chunk selection, filtering irrelevant chunks before inference, and ranking candidate responses after generation. To handle imprecise or invalid domain knowledge, Halo includes a fallback mechanism that detects low-quality operators at runtime and selectively disables them. Our evaluation across finance, literature, and scientific datasets shows that Halo achieves up to 13% higher accuracy and 4.8x lower cost compared to baselines, and enables a lightweight open-source model to approach frontier LLM accuracy at 78x lower cost.

研究の動機と目的

  • 長文書(例:10-K報告書)における長文脈QAの非効率を、Vanilla LLMsやRAGを用いる従来手法で解消する動機付けと対処
  • プロンプト内の自由形式ドメイン知識を自動的に構造化指示へ変換する
  • これらの指示を実行可能な演算子として、多段パイプライン全体で適用し、文脈を絞り込み、チャンクをフィルタリングし、回答を検証する
  • 低品質な指示を大きなオーバーヘッドなく扱うフォールバック機構を提供する
  • 金融・文学・科学データセットでの領域横断的効果とコスト削減を示す

提案手法

  • KnowledgeParser はユーザープロンプトを三つの指示セットに変換する:構造化(S)、フィルタ(F)、検証(V)
  • 構造化は文書内のどこを見に行くかを指示し、チャンク分割前に内容を絞り込む
  • フィルタは軽量モデルを用いて高価な推論の前に関連性のないチャンクを除外する
  • 検証は正と負の制約を用いて候補回答をランク付けし、幻覚を検出して低評価化する
  • フォールバックマネージャは実行時に演算子の性能低下を検知し、問題のある演算子を選択的に無効化する
  • 評価は、ベースラインに対して最大13%の精度向上と最大4.8xのコスト低減を示し、軽量なオープンモデルが最先端のLLMに近い精度を約78分の1のコストで達成し、ドメイン演算子によるオーバーヘッドは2%程度に留まる
Figure 1. VanillaLLM and RAG cannot utilize user’s domain knowledge effectively for long-context QA. Halo extracts this knowledge and systematically applies it in a multi-stage query optimization pipeline.
Figure 1. VanillaLLM and RAG cannot utilize user’s domain knowledge effectively for long-context QA. Halo extracts this knowledge and systematically applies it in a multi-stage query optimization pipeline.

実験結果

リサーチクエスチョン

  • RQ1Halo は長文ドキュメントを跨ぐドメインで、精度とコストの点でベースラインの長文脮信解LLMや標準RAGを上回ることができるか。
  • RQ2自動抽出されたドメイン知識(S, F, V)が文脈絞り込み、チャンクフィルタリング、回答検証にどのように影響するか。
  • RQ3指示が不正確または無効な場合のランタイムフォールバック機構がロバスト性へ与える影響はどの程度か。
  • RQ4Halo により軽量モデルが frontier LLM の精度に近づく一方で、コスト削減をどの程度達成できるか。

主な発見

  • Halo はベースラインと比較して最大13%の精度向上を達成。
  • Halo はベースラインと比較して最大4.8xのコスト低減を達成。
  • Halo により軽量オープンソースモデルが frontier LLM の精度に近づき、コストを78分の1に抑えられる。
  • ドメイン演算子は全体のクエリコストに約2%のオーバーヘッドを追加するだけ。
  • この手法は金融・文学・科学データセットの各領域で有効性を示す。
Figure 2. Workflow of Halo : (1) the KnowledgeParser extracts domain directives from the user prompt, (2) the ContextSelector prunes structural elements using the Structural operator and identifies the top- $k$ relevant chunks, (3) the InferenceEngine applies the Filter operator to discard irrelevan
Figure 2. Workflow of Halo : (1) the KnowledgeParser extracts domain directives from the user prompt, (2) the ContextSelector prunes structural elements using the Structural operator and identifies the top- $k$ relevant chunks, (3) the InferenceEngine applies the Filter operator to discard irrelevan

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。