[論文レビュー] WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs
WeKnow-RAG はドメイン固有の知識グラフをマルチステージのウェブ検索と組み合わせた RAG システムに統合し、自己評価メカニズムを追加して幻覚を減らし、ドメイン横断の事実性を向上させる。ドメインのダイナミクスに応じて KG- およびウェブベースの取得を適応させ、CRAGタスクで競合的な性能を示す。
Large Language Models (LLMs) have greatly contributed to the development of adaptive intelligent agents and are positioned as an important way to achieve Artificial General Intelligence (AGI). However, LLMs are prone to produce factually incorrect information and often produce "phantom" content that undermines their reliability, which poses a serious challenge for their deployment in real-world scenarios. Enhancing LLMs by combining external databases and information retrieval mechanisms is an effective path. To address the above challenges, we propose a new approach called WeKnow-RAG, which integrates Web search and Knowledge Graphs into a "Retrieval-Augmented Generation (RAG)" system. First, the accuracy and reliability of LLM responses are improved by combining the structured representation of Knowledge Graphs with the flexibility of dense vector retrieval. WeKnow-RAG then utilizes domain-specific knowledge graphs to satisfy a variety of queries and domains, thereby improving performance on factual information and complex reasoning tasks by employing multi-stage web page retrieval techniques using both sparse and dense retrieval methods. Our approach effectively balances the efficiency and accuracy of information retrieval, thus improving the overall retrieval process. Finally, we also integrate a self-assessment mechanism for the LLM to evaluate the trustworthiness of the answers it generates. Our approach proves its outstanding effectiveness in a wide range of offline experiments and online submissions.
研究の動機と目的
- ドメイン間の多様な領域において、知識グラフ(KG)とウェブ検索を統合した Retrieval-Augmented Generation (RAG) フレームワークにより、LLM ベースの QA の事実性を向上させ、幻覚を低減する。
- 多様なドメインに対して、KG 主導とウェブ主導の情報をバランスさせるドメイン適応型検索パイプラインを開発する。
- 回答の信頼性を評価し、知識の開示を選択的に行うためのLLM用自己評価モジュールを導入する。
- オフラインおよびオンライン評価によって Comprehensive RAG Benchmark (CRAG) での有効性を示す。
提案手法
- KG ワークフローとウェブ検索ワークフローを統合したエンドツーエンドの WeKnow-RAG パイプライン。
- マルチステージのウェブ検索: 第1段階は疎な BM25 取得でK個の候補を生成、第2段階は 疎 BM25 と密な埋め込み類似度および リランクを用いたハイブリッド取得で、(bge-large-en-v1.5, bge-reranker-large) を使用。
- 効率的な取得のため、解析済み HTML のトークンレベルの分割によるチャンク化。
- 自己評価メカニズム: LLM が信頼度を high/medium/low で出力し、信頼度が閾値を満たす場合のみ回答を返す。満たさない場合は「I don’t know」と出力する。
- エンティティ、リレーションシップ、およびドメイン API を用いたドメイン固有の KG 構築。LLM によるドメイン分類、次にドメイン手がかりと構造化 KG クエリ。ルールベースおよび ML ベースの時系列/数値/論理推論による後処理。
- ドメイン情報の変動速度(静的、遅変更、速変更、リアルタイム)に基づき KG 対ウェブベース RAG の重みを統合的に調整する適応的フレームワーク。
実験結果
リサーチクエスチョン
- RQ1ドメイン固有の知識グラフをウェブベースの RAG と統合することで、さまざまなドメインで事実性を向上させ、幻覚を減らすことができるか?
- RQ2マルチステージ検索戦略(疎→ハイブリッド密度+リランキング)は、効率と正確さのバランスを効果的に取れるか?
- RQ3自己評価メカニズムは、RAG における誤りや不確かな出力を意味のある程度減らすことができるか?
- RQ4情報ダイナミクスが異なるドメインに対して、KG とウェブ要素をどのように適応的に組み合わせるべきか?
- RQ5CRAG における金融、スポーツ、音楽、映画、およびオープンドメインでどの程度の成果を達成できるか?
主な発見
- 本手法は Task 3 Version 2 で online accuracy 0.409、hallucination 0.316、missing 0.276、score 0.0929 を達成した。
- オフラインテストでは、四ドメイン分類およびオープンドメイン最適化を使用すると改善が見られ、単一ドメインのベースラインより高いスコア(0.1550)を達成した。
- チャンクサイズの実験では、設定の一部で 750 が最適と特定され、最終的な結果では 500 を選択。
- 高い閾値での信頼度自己評価は、より低い閾値より良いスコアを出した。
- KG 主導のクエリは高い精度と低エラー率をもたらすことがあり、自己評価を備えたウェブベース RAG は多様なソースを提示することにより幻覚を抑制する。
- このアプローチは CRAG ベンチマークの Task 3 最終評価で3位に入った。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。