[論文レビュー] Design and Evaluation of a Retrieval-Augmented Generation Architecture for OWASP Security Data
RAGAs は、参照なしの評価フレームワークを取得強化生成(RAG)システム向けに導入し、WikiEval データセットで補完され、人間の判断との整合性を示します。特に忠実度と回答の関連性に対して。
Project Description This archive contains a research artifact for the design, implementation, and evaluation of a Retrieval-Augmented Generation (RAG) system in the domain of application security. The artifact provides a complete, self-contained snapshot of the system architecture, curated evaluation data, and automated benchmarking pipelines. RAG System Architecture The archive includes a fully implemented RAG pipeline designed to ground large language model outputs in authoritative security documentation. The system follows a modular architecture with clearly separated components for document ingestion, semantic retrieval, and answer generation. The knowledge base is derived from OWASP Cheat Sheet Series and related security guidance, enabling security-focused question answering with reduced risk of hallucinated responses. Ground Truth Dataset A ground truth dataset is included to support systematic evaluation. The dataset consists of security-relevant questions and corresponding reference information derived from OWASP materials. It is intended exclusively for offline evaluation and benchmarking of RAG behavior and is not meant to serve as training data.
研究の動機と目的
- 複数の品質次元に渡るRAGシステムの自動化された、グラウンドトゥルースなしの評価を動機づける。
- グラウンドトゥルースの注釈なしで、忠実度、回答の関連性、文脈の関連性を評価する指標を提案する。
- モデルの訓練データを超えた最近のテキストイベントの人間支援評価のための WikiEval データセットを導入する。
- 一般的なRAGツールチェーン(llama-index, Langchain)との容易な統合を可能にするRAGAsフレームワークを提示する。
- 自動指標が人間の判断と相関することを示し、RAG開発の迅速化に寄与する。
提案手法
- RAG評価のための三つの中核的品質次元を定義する: 忠実度、回答の関連性、文脈の関連性。
- 各次元を推定するためのプロンプトと検証手順を、LLM(gpt-3.5-turbo-16k)を介して提案する。
- グラウンドトゥルースの回答に依存しない、完全に参照なしの評価プロトコルを構築する。
- ウィキ文脈で忠実度、回答の関連性、文脈の関連性に関する人間の判断を含む WikiEval データセットを作成する。
- 人間の判断との整合性を検証するため、二つのベースライン(GPT Score と GPT Ranking)とRAGAsを比較する。
- 人気のRAGフレームワーク(llama-index, Langchain)との統合を提供する。
実験結果
リサーチクエスチョン
- RQ1忠実度、回答の関連性、文脈の関連性は、グラウンドトゥルース参照なしでRAGシステムを信頼性高く評価できるだろうか?
- RQ2提案されたRAGAs指標は、RAG評価の既存ベースラインより人間の判断と良く一致するだろうか?
- RQ3長い取得文の文脈関連性を評価する際に、どんな課題が生じるだろうか?
- RQ4WikiEvalは、訓練データを超えた最近のイベントに対して実用的で最新の評価表面を提供できるか?
- RQ5標準的なRAGツールチェーンとの統合は実現可能で、開発者にとって有益か?
主な発見
| モデル | 忠実度 | 回答の関連性 | 文脈の関連性 |
|---|---|---|---|
| RAGAs | 0.95 | 0.78 | 0.70 |
| GPT Score | 0.72 | 0.52 | 0.63 |
| GPT Ranking | 0.54 | 0.40 | 0.52 |
- RAGAsはWikiEvalにおいて、忠実度(0.95)で人間の判断との高い一致を達成し、回答の関連性(0.78)および文脈の関連性(0.70)でも競争力のある整合性を示す。
- GPT Score および GPT Ranking のベースラインは、三つの次元すべてで人間の判断との整合性が著しく低い。
- 文脈の関連性は自動評価で最も困難な次元であり、長い文脈に対してモデルの判断と人間の判断の間に観察されたギャップがある。
- WikiEval は、導入部から生成された質問を含む、50ページのウィキペディア中心のケースを、二人のヒト評価者が注記して提供する。
- RAGAsは、自動化された参照なしの評価がRAGワークフローにおけるグラウンドトゥルースベースの評価に代わる実用的な選択肢となることを示している。
- RAGAsは、広く使用されているツールとシームレスに統合され、RAG研究者や実務家の採用を合理化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。