[논문 리뷰] Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering
본 논문은 CDC 문서에 대한 정책 질문 응답에 대해 Vanilla LLM, Basic RAG, Advanced RAG 파이프라인을 (cross-encoder 재랭킹과 함께) 실증적으로 비교하고, cross-encoder 재랭킹이 신뢰도와 적합성을 크게 향상시키며, Advanced RAG가 가장 높은 점수를 달성한다는 것을 보여준다.
The integration of Large Language Models (LLMs) into the public health policy sector offers a transformative approach to navigating the vast repositories of regulatory guidance maintained by agencies such as the Centers for Disease Control and Prevention (CDC). However, the propensity for LLMs to generate hallucinations, defined as plausible but factually incorrect assertions, presents a critical barrier to the adoption of these technologies in high-stakes environments where information integrity is non-negotiable. This empirical evaluation explores the effectiveness of Retrieval-Augmented Generation (RAG) architectures in mitigating these risks by grounding generative outputs in authoritative document context. Specifically, this study compares a baseline Vanilla LLM against Basic RAG and Advanced RAG pipelines utilizing cross-encoder re-ranking. The experimental framework employs a Mistral-7B-Instruct-v0.2 model and an all-MiniLM-L6-v2 embedding model to process a corpus of official CDC policy analytical frameworks and guidance documents. The analysis measures the impact of two distinct chunking strategies, recursive character-based and token-based semantic splitting, on system accuracy, measured through faithfulness and relevance scores across a curated set of complex policy scenarios. Quantitative findings indicate that while Basic RAG architectures provide a substantial improvement in faithfulness (0.621) over Vanilla baselines (0.347), the Advanced RAG configuration achieves a superior faithfulness average of 0.797. These results demonstrate that two-stage retrieval mechanisms are essential for achieving the precision required for domain-specific policy question answering, though structural constraints in document segmentation remain a significant bottleneck for multi-step reasoning tasks.
연구 동기 및 목표
- 공중 보건 맥락에서 망상을 줄이기 위해 LLM 출력의 근거를 권위 있는 정책 지침에 기반하도록 정당화한다.
- CDC 정책 문서 말뭉치에 대해 검색 보강 생성 파이프라인을 평가한다.
- 답변의 신뢰도와 적합성에 대한 청크 분할 전략과 두 단계 검색의 영향을 정량화한다.
제안 방법
- 초기 검색에는 Bi-Encoder를, 재랭킹에는 Cross-Encoder를 사용하는 이중 단계 검색 파이프라인을 구현한다.
- 임베딩 모델(all-MiniLM-L6-v2)과 Cross-encoder(ms-marco-MiniLM-L-6-v2)로 CDC 정책 문서 말뭉치를 처리한다.
- 검색을 Over-Retrieve 및 Filter로 형식화하여 LLM 프롬프트에 상위 k 후보를 선택한다.
- 세 가지 시스템 구성( Vanilla LLM, Basic RAG, Advanced RAG)을 비교한다.
- 10문제 평가 집합에 걸친 신뢰도와 적합성 점수로 성능을 측정한다.
- 정성적 예제를 제공하고 Advanced RAG에서의 실패 모드 및 복구를 분석한다.
실험 결과
연구 질문
- RQ1고급 검색 기법(교차 인코더 재랭킹)이 정책 QA 출력의 신뢰도와 적합성을 얼마나 개선하는가?
- RQ2청크 분할 전략이 정책 답변의 근거화에 미치는 영향은 무엇인가?
- RQ3높은 정밀도의 정책 근거 응답을 달성하기 위해 이중 단계 검색 파이프라인이 필요한가?
주요 결과
| QID | Van 신뢰도 | Bas 신뢰도 | Adv 신뢰도 | Van 적합성 | Bas 적합성 | Adv 적합성 |
|---|---|---|---|---|---|---|
| Q1 | 0.33 | 0.33 | 0.67 | 0.50 | 1.00 | 1.00 |
| Q2 | 0.33 | 0.67 | 0.83 | 0.33 | 1.00 | 1.00 |
| Q3 | 0.33 | 1.00 | 1.00 | 0.67 | 1.00 | 1.00 |
| Q4 | 0.33 | 0.33 | 0.16 | 0.50 | 0.50 | 0.50 |
| Q5 | 0.25 | 0.50 | 0.25 | 0.33 | 0.67 | 0.33 |
| Q6 | 0.33 | 0.67 | 1.00 | 0.33 | 0.80 | 1.00 |
| Q7 | 0.00 | 0.71 | 0.29 | 0.00 | 1.00 | 0.50 |
| Q8 | 0.40 | 0.00 | 0.80 | 0.50 | 0.00 | 0.67 |
| Q9 | 0.50 | 1.00 | 1.00 | 0.67 | 1.00 | 1.00 |
| Q10 | 0.67 | 1.00 | 1.00 | 0.67 | 1.00 | 1.00 |
- 정책 근거 작업에서 Vanilla LLM은 망상으로 인해 성능이 낮다.
- Basic RAG는 신뢰도(0.621)가 Vanilla(0.347)보다 크게 향상되고, 적합성(0.70이 일부 케이스에서 0.45를 상회)도 향상된다.
- Advanced RAG는 교차 인코더 재랭킹을 활용해 최고 평균 신뢰도(0.797)와 전반적 근거화를 달성한다.
- 이중 단계 검색(바이-인코더 후 크로스-인코더)은 크로스-인코더 평가를 작은 후보 집합(top-k)로 제한함으로써 정밀도를 크게 향상시킨다.
- 정성적 사례에서 Advanced RAG는 CDC 프레이밍과 일치하는 정책 맥락을 검색하여 정책 맥락의 이탈과 망상을 줄인다.
- Basic RAG는 검색된 맥락이 무관한 경우 변동성이 크고 일부 질의에서 실패할 수 있지만, Advanced RAG는 정밀한 토큰 수준 정렬로 회복한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.