[논문 리뷰] Don't Forget to Connect! Improving RAG with Graph-based Reranking
G-RAG은 AMR 기반 문서 그래프를 통해 문서 간 연결을 이용하는 그래프 신경망 기반 재정렬기를 도입하여 RAG를 개선하고, 낮은 계산으로 베이스라인을 능가합니다. PaLM 2를 재정렬기로 사용할 경우 제로샷 재정렬에서 G-RAG에 비해 성능이 떨어집니다.
Retrieval Augmented Generation (RAG) has greatly improved the performance of Large Language Model (LLM) responses by grounding generation with context from existing documents. These systems work well when documents are clearly relevant to a question context. But what about when a document has partial information, or less obvious connections to the context? And how should we reason about connections between documents? In this work, we seek to answer these two core questions about RAG generation. We introduce G-RAG, a reranker based on graph neural networks (GNNs) between the retriever and reader in RAG. Our method combines both connections between documents and semantic information (via Abstract Meaning Representation graphs) to provide a context-informed ranker for RAG. G-RAG outperforms state-of-the-art approaches while having smaller computational footprint. Additionally, we assess the performance of PaLM 2 as a reranker and find it to significantly underperform G-RAG. This result emphasizes the importance of reranking for RAG even when using Large Language Models.
연구 동기 및 목표
- 검색된 문서들 간의 연결을 활용하여 ODQA에서 RAG 성능을 향상시키는 동기를 제시한다.
- AMR 정보를 활용한 문서 그래프를 이용한 그래프 기반 재정렬이 문서 간 관계를 인코딩하는지 조사한다.
- 지식 그래프나 대형 AMR 토큰 기반 접근법에 비해 계산 오버헤드를 감소시킨다.
- 제로샷 환경에서 PaLM 2를 재정렬기로서의 효과를 평가한다.
- 재정렬 시나리오에서 랭킹 동점 여부를 다루는 강건한 평가 지표를 제안한다.
제안 방법
- 상위 100개 검색 문서에 대해 노드가 문서이고 간선은 공유된 AMR 개념을 나타내는 문서 그래프를 구성한다.
- 사전 학습된 인코더로 문서를 인코딩하고 노드 특징에 AMR 경로 기반 의미 정보를 보강한다.
- 간선 특징은 AMR 그래프 간의 공통 노드 수와 공통 간선 수로 정의하고 안정성을 위해 정규화한다.
- 간선 특징으로 이웃 기여를 가중치하는 메시지 전달 방식의 그래프 신경망을 사용하여 노드 표현을 업데이트한다.
- 질문 임베딩과 최종 노드 표현의 내적을 재정렬 점수로 계산하고 문서 순서를 최적화하기 위해 쌍별 순위 손실로 학습한다.
- 점수 동점을 고려하기 위해 MRR, MHits@10 및 동점 순위 변형(MTRR, TMHits@10)을 사용하여 평가한다.
실험 결과
연구 질문
- RQ1문서 수준의 연결(AMR 기반 그래프를 통해)이 ODQA용 RAG의 문서 재정렬 성능을 향상시킬 수 있는가?
- RQ2AMR-정보를 활용한 노드/간선 특징이 재정렬 성능과 계산 비용에 어떤 영향을 미치는가?
- RQ3그래프 기반 재정렬기가 제로샷 설정에서 순수 LM 기반 재정렬기보다 우수한가, 그리고 대형 LLM은 재정렬기로서 어떤 성능을 보이는가?
- RQ4랭킹 점수에 동점이 포함될 때 어떤 지표가 성능을 가장 잘 포착하는가?
- RQ5G-RAG 성능에 서로 다른 임베딩 모델이 미치는 영향은 무엇인가?
주요 결과
| 전략 | MRR_NQ | MH_NQ | MRR_TQA | MH_TQA |
|---|---|---|---|---|
| w/o reranker | 20.2 | 18.0 | 37.9 | 34.6 |
| BART | 25.7 | 23.3 | 49.3 | 45.8 |
| BART-GST | 28.4 | 25.0 | 53.2 | 48.7 |
| RGCN-S | 26.1 | 23.1 | 49.5 | 46.0 |
| MLP | 19.2 | 17.8 | 40.0 | 38.8 |
| GCN | 22.6 | 22.4 | 47.6 | 44.2 |
| G-RAG | 25.1 | 24.2 | 49.1 | 47.2 |
| G-RAG-RL | 27.3 | 25.7 | 49.2 | 47.4 |
| PaLM 2 XS | 14.9 | 14.0 | 34.1 | 34.2 |
| PaLM 2 L | 18.6 | 17.9 | 40.7 | 39.7 |
| G-RAG-RL (PaLM 2) | 27.3 | 25.7 | 49.2 | 47.4 |
- G-RAG-RL(쌍별 손실을 사용하는 그래프 기반 재정렬기)은 미세조정 없이 Natural Questions 및 TriviaQA에서 베이스라인 대비 강력한 MRR 및 MHits@10 이득을 달성한다.
- AMR 유래의 문서 간 연결을 도입하면 비그래프 기반 베이스라인 대비 최대 ~7 퍼센트 포인트의 성능 향상을 얻을 수 있다.
- 임베딩 모델 중 Ember, GTE, 및 BGE가 강력한 이득을 제공하며, Ember(HPs-T)는 하이퍼파라미터 조정 후 안정적인 성능을 보인다.
- 제로샷 재정렬기로서 PaLM 2는 G-RAG 변형에 비해 성능이 떨어지며, 강력한 LLM에도 재정렬기 설계의 중요성이 강조된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.