[论文解读] RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
RAPTOR 构建一个自底向上的递归文本块和摘要树,以实现对长文档的多尺度、情境丰富的检索,从而提升 NarrativeQA、QASPER 与 QuALITY 的问答性能,尤其在 GPT-4 下。
Retrieval-augmented language models can better adapt to changes in world state and incorporate long-tail knowledge. However, most existing methods retrieve only short contiguous chunks from a retrieval corpus, limiting holistic understanding of the overall document context. We introduce the novel approach of recursively embedding, clustering, and summarizing chunks of text, constructing a tree with differing levels of summarization from the bottom up. At inference time, our RAPTOR model retrieves from this tree, integrating information across lengthy documents at different levels of abstraction. Controlled experiments show that retrieval with recursive summaries offers significant improvements over traditional retrieval-augmented LMs on several tasks. On question-answering tasks that involve complex, multi-step reasoning, we show state-of-the-art results; for example, by coupling RAPTOR retrieval with the use of GPT-4, we can improve the best performance on the QuALITY benchmark by 20% in absolute accuracy.
研究动机与目标
- 通过树形结构的多级文本块抽象,捕捉长距离话语来解决短上下文检索的局限性。
- 开发一个可扩展的流水线,递归地聚类、摘要和嵌入文本,以形成检索树。
- 在推理阶段实现来自多种抽象级别的检索,以支持各种题型和长度的问题。
提出的方法
- 将语料库分割为100-token的块,同时保持句子边界。
- 使用 SBERT(multi-qa-mpnet-base-cos-v1)将块嵌入,形成叶节点。
- 使用高斯混合模型进行聚类并结合 UMAP 进行降维;通过贝叶斯信息准则(BIC)确定簇的数量。
- 用语言模型(GPT-3.5-turbo)对每个簇进行摘要,并重新嵌入摘要以形成更高层级的树。
- 重复进行嵌入、聚类和摘要,直至因令牌限制而不可行,创建一个文本与摘要的自下而上的树。
- 通过两种策略进行检索:树遍历(逐层余弦相似度剪枝)和折叠树(在所有节点上进行扁平化搜索);支持者偏好折叠树以提升性能和灵活性。

实验结果
研究问题
- RQ1相比传统的基于块的检索,分层的、递归摘要的文本表示是否能提高对长文档的检索质量?
- RQ2多级抽象是否能够在问答任务中实现更好的多跳和基于主题的推理?
- RQ3不同查询策略(树遍历 vs. 折叠树)对检索有效性有何影响?
- RQ4聚类选择(GMM 与 UMAP)和摘要对整体问答性能及幻觉率有何影响?
主要发现
- RAPTOR 在 NarrativeQA、QASPER 和 QuALITY 数据集上持续优于 BM25 和 DPR 基线。
- 在 QASPER 与 GPT-4 上,RAPTOR 实现了 55.7% 的 F-1 Match,优于 CoLT5 XL 和之前的基线。
- 在 QuALITY 与 GPT-4 上,RAPTOR 达到 82.6% 的准确率,超越之前的最先进水平,尤其显著优于 QuALITY-HARD 基线。
- 在 NarrativeQA 上,RAPTOR 搭配 UnifiedQA 达到最先进的 METEOR,并获得强劲的 ROUGE/BLEU/METEOR 得分。
- 折叠树检索,最多可处理约2000个令牌(大约前20个节点),在所有评估数据集中表现最佳。
- 全树检索(使用多层)通常优于仅关注部分层的策略。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。