[論文レビュー] RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
RAPTORは再帰的なテキストチャンクと要約からボトムアップのツリーを構築し、長文ドキュメントに対するマルチスケールで文脈豊かな検索を実現する。NarrativeQA、QASPER、QuALITYにおけるQA性能を向上させ、特にGPT-4とともに効果を発揮する。
Retrieval-augmented language models can better adapt to changes in world state and incorporate long-tail knowledge. However, most existing methods retrieve only short contiguous chunks from a retrieval corpus, limiting holistic understanding of the overall document context. We introduce the novel approach of recursively embedding, clustering, and summarizing chunks of text, constructing a tree with differing levels of summarization from the bottom up. At inference time, our RAPTOR model retrieves from this tree, integrating information across lengthy documents at different levels of abstraction. Controlled experiments show that retrieval with recursive summaries offers significant improvements over traditional retrieval-augmented LMs on several tasks. On question-answering tasks that involve complex, multi-step reasoning, we show state-of-the-art results; for example, by coupling RAPTOR retrieval with the use of GPT-4, we can improve the best performance on the QuALITY benchmark by 20% in absolute accuracy.
研究の動機と目的
- 長距離の談話をツリー構造の多段抽象化されたテキストチャンクとして捉え、短文-context retrievalの制限に対処する。
- テキストを再帰的にクラスタリング、要約、埋め込みを行い retrieval treeを形成するスケーラブルなパイプラインを開発する。
- 推論時に複数の抽象レベルからの検索を可能にし、多様な質問タイプと長さをサポートする。
提案手法
- コーパスを100-tokenのチャンクに分割し、文境界を保つ。
- SBERT (multi-qa-mpnet-base-cos-v1) でチャンクを埋め込み、リーフノードを形成する。
- UMAPを用いた次元削減とGaussian Mixture Modelsで埋め込みをクラスタリング; クラスタ数はベイズ情報量規準(BIC)で決定。
- 各クラスタを言語モデル(GPT-3.5-turbo)で要約し、要約を再埋め込みして上位の階層を形成する。
- トークン制限が不可能になるまで埋め込み、クラスタリング、要約を繰り返し、テキストと要約のボトムアップツリーを作成する。
- 2つの戦略でクエリを行う: ツリー遍歴(層ごとのコサイン類似度で剪定)と collapsed tree(すべてのノードを横断して平坦検索); 推奨は collapsed tree の性能と柔軟性。

実験結果
リサーチクエスチョン
- RQ1階層的で再帰的に要約されたテキスト表現は、従来のチャンクベースの検索と比べて長文の検索品質を改善できるか?
- RQ2多段階の抽象化はQAタスクにおけるマルチホップ型およびテーマベースの推論をより良く可能にするか?
- RQ3異なるクエリ戦略(ツリー遍歴 vs collapsed tree) が検索効果に与える影響は?
- RQ4クラスタリングの選択(GMM with UMAP)と要約は全体のQA性能とハルシネーション率にどのように影響するか?
主な発見
| 検索手法 | GPT-3 F-1 Match | GPT-4 F-1 Match | UnifiedQA F-1 Match |
|---|---|---|---|
| タイトル + 要約 | 25.2 | 22.2 | 17.5 |
| BM25 | 46.6 | 50.2 | 26.4 |
| DPR | 51.3 | 53.0 | 32.1 |
| RAPTOR | 53.1 | 55.7 | 36.6 |
- RAPTORはNarrativeQA、QASPER、QuALITYデータセット全体でBM25およびDPRのベースラインを一貫して上回る。
- GPT-4を用いたQASPERで、RAPTORはF-1 Match 55.7%を達成し、CoLT5 XLおよび従来のベースラインを上回る。
- GPT-4を用いたQuALITYで、RAPTORは82.6%の精度を達成し、以前の最先端を上回り、特にQuALITY-HARDベースラインを上回る。
- NarrativeQAで、RAPTORとUnifiedQAを組み合わせて最先端のMETEORと強力なROUGE/BLEU/METEORスコアを達成。
- 折りたたみツリー検索で約2000トークンまで(おおよそトップ-20ノード)が、評価されたデータセット全体で最高の性能を発揮。
- 全ツリー検索(複数層を使用)は、一般に層の一部に注意を制限する戦略より上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。