[論文レビュー] Retrieval-Augmented Generation for AI-Generated Content: A Survey
Retrieval-Augmented Generation (RAG) を用いた AI による生成コンテンツに関する総合的な調査で、基盤、改善、モダリティを跨ぐ適用、ベンチマーク、制限、今後の方向性を詳述する。
Advancements in model algorithms, the growth of foundational models, and access to high-quality datasets have propelled the evolution of Artificial Intelligence Generated Content (AIGC). Despite its notable successes, AIGC still faces hurdles such as updating knowledge, handling long-tail data, mitigating data leakage, and managing high training and inference costs. Retrieval-Augmented Generation (RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances the generation process by retrieving relevant objects from available data stores, leading to higher accuracy and better robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator, distilling the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research. Github: https://github.com/PKU-DAIR/RAG-Survey.
研究の動機と目的
- リトリーバーと生成器全体を横断するRAGの基盤について体系的な概説を提供する。
- RAGシステムの拡張技術と実践的なエンジニアリング実践を要約する。
- テキスト、コード、画像、音声、動画、KBQA、サイエンスなどのモダリティにわたる RAG の適用を概観する。
- RAGの研究と実践におけるベンチマーク、制限、今後の方向性を議論する。
提案手法
- リトリーバーが生成器を拡張する方法に基づいて、RAGの基盤を4つのパラダイムに分類する:クエリベース、潜在表現ベース、ロジットベース、その他。
- 生成器のカテゴリ(Transformer、LSTM、拡散モデル、GAN)とリトリーバーのカテゴリ(スパース、デンス、その他)を説明する。
- RAGパイプラインを改善するための拡張手法と実用的な実装を要約する。
- クロスモーダルおよびドメイン特化のRAGアプリケーションと統合戦略(FiD、chunked cross-attention、memory-augmented approaches)をレビューする。
- ベンチマークをまとめ、現状の制限と将来の方向性を議論する。
実験結果
リサーチクエスチョン
- RQ1リトリーバーと生成器を横断するRAG基盤の根本的な抽象概念は何か?
- RQ2RAGシステムの有効性と効率性を向上させるために提案された拡張は何か?
- RQ3AI生成コンテンツのさまざまなモダリティとタスクにおいてRAGはどう適用されているか?
- RQ4RAGを評価するためのベンチマークは何があり、現在の制限と今後の方向性は何か?
主な発見
- RAGは、入力、潜在、ロジットレベルで取得データと相互作用して生成を拡張する取得ステップを導入し、モダリティを跨って適用可能である。
- 4つの主要なRAG基盤が特定された:クエリベース、潜在表現ベース、ロジットベース、その他の拡張戦略。
- 拡張には、クロスアテンション、Fusion-in-Decoder (FiD)、chunked cross-attention、メモリ拡張トランスフォーマー、ブラックボックスLM向けのAPI対応の取得手法などが含まれる。
- RAGの適用はテキスト、コード、音声、画像、動画、3D、知識グラフ、サイエンスにわたり、FiD、ReMoDiffuse、RETRO風のメモリ統合などの専門手法を含む。
- ベンチマークと議論は、データ品質、取得効率、アライメントといった制限を浮き彫りにしており、今後の研究方向の指針を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。