[論文レビュー] Adaptive Chunking: Optimizing Chunking-Method Selection for RAG
この論文は、適応型チャンク化を提案します。文書ごとに最適なチャンク化戦略を内在指標で選択し、RAGの精度と回答された質問の大幅な改善を実現します。
The effectiveness of Retrieval-Augmented Generation (RAG) is highly dependent on how documents are chunked, that is, segmented into smaller units for indexing and retrieval. Yet, commonly used "one-size-fits-all" approaches often fail to capture the nuanced structure and semantics of diverse texts. Despite its central role, chunking lacks a dedicated evaluation framework, making it difficult to assess and compare strategies independently of downstream performance. We challenge this paradigm by introducing Adaptive Chunking, a framework that selects the most suitable chunking strategy for each document based on a set of five novel intrinsic, document-based metrics: References Completeness (RC), Intrachunk Cohesion (ICC), Document Contextual Coherence (DCC), Block Integrity (BI), and Size Compliance (SC), which directly assess chunking quality across key dimensions. To support this framework, we also introduce two new chunkers, an LLM-regex splitter and a split-then-merge recursive splitter, alongside targeted post-processing techniques. On a diverse corpus spanning legal, technical, and social science domains, our metric-guided adaptive method significantly improves downstream RAG performance. Without changing models or prompts, our framework increases RAG outcomes, raising answers correctness to 72% (from 62-64%) and increasing the number of successfully answered questions by over 30% (65 vs. 49). These results demonstrate that adaptive, document-aware chunking, guided by a complementary suite of intrinsic metrics, offers a practical and effective path to more robust RAG systems. Code available at https://github.com/ekimetrics/adaptive-chunking.
研究の動機と目的
- Retrieval-Augmented Generation(RAG)における文書認識型チャンク化の必要性を動機づける。
- 下流タスクに依存しないチャンク化品質を評価する内在指標を定義・導入する。
- 文書ごとにチャンク化戦略を選択する適応フレームワークを提案する。
- 適応的チャンク化を支える新しいチャンク作成手法と後処理技術を開発する。
- 法務・技術・社会科学分野を横断する多様なデータセットでRAG性能の改善を示す。
提案手法
- 5つの内在的・文書ベースの指標を導入する:References Completeness(RC)、Intrachunk Cohesion(ICC)、Document Contextual Coherence(DCC)、Block Integrity(BI)、Size Compliance(SC)。
- 2つの新しいチャンク作成手法を開発する:LLM-regex分割器とsplit-then-merge再帰分割器。
- 指標を用いて文書ごとにチャンク化戦略を導く(適応フレームワーク)。
- チャンク化品質を高める対象を絞った後処理技術を組み込む。
- 法務・技術・社会科学分野にまたがる多様なコーパスで評価する。
- モデルやプロンプトを変更せずに下流RAGの改善を報告する。
実験結果
リサーチクエスチョン
- RQ1内在的で文書ベースのチャンク化指標はRAGのチャンク化戦略選択を信頼性高く導けるか。
- RQ2適応的で指標に基づくチャンク化手法は多様な分野でRAGの精度と質問回答性能を向上させるか。
- RQ3新しいチャンク作成手法(LLM-regex分割器;split-then-merge再帰分割器)はチャンク品質と下流取得へどのような影響を与えるか。
- RQ4提案された指標は下流のRAG性能とどのように相関するか。
主な発見
- RAGの性能は指標に基づく適応型チャンク化フレームワークを用いると改善される。
- 適応的チャンク化により回答の正確性が72%に上昇し、適応なしのときは62-64%であった。
- 回答可能な質問の数が増加する(65対49)。
- 法務・技術・社会科学のテキストで適応型チャンク化の頑健性を示す。
- 適応型チャンク化を支える新しい2つのチャンク作成手法とターゲットを絞った後処理を導入。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。