Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Paulo Roberto de Moura Júnior, Jean Lelong|arXiv (Cornell University)|2026. 03. 26.
Topic Modeling인용 수 0
한 줄 요약

본 논문은 고유 지표를 사용하여 문서별로 최적의 청크(chunking) 전략을 선택하는 프레임워크인 Adaptive Chunking을 제안하며, RAG 정확도와 질문에 대한 응답 성능을 크게 향상시킨다.

ABSTRACT

The effectiveness of Retrieval-Augmented Generation (RAG) is highly dependent on how documents are chunked, that is, segmented into smaller units for indexing and retrieval. Yet, commonly used "one-size-fits-all" approaches often fail to capture the nuanced structure and semantics of diverse texts. Despite its central role, chunking lacks a dedicated evaluation framework, making it difficult to assess and compare strategies independently of downstream performance. We challenge this paradigm by introducing Adaptive Chunking, a framework that selects the most suitable chunking strategy for each document based on a set of five novel intrinsic, document-based metrics: References Completeness (RC), Intrachunk Cohesion (ICC), Document Contextual Coherence (DCC), Block Integrity (BI), and Size Compliance (SC), which directly assess chunking quality across key dimensions. To support this framework, we also introduce two new chunkers, an LLM-regex splitter and a split-then-merge recursive splitter, alongside targeted post-processing techniques. On a diverse corpus spanning legal, technical, and social science domains, our metric-guided adaptive method significantly improves downstream RAG performance. Without changing models or prompts, our framework increases RAG outcomes, raising answers correctness to 72% (from 62-64%) and increasing the number of successfully answered questions by over 30% (65 vs. 49). These results demonstrate that adaptive, document-aware chunking, guided by a complementary suite of intrinsic metrics, offers a practical and effective path to more robust RAG systems. Code available at https://github.com/ekimetrics/adaptive-chunking.

연구 동기 및 목표

  • RAG에서 문서 인식 기반 청크 분할의 필요성을 제시한다.
  • 하류 작업과 무관하게 청크 품질을 평가하기 위한 고유 지표를 정의하고 도입한다.
  • 문서별로 청크 전략을 선택하는 적응적 프레임워크를 제안한다.
  • 적응형 청크를 지원하기 위한 새로운 청크 방법과 후처리 기법을 개발한다.
  • 다양한 도메인에서 향상된 RAG 성능을 입증한다.

제안 방법

  • 문서 기반의 다섯 가지 고유 지표를 도입한다: References Completeness (RC), Intrachunk Cohesion (ICC), Document Contextual Coherence (DCC), Block Integrity (BI), 및 Size Compliance (SC).
  • 두 가지 새로운 청커를 개발한다: LLM-regex splitter(LLM-정규식 분할기) 및 split-then-merge recursive splitter(분할-후병합 재귀적 분할기).
  • 메트릭을 적용하여 문서별 청크 전략 선택을 안내한다(적응 프레임워크).
  • 청크 품질 향상을 위한 대상별 후처리 기법을 통합한다.
  • 법률, 기술, 사회과학 도메인에 걸친 다양한 말뭉치에서 평가한다.
  • 모델이나 프롬프트를 변경하지 않은 채 하류 RAG 개선 결과를 보고한다.

실험 결과

연구 질문

  • RQ1고유한 문서 기반 청크 지표가 RAG용 청크 전략의 선택을 신뢰성 있게 안내할 수 있는가?
  • RQ2적응적이고 지표-가이드된 청크 방식이 다양한 도메인에서 RAG 정확도와 질문-응답 성능을 향상시키는가?
  • RQ3새로운 청커들(LLM-regex splitter; split-then-merge recursive splitter)이 청크 품질과 하류 검색에 미치는 영향은 무엇인가?
  • RQ4제안된 지표가 하류 RAG 성능과 어떻게 상관관계가 있는가?

주요 결과

  • 지표-가이드된 적응형 청크 프레임워크를 사용할 때 RAG 성능이 향상된다.
  • 적응형 청크로 정확도가 72%로 상승하고, 적응 없이 62-64%에서 감소.
  • 정답으로 처리된 질문 수가 증가한다(65 대 49).
  • 법률, 기술, 사회과학 텍스트에 걸친 적응형 청크의 강건성을 보여준다.
  • 적응형 청크를 지원하기 위한 두 가지 새로운 청커와 대상별 후처리 기법을 도입한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.