QUICK REVIEW

[논문 리뷰] LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Thao Do, DINH PHU TRAN|arXiv (Cornell University)|2026. 03. 10.

Topic Modeling인용 수 0

한 줄 요약

LooComp은 엔코더 전용 모델로 leave-one-out 델타 스코어링 메커니즘을 사용해 RAG용 쿼리 인지 문장 수준 컨텍스트 가지치기를 수행하며, 빠르고 메모리 효율적인 압축으로 강한 QA 성능을 달성합니다.

ABSTRACT

Efficient context compression is crucial for improving the accuracy and scalability of question answering. For the efficiency of Retrieval Augmented Generation, context should be delivered fast, compact, and precise to ensure clue sufficiency and budget-friendly LLM reader cost. We propose a margin-based framework for query-driven context pruning, which identifies sentences that are critical for answering a query by measuring changes in clue richness when they are omitted. The model is trained with a composite ranking loss that enforces large margins for critical sentences while keeping non-critical ones near neutral. Built on a lightweight encoder-only Transformer, our approach generally achieves strong exact-match and F1 scores with high-throughput inference and lower memory requirements than those of major baselines. In addition to efficiency, our method yields effective compression ratios without degrading answering performance, demonstrating its potential as a lightweight and practical alternative for retrieval-augmented tasks.

연구 동기 및 목표

답변 품질을 손상시키지 않으면서 컨텍스트 크기를 줄여 효율적인 검색 강화 생성(RAG)을 촉진한다.
쿼리 관련성에 의해 가이드되는 경량의 엔코더 전용 문장 가지치기 방법을 제안한다.
문장 기여도(답변 가능성)에 대한 양적 평가를 위한 델타 기반 스코어링 메커니즘(leave-one-out)을 도입한다.
쿼리당 압축율을 자동으로 결정하는 적응적 간격 기반 선택 규칙을 개발한다.
여러 QA 벤치마크에서 제안 방법의 효율성 및 효과를 평가한다.

제안 방법

소스 텍스트의 충실도를 보존하기 위해 추출적 문장 선택으로 압축 작업을 표현한다.
검색된 문서를 문장으로 분할하고 경량 인코더(ModernBERT)를 사용하여 각 문장을 생략했을 때의 단서 풍부도 델타(Delta_k)를 계산한다.
랭킹 항목(L_ord, L_crit, L_non)과 BCE 항목을 포함하는 합성 마진 기반 손실로 훈련하고, 중요한 문장에 더 큰 마진을 강제한다.
추론 중에는 모든 p0 및 p_k 점수를 병렬로 계산하고 델타를 도출한 뒤, 적응적 간격 기반 임계값 tau를 적용해 문장을 중대하다고 분류한다.
적응형 임계적 절차를 사용한다: 양수 델타를 정렬하고 연속 Delta 값 사이의 최대 간격을 찾아 tau를 설정해 문장을 선택한다.
다양한 백본 크기(ModernBERT-large/base) 및 리더(Llama 변형, Gemini 등)를 실험하고 HotpotQA, 2WikiMultihopQA, Musique, Natural Questions, TriviaQA에서 평가한다.

Figure 1: Answering performance (EM, F1) and compression efficiency (QpS, Saved %) across compressors. Questions Per Second (QpS) is from compression latency; Context Saved is $100\%$ – Compression ratio.

실험 결과

연구 질문

RQ1encoder-only 모델이 leave-one-out 메커니즘을 통해 QA를 위한 문장 수준 관련성을 정확히 식별할 수 있는가?
RQ2마진 기반의 적응적 간격 임계값이 QA 벤치마크 전반에서 문장 선택 효율성과 정답 충실도를 향상시키는가?
RQ3LOO-델타 점수와 디코더 기반 또는 토큰 수준 가지치기 방법 간에 속도, 메모리, 압축비 측면에서 어떤 차이가 있는가?
RQ4문장 수준 가지치기가 오픈 소스 리더와 다양한 top-k 검색 깊이에서 경쟁력 있는가?
RQ5백본 크기와 학습 목표가 QA 성능과 압축 효율성에 어떤 영향을 미치는가?

주요 결과

이 방법은 주요 기준선에 비해 빠른 추론 속도와 낮은 메모리 사용량으로 강력한 Exact Match와 F1 점수를 달성한다.
적응형 간격 기반 선택은 QA 성능 저하 없이 컨텍스트를 크게 축소하는 효율적인 압축을 제공한다.
Encoder-only 백본(예: ModernBERT)은 이 프레임워크에서 문장 수준 관련성 분류에 충분하며, 디코더 기반 접근법에 비해 효율성 이점을 제공한다.
다섯 개의 QA 벤치마크와 다양한 리더에서 이 접근법은 서로 다른 데이터셋 및 검색 깊이에 일반화되며 경쟁력 있거나 우수한 QA 지표와 더 빠른 압축 시간을 유지한다.
특정 마진 기반 손실(full margin-based loss)이 최적 성능에 필수적이며, 적응형 추론 전략이 일반화 측면에서 고정 마진 규칙보다 우수하다.

Figure 2: Overview of our framework. Our proposed lightweight context pruner includes three steps. (1) each retrieved document is segmented into sentences. (2) We measure the importance of sentences by calculating the change in clue richness, denoted as $\Delta$ , when a sentence is omitted. A large

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.