QUICK REVIEW

[논문 리뷰] RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution

Isaac Picov, Ritesh Goru|arXiv (Cornell University)|2026. 02. 06.

Topic Modeling인용 수 0

한 줄 요약

RoPE-LIME은 RWMD를 RoPE 공간에서 사용하고 Sparse-K 샘플링을 활용하여 개방형 대리모를 통해 고정된 LLM 출력에 속성을 부여하도록 gSMILE을 확장한다.

ABSTRACT

Explaining closed-source Large Language Model (LLM) outputs is challenging because API access prevents gradient-based attribution, while perturbation methods are costly and noisy when they depend on regenerated text. We introduce extbf{Rotary Positional Embedding Linear Local Interpretable Model-agnostic Explanations (RoPE-LIME)}, an open-source extension of gSMILE that decouples reasoning from explanation: given a fixed output from a closed model, a smaller open-source surrogate computes token-level attributions from probability-based objectives (negative log-likelihood and divergence targets) under input perturbations. RoPE-LIME incorporates (i) a locality kernel based on Relaxed Word Mover's Distance computed in extbf{RoPE embedding space} for stable similarity under masking, and (ii) extbf{Sparse-$K$} sampling, an efficient perturbation strategy that improves interaction coverage under limited budgets. Experiments on HotpotQA (sentence features) and a hand-labeled MMLU subset (word features) show that RoPE-LIME produces more informative attributions than leave-one-out sampling and improves over gSMILE while substantially reducing closed-model API calls.

연구 동기 및 목표

API를 통해 접근하는 폐쇄형 LLM에 대한 해석 가능한 설명 동기 부여.
고정된 모델 출력을 속성화하기 위해 소형 오픈 소스 대리모를 사용하여 추론과 설명을 분리.
RoPE 기반의 지역성 및 희소한 섭동 샘플링으로 속성 품질과 효율성 개선

제안 방법

RoPE 임베딩에 대해 계산된 Relaxed Word Mover’s Distance (RWMD)를 채택하여 지역성 측정.
특징을 토큰 범위로 표현하고 RoPE 기하를 보존하기 위해 극좌표 L2 거리를 계산.
Sparse-K 샘플링을 사용하여 O(log K) 개의 섭동을 달성하고 예산을 N ≈ c log K 섭동으로 설정.
섭동 입력에 대해 가중 선형 대리모를 피팅하여 회귀 계수에서 토큰 수준 속성을 도출.
텍스트 중첩이 아닌 확률 기반 손실(NLL 및 KL 발산)을 사용하여 회귀 목표를 계산.
폐쇄형 모델 쿼리(원래 출력 하나)와 대리 모델이 수행하는 속성 계산을 분리

RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution

실험 결과

연구 질문

RQ1RoPE-LIME이 고정된 API 접근 LLM 출력에 대해 전통적 섭동 방법보다 더 정보성이 높은 속성을 생성할 수 있는가?
RQ2RoPE 공간에서 RWMD가 마스킹 하에 텍스트 섭동에 대한 안정적인 지역성 척도를 제공하는가?
RQ3다양한 특징 수에서 Sparse-K 샘플링이 속성 품질과 효율성 측면에서 어떻게 성능을 보이는가?
RQ4Open- 소스 대리모 기반 설명과 해석에서 HotpotQA 및 MMLU와 같은 벤치마크에서 gSMILE과의 비교는 어떤가?

주요 결과

모델	IoU (평균 ± 표준편차)	F1 (평균 ± 표준편차)	AUROC (평균 ± 표준편차)
폐쇄형 소스	0.248 ± 0.171	0.368 ± 0.216	0.431 ± 0.182
오픈 소스	0.364 ± 0.184	0.508 ± 0.191	0.563 ± 0.159

RoPE-LIME은 동일한 예산 제약 하에서 손으로 라벨링된 MMLU 하위 집합에서 gSMILE보다 IoU, F1 및 AUROC가 더 높게 나타났다.
HotpotQA에서 Sparse-K 샘플링은 특징 수 버킷 전체에서 강력한 속성 성능을 보였고 Leave-One-Out(LOO) 섭동을 능가했다.
RoPE-LIME은 대리모를 사용한 속성 계산으로 인해 원래 폐쇄형 모델 출력이 고정된 상태에서 훨씬 적은 API 호출을 필요로 했다.
RoPE 위 RWMD는 모델의 귀납 편향과 정렬된 안정적인 지역성 개념을 가능하게 하여 속성 안정성을 향상시켰다.
Sparse-K 샘플링은 로그 스케일의 섭동을 제공하여 계산 비용을 줄이면서도 속성 품질을 유지했다.
오픈 소스 대리모 기반 설명은 짧은 질의 설정에서 일부 폐쇄형 모델의 속성 기준선에 근접하거나 이를 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.