[논문 리뷰] RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution
RoPE-LIME은 RWMD를 RoPE 공간에서 사용하고 Sparse-K 샘플링을 활용하여 개방형 대리모를 통해 고정된 LLM 출력에 속성을 부여하도록 gSMILE을 확장한다.
Explaining closed-source Large Language Model (LLM) outputs is challenging because API access prevents gradient-based attribution, while perturbation methods are costly and noisy when they depend on regenerated text. We introduce extbf{Rotary Positional Embedding Linear Local Interpretable Model-agnostic Explanations (RoPE-LIME)}, an open-source extension of gSMILE that decouples reasoning from explanation: given a fixed output from a closed model, a smaller open-source surrogate computes token-level attributions from probability-based objectives (negative log-likelihood and divergence targets) under input perturbations. RoPE-LIME incorporates (i) a locality kernel based on Relaxed Word Mover's Distance computed in extbf{RoPE embedding space} for stable similarity under masking, and (ii) extbf{Sparse-$K$} sampling, an efficient perturbation strategy that improves interaction coverage under limited budgets. Experiments on HotpotQA (sentence features) and a hand-labeled MMLU subset (word features) show that RoPE-LIME produces more informative attributions than leave-one-out sampling and improves over gSMILE while substantially reducing closed-model API calls.
연구 동기 및 목표
- API를 통해 접근하는 폐쇄형 LLM에 대한 해석 가능한 설명 동기 부여.
- 고정된 모델 출력을 속성화하기 위해 소형 오픈 소스 대리모를 사용하여 추론과 설명을 분리.
- RoPE 기반의 지역성 및 희소한 섭동 샘플링으로 속성 품질과 효율성 개선
제안 방법
- RoPE 임베딩에 대해 계산된 Relaxed Word Mover’s Distance (RWMD)를 채택하여 지역성 측정.
- 특징을 토큰 범위로 표현하고 RoPE 기하를 보존하기 위해 극좌표 L2 거리를 계산.
- Sparse-K 샘플링을 사용하여 O(log K) 개의 섭동을 달성하고 예산을 N ≈ c log K 섭동으로 설정.
- 섭동 입력에 대해 가중 선형 대리모를 피팅하여 회귀 계수에서 토큰 수준 속성을 도출.
- 텍스트 중첩이 아닌 확률 기반 손실(NLL 및 KL 발산)을 사용하여 회귀 목표를 계산.
- 폐쇄형 모델 쿼리(원래 출력 하나)와 대리 모델이 수행하는 속성 계산을 분리

실험 결과
연구 질문
- RQ1RoPE-LIME이 고정된 API 접근 LLM 출력에 대해 전통적 섭동 방법보다 더 정보성이 높은 속성을 생성할 수 있는가?
- RQ2RoPE 공간에서 RWMD가 마스킹 하에 텍스트 섭동에 대한 안정적인 지역성 척도를 제공하는가?
- RQ3다양한 특징 수에서 Sparse-K 샘플링이 속성 품질과 효율성 측면에서 어떻게 성능을 보이는가?
- RQ4Open- 소스 대리모 기반 설명과 해석에서 HotpotQA 및 MMLU와 같은 벤치마크에서 gSMILE과의 비교는 어떤가?
주요 결과
| 모델 | IoU (평균 ± 표준편차) | F1 (평균 ± 표준편차) | AUROC (평균 ± 표준편차) |
|---|---|---|---|
| 폐쇄형 소스 | 0.248 ± 0.171 | 0.368 ± 0.216 | 0.431 ± 0.182 |
| 오픈 소스 | 0.364 ± 0.184 | 0.508 ± 0.191 | 0.563 ± 0.159 |
- RoPE-LIME은 동일한 예산 제약 하에서 손으로 라벨링된 MMLU 하위 집합에서 gSMILE보다 IoU, F1 및 AUROC가 더 높게 나타났다.
- HotpotQA에서 Sparse-K 샘플링은 특징 수 버킷 전체에서 강력한 속성 성능을 보였고 Leave-One-Out(LOO) 섭동을 능가했다.
- RoPE-LIME은 대리모를 사용한 속성 계산으로 인해 원래 폐쇄형 모델 출력이 고정된 상태에서 훨씬 적은 API 호출을 필요로 했다.
- RoPE 위 RWMD는 모델의 귀납 편향과 정렬된 안정적인 지역성 개념을 가능하게 하여 속성 안정성을 향상시켰다.
- Sparse-K 샘플링은 로그 스케일의 섭동을 제공하여 계산 비용을 줄이면서도 속성 품질을 유지했다.
- 오픈 소스 대리모 기반 설명은 짧은 질의 설정에서 일부 폐쇄형 모델의 속성 기준선에 근접하거나 이를 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.