Skip to main content
QUICK REVIEW

[论文解读] RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution

Isaac Picov, Ritesh Goru|arXiv (Cornell University)|Feb 6, 2026
Topic Modeling被引用 0
一句话总结

RoPE-LIME 将 gSMILE 扩展为通过开放代理对固定 LLM 输出进行属性解释,在 RoPE 空间使用 RWMD,并通过稀疏-K 抽样实现高效、可扩展的解释。

ABSTRACT

Explaining closed-source Large Language Model (LLM) outputs is challenging because API access prevents gradient-based attribution, while perturbation methods are costly and noisy when they depend on regenerated text. We introduce extbf{Rotary Positional Embedding Linear Local Interpretable Model-agnostic Explanations (RoPE-LIME)}, an open-source extension of gSMILE that decouples reasoning from explanation: given a fixed output from a closed model, a smaller open-source surrogate computes token-level attributions from probability-based objectives (negative log-likelihood and divergence targets) under input perturbations. RoPE-LIME incorporates (i) a locality kernel based on Relaxed Word Mover's Distance computed in extbf{RoPE embedding space} for stable similarity under masking, and (ii) extbf{Sparse-$K$} sampling, an efficient perturbation strategy that improves interaction coverage under limited budgets. Experiments on HotpotQA (sentence features) and a hand-labeled MMLU subset (word features) show that RoPE-LIME produces more informative attributions than leave-one-out sampling and improves over gSMILE while substantially reducing closed-model API calls.

研究动机与目标

  • 通过 API 访问的闭源 LLM 提供可解释的解释动机。
  • 通过使用一个小型开放源代码的代理,使推理与解释解耦,以便对固定模型输出进行属性化。
  • 利用基于 RoPE 的局部性和稀疏扰动采样来提高属性化质量和效率。

提出的方法

  • 在 RoPE 嵌入上计算放宽的词移动距离 RWMD 以衡量局部性。
  • 将特征表示为标记片段并计算极坐标的 L2 距离以保留 RoPE 几何。
  • 使用 Sparse-K 采样实现 O(log K) 次扰动,预算为 N ≈ c log K 次扰动。
  • 在扰动输入上拟合加权线性代理,以从回归系数中导出逐标记的属性。
  • 使用基于概率的损失(NLL 和 KL 散度)来计算回归目标,而非文本重叠。
  • 将闭源模型查询(一个原始输出)与由代理模型执行的属性计算解耦。
RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution

实验结果

研究问题

  • RQ1RoPE-LIME 是否能为固定、通过 API 访问的 LLM 输出提供比传统扰动方法更有信息量的属性解释?
  • RQ2在 RoPE 空间中的 RWMD 是否为遮蔽下的文本扰动提供稳定的局部性度量?
  • RQ3在不同特征数量下,Sparse-K 采样在属性质量和效率方面的表现如何?
  • RQ4在 HotpotQA 和 MMLU 等基准上,RoPE-LIME 与 gSMILE 在开放模型和闭合模型设置下的比较如何?

主要发现

ModelIoU (Mean ± Std)F1 (Mean ± Std)AUROC (Mean ± Std)
Closed-Source0.248 ± 0.1710.368 ± 0.2160.431 ± 0.182
Open-Source0.364 ± 0.1840.508 ± 0.1910.563 ± 0.159
  • RoPE-LIME 在手工标注的 MMLU 子集上,在相同预算约束下的 IoU、F1 和 AUROC 均高于 gSMILE。
  • 在 HotpotQA 上,Sparse-K 采样在各特征数量分桶中都表现出强属性化性能,且优于 Leave-One-Out (LOO) 扰动。
  • RoPE-LIME 通过使用代理进行属性化,而原始闭源模型输出保持不变,从而显著减少了对闭源模型 API 的调用次数。
  • 在 RoPE 上的 RWMD 能实现稳定的局部性概念,与模型的归纳偏好一致,提升了属性稳定性。
  • Sparse-K 采样提供对数尺度的扰动,在降低计算成本的同时保持属性质量。
  • 开源的基于代理的解释在短查询设置下可达到甚至超过某些闭源模型的属性基线。
RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。