[論文レビュー] CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing
CLaRE は、編集の波及効果を予測するために、単一の中間層の前方活性化を用いて表現レベルでエンタングルメントを定量化する軽量な手法をLLMに導入します。
The static knowledge representations of large language models (LLMs) inevitably become outdated or incorrect over time. While model-editing techniques offer a promising solution by modifying a model's factual associations, they often produce unpredictable ripple effects, which are unintended behavioral changes that propagate even to the hidden space. In this work, we introduce CLaRE, a lightweight representation-level technique to identify where these ripple effects may occur. Unlike prior gradient-based methods, CLaRE quantifies entanglement between facts using forward activations from a single intermediate layer, avoiding costly backward passes. To enable systematic study, we prepare and analyse a corpus of 11,427 facts drawn from three existing datasets. Using CLaRE, we compute large-scale entanglement graphs of this corpus for multiple models, capturing how local edits propagate through representational space. These graphs enable stronger preservation sets for model editing, audit trails, efficient red-teaming, and scalable post-edit evaluation. In comparison to baselines, CLaRE achieves an average of 62.2% improvement in Spearman correlation with ripple effects while being $2.74 imes$ faster, and using $2.85 imes$ less peak GPU memory. Besides, CLaRE requires only a fraction of the storage needed by the baselines to compute and preserve fact representations. Our entanglement graphs and corpus are available at https://anonymous.4open.science/r/CLaRE-488E.
研究の動機と目的
- LLM の静的知識を更新する際に波及効果を予測する必要性を動機付ける。
- 波及効果が発生する可能性がある場所を特定する、軽量な表現レベルの手法を提案する。
- 前方伝播活性化の新たな利用により、コストの高い逆伝播を回避して分析をスケール可能にする。
提案手法
- 単一中間層の前方活性化を用いて事実間のエンタングルメントを計算する。
- 複数モデルにわたる11,427の事実コーパスの大規模エンタングルメントグラフを構築する。
- 波及効果との相関、速度、メモリ使用量の観点で CLaRE をベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1LLM の編集時に表現レベルの信号を用いて潜在的な波及効果をどう識別できるか。
- RQ2単一層の前方活性化が事実的エンタングルメントをロバストに定量化して波及効果を予測できるか。
- RQ3勾配ベースのベースラインと比較して CLaRE は予測精度と効率を改善するか。
主な発見
- CLaRE は波及効果とのスピアマン相関をベースラインと比べて平均 62.2% 改善する。
- CLaRE はベースラインより 2.74 倍速い。
- CLaRE はベースラインよりピーク GPU メモリを 2.85 倍削減する。
- このアプローチは事実表現の計算と保持に必要なストレージ量を、ベースラインと比べてはるかに少なく済ませる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。