[論文レビュー] Kronfluence: Influence Functions with Eigenvalue-corrected Kronecker-Factored Approximate Curvature
本論文は、IHVPのためにEK-FACを用いて大規模言語モデル(最大52Bパラメータ)へ影響関数をスケールさせ、従来法との精度を検証し、LLMにおける一般化パターンと影響分布を分析する。
When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.
研究の動機と目的
- トレーニングシーケンスが影響関数を用いて大規模言語モデルに与える影響を解明する。
- EK-FACを用いて影響関数の計算を52Bパラメータ級のトランスフォーマーLLMにスケールさせる。
- EK-FACを従来のIHVP法の迅速で正確な代替として検証する。
- スパース性、抽象化、記憶、クロスリンガル挙動を含むLLMの一般化パターンを分析する。
- 大規模モデルでの語順付けとロールプレイング_behaviorsの出現を検証する。
提案手法
- HessianをIHVP計算の近似に用いるため、固有値補正付きKronecker-Factored近似曲率(EK-FAC)を使用する。
- 収束しないまたは過parameterizedモデルを扱うため、近接ブレグマン応答関数(PBRF)定式化を採用する。
- 複数の影響クエリで勾配計算を共有するためにクエリバッチを導入する。
- 候補トレーニングシーケンスの勾配コストを削減するためにTF-IDFフィルタリングを採用する。
- 効率的なG逆ベクトル積のためにトランスフォーマー/MLP層へK-FACを適用・適応する。
- ネットワーク内の影響を局在化するために層別およびトークン別アトリビューション分析を提供する。
実験結果
リサーチクエスチョン
- RQ1EK-FACは従来法と比較して inverse-Hessian-vector product をどれくらい正確に近似できるか?
- RQ2大規模言語モデルにおける影響スコアの分布特性は何か(例:スパース性、テール挙動)?
- RQ3モデル規模の拡大とともに一般化パターンはどう進化するか(例:抽象化、記憶、クロスリンガル一般化、ロールプレイ)?
- RQ4ネットワークのどこ(どの層に)有力なシーケンスが集中し、トークンレベルのアトリビューションとどう関連するか?
- RQ5語順と模倣対計画のどの程度が、特に複雑な挙動において、有力なシーケンスを説明するのか?
主な発見
- EK-FACは従来法よりオーダーオブマグニチュード倍速くIHVP計算を実現し、影響推定で競合的な結果を得る。
- 影響分布はヘビーテイルで、記憶された少数の例に集中するのではなく、多くのシーケンスに分布して広がる。
- より大きなモデルはより抽象的なレベルで一般化し、プログラミング、数学的推論、クロスリンガル一般化などの高度な能力を可能にする。
- 影響は層全体にほぼ均等に分布し、中間層がより抽象的なパターンを捉え、上位/下位層はトークンに近い。
- 語順は影響にとって重大である:関連するフレーズが特定の順序(プロンプトが完了の前に来る)で現れる場合にのみ、シーケンスがモデルに影響を与える。
- ロールプレイング挙動は主に模倣ベースで、訓練データ中の同様の挙動の例に動機づけられているようだ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。