Skip to main content
QUICK REVIEW

[論文レビュー] Rare Event Analysis of Large Language Models

Jake McAllister Dorman, Edward Gillman|arXiv (Cornell University)|Feb 6, 2026
Topic Modeling被引用数 0
ひとこと要約

The paper presents an end-to-end Rare Event Analysis (REA) framework for LLMs, using Rare Event sampling methods (MBAR, TPS, umbrella sampling) to estimate probabilities of rare completions and explore their properties with TinyStories-8M as a case study.

ABSTRACT

Being probabilistic models, during inference large language models (LLMs) display rare events: behaviour that is far from typical but highly significant. By definition all rare events are hard to see, but the enormous scale of LLM usage means that events completely unobserved during development are likely to become prominent in deployment. Here we present an end-to-end framework for the systematic analysis of rare events in LLMs. We provide a practical implementation spanning theory, efficient generation strategies, probability estimation and error analysis, which we illustrate with concrete examples. We outline extensions and applications to other models and contexts, highlighting the generality of the concepts and techniques presented here.

研究の動機と目的

  • LLMにおける稀イベントを定義し、デプロイメントと安全性の観点からその重要性を動機づける。
  • 確率過程のモデル化・サンプリング・確率推定・探索を網羅するエンドツーエンドのREAフレームワークを開発する。
  • TinyStories-8MをケーススタディとしてARIとLog-Probの観測量に焦点を当ててREAを実証する。
  • 実践的な実装ガイダンスを提供し、より大きなモデル及び他の文脈への拡張を議論する。

提案手法

  • LLMの完結をAR(1)風の確率構造を持つ確率過程としてモデリングする。
  • 有意義な稀イベントサンプリングのために、p*および混合分布pMix*を用いた重要度サンプリングとumbrella samplingを適用する。
  • 稀なイベントを標的としパーティション関数Z(λ)を推定するために、指数tilting p_λ(x)=Z(λ)^{-1} e^{-λφ(x)} pM(x)を適用する。
  • 複数のbiased分布からのサンプルを結合し、信頼性の高い確率推定を得るためにMBARを用いる。
  • 暴露計画を伴うTransition Path Sampling (TPS)を用いて、稀な完結を探索する軌跡を生成する。
  • 推定収束と信頼区間を評価するためにブートストラップとGelman–Rubin診断を実施する。
Figure 1 : (a) Text generation : Shown is a single “trace” of the text produced by the TPS text generation process. The prompt (orange) remains fixed throughout, while the completion (blue) varies. At each step an edit to the completion is proposed that is either accepted (green), or rejected (red),
Figure 1 : (a) Text generation : Shown is a single “trace” of the text produced by the TPS text generation process. The prompt (orange) remains fixed throughout, while the completion (blue) varies. At each step an edit to the completion is proposed that is either accepted (green), or rejected (red),

実験結果

リサーチクエスチョン

  • RQ1与えられたプロンプトの下で、二つの観測量(ARIとLog-Prob)を考慮した場合、稀なLLM完結の発生確率はどの程度か。
  • RQ2これらの稀イベントの性質と構造はどのようで、分析のために効率的にアクセスするにはどうすればよいか。
  • RQ3biased samplingとMBAR再構成は、直接サンプリング能力を超えた尾部確率をどう定量化できるか。
  • RQ4稀な完結はモデルの挙動やアライメント・安全性の潜在的な問題点についてどのような洞察をもたらすか。

主な発見

  • ARIとLog-Probの稀な完結は、MBARとTPSを用いることで直接サンプリングの桁外れのスケールを超えて推定できる。
  • MBARは尾部における相対信頼区間を直接ヒストグラムより狭く提供し、訓練データから遠い尾部密度の探索を可能にする。
  • 直接サンプリングは尾部確率を過小評価し稀なイベントを見逃すが、指数 tiltingを用いるTPSは二つの観測量の尾部をうまくサンプルできる。
  • 稀なARI完結は往々に非常に反復的であり、高い対数確率を示すことがあり、訓練分布の外側へ外挿する挙動を示唆する。
  • 稀な完結の探索的データ分析は、安全ツール作成に有用なパターンを明らかにする(望ましくない反復を制限するランタイムフィルタ等の可能性)。
Figure 2 : Observables in annealing TPS trajectories . (a) Cummulative average of the ARI along TPS trajectories for the TinyStories LLM. We show both positive (orange) and negative (blue) biases, generated as described in Sect. 4 . The cummulative average resets when the bias changes. The annealing
Figure 2 : Observables in annealing TPS trajectories . (a) Cummulative average of the ARI along TPS trajectories for the TinyStories LLM. We show both positive (orange) and negative (blue) biases, generated as described in Sect. 4 . The cummulative average resets when the bias changes. The annealing

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。