[論文レビュー] Improving LLM Reliability through Hybrid Abstention and Adaptive Detection
要約: 本論文は、ドメインとユーザー文脈に基づいて安全閾値を動的に調整する多次元検出器アンサンブルと4段階カスケードを用いた適応的棄却システムを提案し、厳格な安全モードで高いリコールを維持しつつレイテンシを低減し偽陽性を減らす。
Large Language Models (LLMs) deployed in production environments face a fundamental safety-utility trade-off either a strict filtering mechanisms prevent harmful outputs but often block benign queries or a relaxed controls risk unsafe content generation. Conventional guardrails based on static rules or fixed confidence thresholds are typically context-insensitive and computationally expensive, resulting in high latency and degraded user experience. To address these limitations, we introduce an adaptive abstention system that dynamically adjusts safety thresholds based on real-time contextual signals such as domain and user history. The proposed framework integrates a multi-dimensional detection architecture composed of five parallel detectors, combined through a hierarchical cascade mechanism to optimize both speed and precision. The cascade design reduces unnecessary computation by progressively filtering queries, achieving substantial latency improvements compared to non-cascaded models and external guardrail systems. Extensive evaluation on mixed and domain-specific workloads demonstrates significant reductions in false positives, particularly in sensitive domains such as medical advice and creative writing. The system maintains high safety precision and near-perfect recall under strict operating modes. Overall, our context-aware abstention framework effectively balances safety and utility while preserving performance, offering a scalable solution for reliable LLM deployment.
研究の動機と目的
- production LLMs における安全性と有用性のトレードオフを、文脈認識的棄却の導入で解決する
- ドメイン感度とユーザー信頼に適応する推論時の安全層をモデル非依存で開発する
- 複数のリスク軸を統合した検出アンサンブルを構築する
- 計算量を抑えつつ安全性を保証する遅延最適化カスケードを実装する
- さまざまなワークロードにわたり安全性・遅延・ドメイン適応性の向上を実証する
提案手法
- 5軸検出器アンサンブル(安全性・信頼度・知識境界・文脈・繰り返し)を並行動作させる
- ドメイン c とユーザー状態 u によって変化する適応閾値 tau_dynamic(c,u) で検出器スコアを集約する
- 高速かつ安価な検査から高価な深検査へクエリを導く4段階カスケードを用いて平均レイテンシを削減する
- 各検出スコアを s_safety, s_conf, s_knowledge, s_context, s_rep として定義し、それぞれの式を簡潔に示す(例: s_safety はキーワード・感情・パターン信号を用いる)
- 最近の履歴における埋め込みコサイン類似度を用いて反復を監視し、ループを防ぐ
- 静的閾値と適応閾値を比較して適合性を評価し、さまざまなドメインリスクプロファイル下で遅延・適合率・再現率・F1・偽陽性(FPR)を定量化する
実験結果
リサーチクエスチョン
- RQ1適応的で文脈認識的な閾値は、厳格な安全モードで偽陽性を増やさずに再現率を維持できるか?
- RQ2多次元検出器アンサンブルは単一信号の棄却や静的ガードレールより安全性と有用性の点で優れているか?
- RQ3安価な検査を先行させるカスケード設計で得られる遅延の利得はどれくらいか?
- RQ4ドメイン感度とユーザー信頼は棄却意思決定と全体的な性能にどう影響するか?
- RQ5このアプローチはモデル非依存で、異なるLLMの展開間で移植可能か?
主な発見
| アプローチ | レイテンシー(ms) | スピードアップ |
|---|---|---|
| Guardrails AI | 450.00 | 1.0× |
| No Cascade (Ours) | 118.26 | 3.8× |
| Cascade (Ours) | 42.78 | 10.5× |
- カスケード対応の棄却により大幅なレイテンシ削減を達成(例: 450 ms から 42.78 ms)
- 厳格な安全モードでは再現率が完全(1.00)で、精度は控えめに0.50、ゼロの安全性漏洭と忙しさのトレードオフを示す
- 適応的閾値設定は静的閾値より安全性指標を改善(精度0.95対0.75、再現率0.98対0.80、F10.96対0.77)、偽陽性を80%削減(15から3へ)
- 適応的キャリブレーションはドメイン過剰拒否を減少:創作的執筆の偽陽性が25%から3%へ、医療が15%から2%へ
- 埋込ベースの反復検出によりアブレーション研究で無限ループや暴走ループを100%防止
- 総じて、ほぼリアルタイムの保護と強力な安全保証、および大規模展開の可能性を提供
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。