Skip to main content
QUICK REVIEW

[논문 리뷰] Improving LLM Reliability through Hybrid Abstention and Adaptive Detection

Ankit Sharma, Nachiket Tapas|arXiv (Cornell University)|2026. 02. 17.
Topic Modeling인용 수 0
한 줄 요약

이 논문은 다차원 탐지기 앙상블과 4단계 cascade를 이용해 도메인 및 사용자 맥락에 따라 안전 임계치를 동적으로 보정하는 Adaptive Abstention System을 제시하여 지연을 낮추고 거짓 긍정이 감소하는 한편, 엄격한 안전 모드에서 높은 재현율을 유지한다.

ABSTRACT

Large Language Models (LLMs) deployed in production environments face a fundamental safety-utility trade-off either a strict filtering mechanisms prevent harmful outputs but often block benign queries or a relaxed controls risk unsafe content generation. Conventional guardrails based on static rules or fixed confidence thresholds are typically context-insensitive and computationally expensive, resulting in high latency and degraded user experience. To address these limitations, we introduce an adaptive abstention system that dynamically adjusts safety thresholds based on real-time contextual signals such as domain and user history. The proposed framework integrates a multi-dimensional detection architecture composed of five parallel detectors, combined through a hierarchical cascade mechanism to optimize both speed and precision. The cascade design reduces unnecessary computation by progressively filtering queries, achieving substantial latency improvements compared to non-cascaded models and external guardrail systems. Extensive evaluation on mixed and domain-specific workloads demonstrates significant reductions in false positives, particularly in sensitive domains such as medical advice and creative writing. The system maintains high safety precision and near-perfect recall under strict operating modes. Overall, our context-aware abstention framework effectively balances safety and utility while preserving performance, offering a scalable solution for reliable LLM deployment.

연구 동기 및 목표

  • 생산형 LLM에서 안전성과 유용성 간의 트레이드오프를 다루기 위해 맥락 인식 abstention 도입
  • 도메인 민감도와 사용자 신뢰도에 적응하는 임계치를 갖는 모델 무관한 추론 시점 안전 계층 개발
  • 여러 위험 축을 하나의 탐지 앙상블로 통합
  • 계산량을 줄이면서 안전 보장을 유지하는 지연 최적화 cascade 구현
  • 다양한 워크로드에서 안전성, 지연 및 도메인 적응성의 향상을 입증

제안 방법

  • 병렬로 작동하는 다섯 축 탐지기 앙상블(안전성, 신뢰도, 지식 경계, 맥락, 반복) 구현
  • 도메인 c와 사용자 상태 u에 따라 달라지는 적응 임계치 tau_dynamic(c,u)로 탐지기 점수 집계
  • 빠르고 저렴한 검사에서 비싼 심층 검사로 쿼리를 전달하는 4단계 cascade 사용하여 평균 지연 감소
  • 각각에 대한 간결한 식으로 명시적 탐지기 점수(s_safety, s_conf, s_knowledge, s_context, s_rep) 정의(예: s_safety는 키워드, 감정, 패턴 신호 사용)
  • 최근 기록 전체에서 임베딩 코사인 유사도를 통해 반복 모니터링하여 루프를 방지
  • 정적 임계치와 적응 임계치 비교를 통해 적응성 평가 및 다양한 도메인 위험 프로파일에서 지연, 정밀도, 재현율, F1, FPR를 정량화

실험 결과

연구 질문

  • RQ1적응적이고 맥락 인식인 임계치가 엄격한 안전 모드에서 거짓 긍정을 줄이면서 재현율 손실 없이 달성될 수 있는가?
  • RQ2다차원 탐지기 앙상블이 단일 신호 abstention이나 정적 가드레일 대비 안전성과 유용성 측면에서 더 나은 성능을 보이는가?
  • RQ3저렴한 검사 먼저를 우선하는 cascade 설계에서 어떤 지연 이점을 달성할 수 있는가?
  • RQ4도메인 민감도와 사용자 신뢰가 abstention 결정 및 시스템 전체 성능에 어떤 영향을 미치는가?
  • RQ5이 접근 방식이 모델에 독립적이며 다양한 LLM 배포 간에 전이 가능한가?

주요 결과

ApproachLatency (ms)Speedup
Guardrails AI450.001.0×
No Cascade (Ours)118.263.8×
Cascade (Ours)42.7810.5×
  • Cascade가 가능하게 하는 abstention은 상당한 지연 감소를 달성합니다(예: 450 ms에서 42.78 ms로)
  • 엄격한 안전 모드에서 재현율은 완벽(1.00)이고 정밀도는 보수적으로 0.50으로, 안전하지만 바쁜 트레이드오프에서 안전 누출은 제로임을 보여줍니다
  • 적응 임계치가 정적 임계치에 비해 안전 지표를 향상시킵니다(정밀도 0.95 vs 0.75; 재현율 0.98 vs 0.80; F1 0.96 vs 0.77) 및 거짓 긍정을 80% 감소시킵니다(15에서 3으로)
  • 적응형 보정은 도메인 과다 거부를 줄입니다: Creative Writing의 거짓 긍정은 25%에서 3%로, Medical은 15%에서 2%로 감소
  • 임베딩 기반 반복 감지는 제거 연구에서 무한 루프나 오버런 루프를 100% 방지합니다
  • 전반적으로 시스템은 거의 실시간 보호를 제공하며 강력한 안전 보장과 확장 가능한 배포 가능성을 갖습니다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.