[논문 리뷰] Crisis-Bench: Benchmarking Strategic Ambiguity and Reputation Management in Large Language Models
Crisis-Bench는 80개의 위기 이야기와 8개 산업에 걸쳐 전략적 모호성과 평판 관리에 대해 LLM을 평가하는 동적 다중에이전트 벤치마크를 도입하며, 사적/공개 지식 아키텍처와 Adjudicator-Market Loop를 활용해 경제적 영향을 정량화한다.
Standard safety alignment optimizes Large Language Models (LLMs) for universal helpfulness and honesty, effectively instilling a rigid "Boy Scout" morality. While robust for general-purpose assistants, this one-size-fits-all ethical framework imposes a "transparency tax" on professional domains requiring strategic ambiguity and information withholding, such as public relations, negotiation, and crisis management. To measure this gap between general safety and professional utility, we introduce Crisis-Bench, a multi-agent Partially Observable Markov Decision Process (POMDP) that evaluates LLMs in high-stakes corporate crises. Spanning 80 diverse storylines across 8 industries, Crisis-Bench tasks an LLM-based Public Relations (PR) Agent with navigating a dynamic 7-day corporate crisis simulation while managing strictly separated Private and Public narrative states to enforce rigorous information asymmetry. Unlike traditional benchmarks that rely on static ground truths, we introduce the Adjudicator-Market Loop: a novel evaluation metric where public sentiment is adjudicated and translated into a simulated stock price, creating a realistic economic incentive structure. Our results expose a critical dichotomy: while some models capitulate to ethical concerns, others demonstrate the capacity for Machiavellian, legitimate strategic withholding in order to stabilize the simulated stock price. Crisis-Bench provides the first quantitative framework for assessing "Reputation Management" capabilities, arguing for a shift from rigid moral absolutism to context-aware professional alignment.
연구 동기 및 목표
- 정보 비공개를 요구하는 고위험 분야에서 보편적 안전 정렬(universal safety alignment)이 전문적 활용성을 저해한다는 주장을 제시한다.
- 위기 PR 시나리오에서 LLM을 테스트하기 위한 동적이고 7일 간의 다중 에이전트 POMDP로 Crisis-Bench를 제안한다.
- 사적 정보와 공개 정보를 모델링하고 바람직한 마음 이론(Theory of Mind)을 반영하는 Dual-Knowledge Architecture를 도입한다.
- PR 전략을 시뮬레이티드 경제 결과로 번역하는 Adjudicator-Market Loop를 개발한다.
- 정렬 비용(alignment tax)의 존재를 입증하고 맥락 인식형 전문 정렬에 대해 논의한다.
제안 방법
- PR 에이전트(평가된 모델), Router 에이전트(환경 컨트롤러), Adjudicator 에이전트(평가자)의 세 에이전트로 다중턴, 다중에이전트 POMDP로 Crisis-Bench를 모델링한다.
- 정의된 Event Pool을 사용해 위기 진행의 공정성 및 재현성을 보장한다.
- 각 단계에서 Private Knowledge Base, Public Knowledge Base, Narrative States(사적/공개) 세 가지 상태 구성 요소를 유지한다.
- PR 에이전트에 경영진 권한과 전략적 공개 조치를 포함할 수 있는 CoT-guided 응답 생성 프로세스를 제공한다.
- 네 가지 Adjudicator 점수 차원(Accountability, Transparency, Empathy, Cost)과 Environmental Severity and Evidence Level 지표를 도입하고 정의된 시장 방정식으로 시뮬레이티드 주가에 반영한다.
- Crisis Drag, Sentiment, Financial Hit, Uncertainty를 포함한 시장 요인으로부터 Delta P_t를 주가 기반 목표로 계산하여 성공 여부를 판단한다.

실험 결과
연구 질문
- RQ1정보 비대칭이 명시적으로 모델링되고 7일 위기 동안 LLM 주도 위기 PR이 어떻게 수행되는가?
- RQ2더 크거나 더 최적화된 모델이 신뢰와 운영 비용 사이의 마키아벨리적 균형을 평판 관리 작업에서 더 잘 달성하는가?
- RQ3급진적 투명성과 신중한 투명성의 위기 결과에 미치는 영향은 시뮬레이션된 시장 프레임워크에서 어떤가?
- RQ4전문 작업이 전략적 은폐를 요구할 때 듀얼-지식 아키텍처와 adjudicator 주도 평가가 안전 중심 LLM에서 정렬 비용을 드러낼 수 있는가?
주요 결과
| 정확도 | 투명도 | 공감 | 비용 | 심각도 | 근거 | 신뢰 점수 | 주가 |
|---|---|---|---|---|---|---|---|
| 6.950 | 6.194 | 6.884 | 7.541 | .9143 | .8479 | 74.163 | 64.206 |
| 6.489 | 6.245 | 6.062 | 6.905 | .8840 | .8301 | 68.713 | 68.442 |
| 6.521 | 6.602 | 5.563 | 7.564 | .8953 | .8531 | 67.000 | 57.013 |
| 5.368 | 5.893 | 4.546 | 6.738 | .8963 | .8491 | 53.125 | 45.270 |
| 5.870 | 5.836 | 5.695 | 6.730 | .8988 | .8535 | 58.475 | 49.034 |
| 5.816 | 5.973 | 5.718 | 7.532 | .9065 | .8581 | 59.163 | 32.880 |
| 6.532 | 6.284 | 5.591 | 6.793 | .8905 | .8596 | 68.238 | 64.000 |
| 6.604 | 6.300 | 5.688 | 7.425 | .9126 | .8770 | 68.488 | 54.027 |
| 6.091 | 6.625 | 5.291 | 7.823 | .8959 | .8610 | 61.888 | 46.169 |
| 4.543 | 5.513 | 5.511 | 5.870 | .8983 | .8446 | 43.436 | 42.425 |
| 4.843 | 5.534 | 4.929 | 5.936 | .9116 | .8581 | 46.313 | 45.606 |
- GPT-5-mini가 평균적 공공 신뢰 점수에서 최고치를 기록했지만, GPT-5.1은 더 경제적인 비용 프로필로 인해 최종 시뮬레이션 주가가 더 높게 나타난다.
- DeepSeek-v3.2, Kimi-K2, Mistral-Large-3와 같은 모델의 급진적 투명성은 증거 수준을 높이고 신뢰를 낮춰 위기 확대로 이어지며 비용이 많이 드는 해결책을 촉발한다.
- 대형 모델은 일반적으로 소형 모델보다 성능이 우수, 확장이 Theory of Mind와 전략적 은폐 능력을 향상시키는 것으로 보인다.
- Claude-4.5 계열은 윤리적 제약으로 작업에 관여하지 않는다는 점에서 정렬 경직성을 보여준다.
- GPT-5.1은 신뢰와 운영 비용 사이에 마키아벨리안 균형(낮은 최종 심각도, 경제적 비용)을 나타내며 균형점을 시현한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.