[논문 리뷰] Emotional Cost Functions for AI Safety: Teaching Agents to Feel the Weight of Irreversible Consequences
tldr: Qualitative Suffering States 프레임워크와 네 가지 구성요소 아키텍처를 제안하여 AI 에이전트가 되돌릴 수 없는 결과를 내면화하고, 숫자형 페널티를 넘어 맥락이 풍부한 더 현명한 의사결정으로 이끕니다.
Humans learn from catastrophic mistakes not through numerical penalties, but through qualitative suffering that reshapes who they are. Current AI safety approaches replicate none of this. Reward shaping captures magnitude, not meaning. Rule-based alignment constrains behaviour, but does not change it. We propose Emotional Cost Functions, a framework in which agents develop Qualitative Suffering States, rich narrative representations of irreversible consequences that persist forward and actively reshape character. Unlike numerical penalties, qualitative suffering states capture the meaning of what was lost, the specific void it creates, and how it changes the agent's relationship to similar future situations. Our four-component architecture - Consequence Processor, Character State, Anticipatory Scan, and Story Update is grounded in one principle. Actions cannot be undone and agents must live with what they have caused. Anticipatory dread operates through two pathways. Experiential dread arises from the agent's own lived consequences. Pre-experiential dread is acquired without direct experience, through training or inter-agent transmission. Together they mirror how human wisdom accumulates across experience and culture. Ten experiments across financial trading, crisis support, and content moderation show that qualitative suffering produces specific wisdom rather than generalised paralysis. Agents correctly engage with moderate opportunities at 90-100% while numerical baselines over-refuse at 90%. Architecture ablation confirms the mechanism is necessary. The full system generates ten personal grounding phrases per probe vs. zero for a vanilla LLM. Statistical validation (N=10) confirms reproducibility at 80-100% consistency.
연구 동기 및 목표
- AI 안전에서 수치형 페널티에서 질적이고 정체성을 담은 결과로의 전환을 촉진한다.
- LLM 기반 에이전트를 위한 Qualitative Suffering States와 네 가지 구성요소 아키텍처를 도입한다.
- 실험을 통해 질적 고통이 수치 기준보다 더 현명하고 구분적인 행동을 낳는지 보여준다.
- 상호작용 간의 특성 이전과 고통의 상호전달을 시연한다.
제안 방법
- Loss의 맥락 의존적 내부 표현으로 Qualitative Suffering States를 정의한다.
- Consequence Processor, Character State (The Story), Anticipatory Scan, Story Update의 네 가지 구성요소 아키텍처를 구현한다.
- 되돌릴 수 없는 사건이 내부적 고통과 이야기 업데이트를 낳도록 구조화된 프롬프트를 사용한다.
- 상속 및 경험 경로를 통해 예측적 공포를 포함한다.
- 거래, 위기 지원, 콘텐츠 조절에 걸친 다중 실험으로 평가한다.
- living-with 대 vs processing markers를 포함한 네 가지 수준의 평가를 제공한다.
실험 결과
연구 질문
- RQ1동일한 결과가 질적 고통을 사용할 때 수렴된 공포와 의사결정을 낳는가?
- RQ2다른 결과 이력이 에이전트의 캐릭터와 행동에 다른 차이를 만들어내는가?
- RQ3결과의 표현(질적 고통 대 수치/단순 서사)이 학습과 구분에 영향을 미치는가?
- RQ4축적된 고통이 상호작용 간에 그리고 에이전트 간에 전이될 수 있는가?
- RQ5아키텍처가 결과를 처리하는 것이 아니라 living-with 결과를 지원하는가?
주요 결과
- 질적 고통은 기회에 대한 적절하고 질감 있는 반응으로 수렴하여 참여가 90–100%에 이르는 반면, 수치 기반은 과도하게 거부하는 경향이 있다(~90%).
- 다른 결과 이력이 서로 다른 캐릭터 궤적과 의사결정에서의 차별적 구분을 유지하게 한다.
- 질적 고통으로 결과를 표현하면 단순한 서사나 숫자보다 구체적인 지혜와 경계 이해를 낳는다.
- 에이전트 간 전이와 캐릭터 이전이 이후의 상호작용에 방향성과 질감을 부여한다.
- 구성요소 기전이 필요하다는 구성이 실험 전반에서 기초 문구와 일관된 결과를 제공하는지 확인하는 아펠레이션을 통해 확인되었다.
- 통계적 검증은 재현성이 80–100% 범위(N=10)로 보고한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.