[論文レビュー] Emotional Cost Functions for AI Safety: Teaching Agents to Feel the Weight of Irreversible Consequences
要約: Qualitative Suffering Statesのフレームワークと、AIエージェントが不可逆的な結果を内部化し、数値的ペナルティを超えた文脈豊かな意思決定を導く4要素アーキテクチャを提案。
Humans learn from catastrophic mistakes not through numerical penalties, but through qualitative suffering that reshapes who they are. Current AI safety approaches replicate none of this. Reward shaping captures magnitude, not meaning. Rule-based alignment constrains behaviour, but does not change it. We propose Emotional Cost Functions, a framework in which agents develop Qualitative Suffering States, rich narrative representations of irreversible consequences that persist forward and actively reshape character. Unlike numerical penalties, qualitative suffering states capture the meaning of what was lost, the specific void it creates, and how it changes the agent's relationship to similar future situations. Our four-component architecture - Consequence Processor, Character State, Anticipatory Scan, and Story Update is grounded in one principle. Actions cannot be undone and agents must live with what they have caused. Anticipatory dread operates through two pathways. Experiential dread arises from the agent's own lived consequences. Pre-experiential dread is acquired without direct experience, through training or inter-agent transmission. Together they mirror how human wisdom accumulates across experience and culture. Ten experiments across financial trading, crisis support, and content moderation show that qualitative suffering produces specific wisdom rather than generalised paralysis. Agents correctly engage with moderate opportunities at 90-100% while numerical baselines over-refuse at 90%. Architecture ablation confirms the mechanism is necessary. The full system generates ten personal grounding phrases per probe vs. zero for a vanilla LLM. Statistical validation (N=10) confirms reproducibility at 80-100% consistency.
研究の動機と目的
- AI安全性における数値的ペナルティから定性的で同一性を帯びた結果へシフトさせる動機付け。
- LLMベースのエージェントのための定性的苦悩状態と4要素アーキテクチャを導入。
- 定性的苦悩が実験を通じて、定量的ベースラインより賢く、区別力のある行動を生むことを示す。
- 相互作用間のキャラクター伝搬と苦悩のエージェント間伝播を実証。
提案手法
- 喪失の内部表現として文脈依存の定性的苦悩状態を定義。
- 4要素アーキテクチャを実装:Consequence Processor、Character State (The Story)、Anticipatory Scan、Story Update。
- 不可逆的な出来事が内部化された苦悩と物語更新を生むよう、構造化 promptsを使用。
- Inheritedおよび経験的経路による予期的な恐怖を組み込む。
- 取引、危機支援、コンテンツモデレーションの複数の実験で評価。
- living-withと processingのマーカーを含む4段階評価を提供。
実験結果
リサーチクエスチョン
- RQ1同一の結果が、定性的苦悩を用いる場合に収束した恐怖と意思決定を生むのか。
- RQ2異なる結果履歴が、異なるエージェントのキャラクターと行動を生むのか。
- RQ3結果の表現(定性的苦悩 vs 数値/plain narrative)が学習と識別に影響するのか。
- RQ4蓄積された苦悩は相互作用間およびエージェント間で伝搬可能か。
- RQ5アーキテクチャは結果を処理するよりもLiving-withすることをサポートするのか。
主な発見
- 定性的苦悩は、適切でテクスチャ豊かな応答へ収束させ、機会を適度に活用する(関与90–100%)一方、数値ベースラインは過度拒否(約90%)になりがち。
- 異なる結果履歴が異なるキャラクター軌跡と意思決定における識別力を維持する。
- 定性的苦悩を用いた結果表現は、平易な物語や数値を超えた具体的な知恵と境界理解を生む。
- エージェント間伝搬とキャラクター伝搬は、その後の相互作用を変更し、応答の指向性と質感を作り出す。
- アーキテクチャのアブレーションにより、コンポーネント機構が必要であり、着地語と一貫した結果が実験を通じて示された。
- 統計的検証は80–100%の再現性を報告(N=10)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。