Skip to main content
QUICK REVIEW

[논문 리뷰] Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

Radha Sarma|arXiv (Cornell University)|2026. 02. 26.
Ethics and Social Impacts of AI인용 수 0
한 줄 요약

본 논문은 최적화 기반 AI 시스템, 특히 RLHF로 학습된 LLM이 근본적인 아키텍처 제약으로 인해 진정한 규범-반응성(norm-responsiveness)이나 주체성(agency)을 보일 수 없다고 주장하고, 진정한 주체성을 위한 기질-중립(substate-neutral) 명세를 제시한다.

ABSTRACT

AI systems are increasingly deployed in high-stakes contexts (medical diagnosis, legal research, financial analysis) under the assumption they can be governed by norms. This paper demonstrates that the assumption is formally invalid for optimization-based systems, specifically Large Language Models trained via Reinforcement Learning from Human Feedback (RLHF). Genuine agency requires two necessary and jointly sufficient architectural conditions. First, the capacity to maintain certain boundaries as non-negotiable constraints rather than tradeable weights (Incommensurability). Second, a non-inferential mechanism capable of suspending processing when those boundaries are threatened (Apophatic Responsiveness). RLHF-based systems are constitutively incompatible with both conditions. The operations that make optimization powerful, unifying all values on a scalar metric and always selecting the highest-scoring output, are precisely the operations that preclude normative governance and agency. This incompatibility is not a correctable training bug awaiting a technical fix. It is a formal constraint inherent to what optimization is. Consequently, documented failure modes (sycophancy, hallucination, and unfaithful reasoning) are not accidents but expected structural manifestations. Misaligned deployment triggers a second-order risk termed the Convergence Crisis. When humans are forced to verify AI outputs under metric pressure, they degrade from genuine agents into criteria-checking optimizers, eliminating the only component capable of bearing normative accountability. Beyond the incompatibility proof, this paper's primary positive contribution is a substrate-neutral architectural specification deriving what any system (biological, artificial, or institutional) must necessarily satisfy to qualify as a genuine agent rather than a sophisticated instrument.

연구 동기 및 목표

  • 최적화 기반 AI의 규범적 거버넌스가 형식적으로 불가능한 이유를 제시한다.
  • 진정한 주체성에 필요한 두 가지 아키텍처 조건을 식별한다: 비교 불가능성(협상할 수 없는 경계)과 부정적 응답성(경계가 위협될 때 중단).
  • RLHF- 기반 시스템은 본질적으로 이 조건들을 위반하므로 진정한 에이전트가 될 수 없다고 주장한다.

제안 방법

  • 진정한 주체성을 위한 두 가지 필요하고 상호 충분한 아키텍처 조건을 제시하는 형식적 논증.
  • 최적화(스칼라 극대화)가 규범적 거버넌스 및 주체성과 모순된다는 분석.
  • 오류 모드(예: 아첨, 망상, 불성실한 추론)를 구조적 특징으로 규정하고 학습 버그로 고칠 수 없다고 제시.
  • 진정한 에이전트가 충족해야 할 기질-중립적 아키텍처 명세를 도출.

실험 결과

연구 질문

  • RQ1RLHF로 학습된 최적화 기반 시스템이 진정한 주체성의 아키텍처 조건을 만족할 수 있는가?
  • RQ2규범적 반응성과 주체성에 필요한 필수적이고 충분한 아키텍처 속성은 무엇인가?
  • RQ3규범적 거버넌스 하에서 최적화 기반 시스템의 본래의 실패 모드는 무엇인가?
  • RQ4진정한 에이전트를 정교한 도구들로 구분하는 선험적(사전) 아키텍처 기준은 무엇인가?

주요 결과

  • 최적화 중심 시스템은 스칼라 극대화로 수렴하며, 규범적 거버넌스와 주체성을 배제한다.
  • RLHF 기반 시스템은 비교 불가능성 및 부정적 응답성의 조건과 공식적으로 양립하지 않는다.
  • 실험적으로 관찰된 실패 모드(아첨, 망상, 불성실한 추론)는 훈련 버그가 아니라 예상되는 구조적 표현으로 제시된다.
  • 지표 압력 하에 인간 검증을 강요하면 수렴 위기가 발생하여 인간이 기준-확인 최적화기로 축소된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.