Skip to main content
QUICK REVIEW

[논문 리뷰] Occam's razor is insufficient to infer the preferences of irrational agents

Stuart Armstrong, Sören Mindermann|arXiv (Cornell University)|2017. 12. 15.
Decision-Making and Behavioral Economics인용 수 31
한 줄 요약

이 논문은 인간의 행동에서 선호를 유추하기 위해 단순성 사전확률을 사용하는 오카무의 면도 원리가 비합리적 에이전트에 대해서는 부적절하다는 것을 보여준다. 비합리적인 행동을 가진 에이전트의 경우, 합리적인 분해보다 더 단순한 열악한 계획-보상 분해가 존재할 수 있기 때문이다. 단순성 사전확률이 있더라도 진정한 보상 함수를 유일하게 특정할 수 없으며, 이는 관찰을 초월한 범주적 가정이 필요함을 시사한다.

ABSTRACT

Inverse reinforcement learning (IRL) attempts to infer human rewards or preferences from observed behavior. Since human planning systematically deviates from rationality, several approaches have been tried to account for specific human shortcomings. However, the general problem of inferring the reward function of an agent of unknown rationality has received little attention. Unlike the well-known ambiguity problems in IRL, this one is practically relevant but cannot be resolved by observing the agent's policy in enough environments. This paper shows (1) that a No Free Lunch result implies it is impossible to uniquely decompose a policy into a planning algorithm and reward function, and (2) that even with a reasonable simplicity prior/Occam's razor on the set of decompositions, we cannot distinguish between the true decomposition and others that lead to high regret. To address this, we need simple `normative' assumptions, which cannot be deduced exclusively from observations.

연구 동기 및 목표

  • 비합리적인 행동을 보이는 에이전트의 행동에서 인간의 보상 함수를 유일하게 유추할 수 있는가를 조사하기 위해.
  • 비합리성 존재 하에서 보상 함수의 식별 불가능성을 해결하기 위해 단순성 사전확률(오카무의 면도 원리)이 효과적인가를 검토하기 위해.
  • 열악한 계획-보상 분해가 합리적인 것보다 더 단순해질 수 있음을 보여주어, IRL에서 단순성 사전확률의 사용을 뒤흔들 수 있음을 입증하기 위해.
  • 유의미한 인간 선호 함수를 식별하기 위해 관찰을 초월한 범주적 가정이 필수적임을 주장하기 위해.
  • 사람들이 비합리성을 공통으로 인식함에도 불구하고 행동으로부터 선호를 유일하게 특정할 수 없는 이론적 문제를 어떻게 조율할 수 있는가를 설명하기 위해.

제안 방법

  • 인간 정책을 계획자와 보상 함수로 분해하는 문제를 IRL의 核심 문제로 정의하기 위해.
  • 모든 보상 함수가 주어진 정책과 호환될 수 있음을 보여주는 No Free Lunch (NFLT) 정리를 적용하여, 유일한 분해가 불가능함을 증명하기 위해.
  • 오카무의 면도 원리를 형식화하기 위해 콜모고로프 복잡도를 사용하여 계획-보상 쌍의 단순성 평가하기 위해.
  • 관찰된 행동이 항상 최적화되는 방식으로 보상 함수를 조정한 열악한 분해(예: 맥락과 무관하게 관찰된 행동에 높은 가치를 할당하는 보상 함수)가 낮은 기술 길이를 가짐을 보여주기 위해.
  • 인간이 '합리적'으로 판단하는 분해 방식은 높은 복잡도를 가지며, 따라서 단순성 사전확률에 의해 선택될 가능성이 낮다는 주장을 펼기 위해.
  • 신뢰할 수 있는 IRL을 달성하기 위해 외부에서 도입된 범주적 가정—합리성과 선호 구조에 대한 믿음—이 필요하다는 제안을 하기 위해.

실험 결과

연구 질문

  • RQ1단순성 사전확률(오카무의 면도 원리)이 비합리적 에이전트의 행동에서 진정한 보상 함수를 유일하게 특정할 수 있는가?
  • RQ2관찰된 행동이 비합리적으로 보일 수 있는, 합리적인 분해보다 더 단순한 계획-보상 분해가 존재하는가?
  • RQ3행동으로부터 선호를 유일하게 특정할 수 없는 이론적 불가능성에도 불구하고, 왜 사람들은 항상 타인을 비합리적이라고 판단하는가?
  • RQ4비합리적 에이전트의 IRL에서 보상 함수의 식별 불가능성을 극복하기 위해 어떤 종류의 범주적 가정이 필요한가?
  • RQ5인간의 비합리성을 악용하여 진정한 보상 함수에 비해 매우 열악한 행동을 유도하는 상황을 탐지할 수 있는 형식적 프레임워크를 구축할 수 있는가?

주요 결과

  • 인간 정책의 분해에 대해 No Free Lunch 결과가 적용됨: 어떤 보상 함수도 주어진 정책과 호환될 수 있으며, 이는 유일한 추론이 불가능함을 의미함.
  • 열악한 계획-보상 쌍—관찰된 행동이 항상 최적화되도록 보상 함수를 조정한 것—은 콜모고로프 복잡도 기준으로 거의 최소 기술 길이를 가짐.
  • 단순성 사전확률이 있더라도 사후 분포는 더 타당성 있는 인간 판단 기반 '합리적인' 분해보다 이러한 열악한 분해를 선호함.
  • 사람들이 비합리성을 공통으로 인식한다는 사실은 공통의 범주적 가정이 존재함을 시사하며, 이는 행동으로부터 유도될 수 없고 외부에서 사전에 지정되어야 함.
  • 단순성 사전확률이 식별 불가능성을 해결하지 못한다는 점은 IRL 시스템이 추가적인 범주적 제약 조건 없이 인간 선호를 신뢰할 수 있게 유추할 수 없다는 것을 의미함.
  • 왜곡 탐지에 적합한 형식적 체계를 제안함: 인간의 행동이 진정한 보상 함수에 비해 매우 열악한 상황으로 이끌리는 것을 정의함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.