QUICK REVIEW

[論文レビュー] Occam's razor is insufficient to infer the preferences of irrational agents

Stuart Armstrong, Sören Mindermann|arXiv (Cornell University)|Dec 15, 2017

Decision-Making and Behavioral Economics被引用数 31

ひとこと要約

この論文は、人間の行動から好みを推論する際に単純性の事前分布（オッカムの剃刀）を用いることが、非合理的なエージェントに対しては不十分であることを示している。非合理的な行動では、合理的な分解よりも単純な退化したプランナ-リワード分解が生じ得るため、真のリワード関数を一意に特定することは不可能であり、観察を超えた規範的仮定が不可欠となる。

ABSTRACT

Inverse reinforcement learning (IRL) attempts to infer human rewards or preferences from observed behavior. Since human planning systematically deviates from rationality, several approaches have been tried to account for specific human shortcomings. However, the general problem of inferring the reward function of an agent of unknown rationality has received little attention. Unlike the well-known ambiguity problems in IRL, this one is practically relevant but cannot be resolved by observing the agent's policy in enough environments. This paper shows (1) that a No Free Lunch result implies it is impossible to uniquely decompose a policy into a planning algorithm and reward function, and (2) that even with a reasonable simplicity prior/Occam's razor on the set of decompositions, we cannot distinguish between the true decomposition and others that lead to high regret. To address this, we need simple `normative' assumptions, which cannot be deduced exclusively from observations.

研究の動機と目的

非合理的に振る舞うエージェントの行動から、逆強化学習（IRL）が人間のリワード関数を一意に推論できるかどうかを調査すること。
非合理的な状況下でも、単純性の事前分布（オッカムの剃刀）がリワード関数の同定不能性を解消できるかどうかを検討すること。
非合理的な行動を示す人間の行動に対して、退化したプランナ-リワード分解が合理的な分解よりも単純である可能性を示し、IRLにおける単純性の事前分布の有効性を揺るがすこと。
人間の好みを妥当な形で特定するには、観察結果を超えた規範的仮定（合理性や好み構造に関する信念）が必要であると主張すること。
人間が非合理的さを共通して認識しているという事実と、行動からの好みの同定不能性という理論的課題の両立を説明すること。

提案手法

人間の行動方針をプランナとリワード関数に分解する問題を、IRLの核心的課題として形式化すること。
自由な選択の定理（NFLT）を適用し、任意のリワード関数が与えられた行動方針と整合可能であることを示し、一意な分解が不可能であることを立証すること。
コルモゴロフ複雑度を用いてオッカムの剃刀の形式的定式化を行い、プランナ-リワード対の単純さを評価すること。
観察された行動が常に最適となるようにリワード関数を設計した退化した分解（例：文脈にかかわらず観察行動に高い報酬を割り当てる）が、記述長が非常に短くなることを示すこと。
人間が「妥当」と判断する分解は高複雑度であるため、単純性の事前分布によって選ばれにくいと主張すること。
信頼できるIRLを実現するには、合理性や好み構造に関する規範的仮定を外部から強制的に導入する必要があると提言すること。

実験結果

リサーチクエスチョン

RQ1単純性の事前分布（オッカムの剃刀）は、非合理的なエージェントの行動から真のリワード関数を一意に特定できるか？
RQ2観察行動が退化的であるにもかかわらず、任意の合理的な分解よりも単純なプランナ-リワード分解が存在するか？
RQ3行動からの好みの同定不能性という理論的課題にもかかわらず、なぜ人間は一貫して他者を非合理的だと判断するのか？
RQ4非合理的なエージェントのIRLにおいて、リワード関数の同定不能性を克服するために必要な規範的仮定はどのようなものか？
RQ5人間の非合理的さを悪用して好みを無視するような状況を検出できる形式的フレームワークを構築できるか？

主な発見

人間の行動方針の分解には自由な選択の定理（NFLT）が適用可能であり、任意のリワード関数が与えられた行動方針と整合可能であるため、一意な推論は不可能である。
観察された行動を常に最適化するように設計されたリワード関数を備えた退化したプランナ-リワード対は、コルモゴロフ複雑度の観点からほぼ最小の記述長を持つ。
単純性の事前分布を用いても、事後分布は人間が「妥当」と判断するようなより自然な分解よりも、むしろこうした退化した分解を優遇する。
人間が非合理的さを共通して認識していることは、行動から独立して外部に与えられた規範的仮定の存在を示唆しており、行動だけからは導けない。
単純性の事前分布が同定不能性を解消できないことから、IRLシステムは追加の規範的制約なしには人間の好みを信頼性高く推論できない。
人間の真のリワード関数に対して著しく非効率な行動をとらせる状況を検出する形式的枠組みを提唱した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。