QUICK REVIEW

[論文レビュー] Inverse Reward Design

Dylan Hadfield-Menell, Smitha Milli|arXiv (Cornell University)|Nov 8, 2017

Advanced Multi-Objective Optimization Algorithms参考文献 21被引用数 63

ひとこと要約

本文は、設計者が提供する代理報酬から真の目的を推定する逆報酬設計（IRD）を定義し、リスク回避型計画を用いて誤指定報酬や報酬ハッキングを緩和する。

ABSTRACT

Autonomous agents optimize the reward function we give them. What they don't know is how hard it is for us to design a reward function that actually captures what we want. When designing the reward, we might think of some specific training scenarios, and make sure that the reward will lead to the right behavior in those scenarios. Inevitably, agents encounter new scenarios (e.g., new types of terrain) where optimizing that same reward may lead to undesired behavior. Our insight is that reward functions are merely observations about what the designer actually wants, and that they should be interpreted in the context in which they were designed. We introduce inverse reward design (IRD) as the problem of inferring the true objective based on the designed reward and the training MDP. We introduce approximate methods for solving IRD problems, and use their solution to plan risk-averse behavior in test MDPs. Empirical results suggest that this approach can help alleviate negative side effects of misspecified reward functions and mitigate reward hacking.

研究の動機と目的

自律エージェントにおける誤指定報酬関数の問題を動機づけ、形式化する。
訓練MDP内で代理報酬から真の報酬を推定するIRD問題を定義する。
IRDの後方分布を近似する確率的/ベイズ的アプローチを提案する。
リスク回避型計画と組み合わせたIRDが報酬の誤指定に対するロバスト性を向上させることを示す。

提案手法

訓練MDP内で設計者の真の報酬に関する観測として代理報酬をモデル化する。
IRD問題を真の報酬の分布 P(w*|~w, ~M) を推定する問題として定義する。
代理報酬が近似的に最適設計者から来るという観測モデルを導入し、最大エントロピー軌道分布を介して表現する。
正規化定数が計算不能な場合に対処するため、サンプリングベースの Sample-Z および MaxEnt-Z を含むIRD後方の効率的近似を開発する。
IRDをベイズ的逆強化学習および実用言語/実用解釈と関連付け、推論アプローチを正当化する。
テストMDPで意思決定時にIRD後方を活用するためにリスク回避型計画を適用する。

実験結果

リサーチクエスチョン

RQ1代理報酬と訓練環境を与えられたとき、設計者の真の目的をどのように推定できるか？
RQ2IRDベースの後方は、未知の環境で誤指定報酬を回避するのに役立つか？
RQ3困難な尤度（二重に難解な問題）にも関わらず、IRDを効率的に近似できるか？
RQ4IRDの後方を用いたリスク回避型計画は負の副作用と報酬ハッキングを減らすか？
RQ5IRDは標準的な逆強化学習とどのように関係し、何が異なるか？

主な発見

IRDとリスク回避型計画を組み合わせると、設計時に見落とされた危険な領域を横断するなどの負の副作用が減少する。
IRD後方は真の目的についての不確実性を考慮することで報酬ハッキングに対するヘッジに役立つ。
近似推論技術（Sample-Z、MaxEnt-Z）は関連分野でIRD後方の実用的推定を可能にする。
潜在報酬設定では、適切な特徴が観測されていない場合でも、IRDは代理報酬を文脈依存の観測として扱うことで壊滅的な結果を回避するようエージェントを導く。
このアプローチは単純な領域で頑健性を示し、より複雑な報酬誤指定の取り扱いへの道を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。