Skip to main content
QUICK REVIEW

[論文レビュー] Avoiding Side Effects By Considering Future Tasks

Victoria Krakovna, Laurent Orseau|arXiv (Cornell University)|Jan 1, 2020
Computability, Logic, AI Algorithms被引用数 8
ひとこと要約

本論文では、将来のタスクを実行できる能力を報酬化することで、副作用を罰する補助報酬関数を自動生成する手法を提案する。ベースライン方策を用いて実現可能な将来のタスクをフィルタリングすることで、干渉の誘因を回避し、グリッドワールド環境において、逆転不能な行動のペナルティよりも優れた性能を発揮する。

ABSTRACT

Designing reward functions is difficult: the designer has to specify what to do (what it means to complete the task) as well as what not to do (side effects that should be avoided while completing the task). To alleviate the burden on the reward designer, we propose an algorithm to automatically generate an auxiliary reward function that penalizes side effects. This auxiliary objective rewards the ability to complete possible future tasks, which decreases if the agent causes side effects during the current task. The future task reward can also give the agent an incentive to interfere with events in the environment that make future tasks less achievable, such as irreversible actions by other agents. To avoid this interference incentive, we introduce a baseline policy that represents a default course of action (such as doing nothing), and use it to filter out future tasks that are not achievable by default. We formally define interference incentives and show that the future task approach with a baseline policy avoids these incentives in the deterministic case. Using gridworld environments that test for side effects and interference, we show that our method avoids interference and is more effective for avoiding side effects than the common approach of penalizing irreversible actions.

研究の動機と目的

  • 強化学習における副作用回避のための報酬設計の負担を軽減すること。
  • タスク完了を越えて避けられる行動を指定する課題に対処すること。
  • 将来的なタスクの実現可能性を保つために、エージェントが環境に干渉しないようにすること。
  • 決定的環境における干渉の誘因を形式的に定義し、排除すること。
  • グリッドワールド環境を用いて、副作用と干渉の回避の有効性を評価すること。

提案手法

  • 将来的なタスクの実行能力を促進する補助報酬関数を導入する。
  • エージェントのデフォルト行動(例:何もしない)を表すベースライン方策を用いて、デフォルトで達成できない将来のタスクをフィルタリングする。
  • 将来のタスクは、ベースライン方策下で達成可能な場合にのみ考慮され、不自然な干渉の誘因を回避する。
  • これらのフィルタリングされた将来のタスクを達成できる能力を低下させる行動に対して、補助報酬がペナルティを課す。
  • 本手法は、決定的環境において干渉の誘因を完全に排除することを形式的に証明している。
  • 本手法は、副作用と干渉行動をテストするためのグリッドワールド環境で評価されている。

実験結果

リサーチクエスチョン

  • RQ1将来のタスク実行能力に基づく補助報酬は、手動の報酬設計なしに副作用を効果的に低減できるか?
  • RQ2ベースライン方策の使用により、エージェント行動における干渉の誘因が排除されるか?
  • RQ3本手法は、副作用の回避において、標準的な逆転不能な行動ペナルティと比較して優れているか?
  • RQ4本手法は、有害な環境への干渉を防ぎながら、タスクのパフォーマンスを維持できるか?
  • RQ5ベースライン方策による将来のタスクのフィルタリングは、ロバストネスと整合性を向上させるか?

主な発見

  • 本手法は、ベースライン方策下で達成できない将来のタスクをフィルタリングすることで、環境への干渉を効果的に回避する。
  • 本手法は、グリッドワールド環境において、逆転不能な行動をペナルティ化する一般的な手法よりも、副作用の低減において優れた性能を示す。
  • 形式的解析により、本手法は決定的環境において干渉の誘因を完全に排除することが示された。
  • 将来のタスク実行能力に基づく補助報酬は、よりロバストで整合性の高いエージェント行動をもたらす。
  • ベースラインによるフィルタリング機構により、エージェントが将来のタスクの可能性を人工的に改善するために環境を操作するのを防ぐ。
  • 実験的結果により、本手法は、意図しない副作用を最小限に抑えながらも高いタスクパフォーマンスを維持できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。