Skip to main content
QUICK REVIEW

[論文レビュー] Action and Perception as Divergence Minimization

Danijar Hafner, Pedro A. Ortega|arXiv (Cornell University)|Sep 3, 2020
Explainable Artificial Intelligence (XAI)参考文献 146被引用数 23
ひとこと要約

本論文は、世界と共有の表現的ターゲット分布の間のKullback-Leibler(KL)ダイバージェンスの共同最小化として、知覚と行動の両方を定式化する統一フレームワーク—行動と知覚の発散最小化(APD)—を提案する。潜在変数を活用することで、表現学習、情報利得、エームパワー、スキル発見を一つの原理に統合し、強力な世界モデルを持つエージェントが、タスク固有の報酬なしに自律的に探索・適応できることを示している。

ABSTRACT

To learn directed behaviors in complex environments, intelligent agents need to optimize objective functions. Various objectives are known for designing artificial agents, including task rewards and intrinsic motivation. However, it is unclear how the known objectives relate to each other, which objectives remain yet to be discovered, and which objectives better describe the behavior of humans. We introduce the Action Perception Divergence (APD), an approach for categorizing the space of possible objective functions for embodied agents. We show a spectrum that reaches from narrow to general objectives. While the narrow objectives correspond to domain-specific rewards as typical in reinforcement learning, the general objectives maximize information with the environment through latent variable models of input sequences. Intuitively, these agents use perception to align their beliefs with the world and use actions to align the world with their beliefs. They infer representations that are informative of past inputs, explore future inputs that are informative of their representations, and select actions or skills that maximally influence future inputs. This explains a wide range of unsupervised objectives from a single principle, including representation learning, information gain, empowerment, and skill discovery. Our findings suggest leveraging powerful world models for unsupervised exploration as a path toward highly adaptive agents that seek out large niches in their environments, rendering task rewards optional.

研究の動機と目的

  • 強化学習と表現学習における多様な目的を、一貫した枠組みで統合すること。
  • 内発的動機づけ、エームパワー、情報利得といった既知の目的の関係を明確化すること。
  • 表現力のある世界モデルが、知能エージェント行動におけるタスク報酬を不要にするかどうかを検討すること。
  • 発散最小化に基づく新しいエージェント目的を設計する一般的な手法を提示すること。
  • スケーラブルな統一的定式化を通じて、深層強化学習とアクティブインファレンス、自由エネルギー原理を結びつけること。

提案手法

  • 知覚と行動を、世界の分布と共有ターゲット分布の間のKLダイバージェンスの共同最小化として定式化する。
  • 潜在変数を内部状態として用い、過去の入力を変分推論と結びつけ、将来の入力を情報利得と結びつける。
  • 潜在変数と入力の間の相互情報量の最大化が、共同KLダイバージェンスの最小化の結果として導かれる。
  • 共同KLの分解を導入し、過去(表現学習)と未来(探索)の項を分離する。
  • 一貫した原理から、コントラスト学習、SLAC、エームパワーといった既知の目的を導出する。
  • 表現力のある世界モデルがターゲットとして機能し、内発的探索を通じて広大な生態的ニッチを発見可能であると提唱する。

実験結果

リサーチクエスチョン

  • RQ1知覚と行動を、知能エージェントのための単一の目的関数でどのように統合できるか?
  • RQ2潜在変数は、表現学習と将来志向の探索をどのように結びつけるか?
  • RQ3エームパワー、情報利得、コントラスト学習といった異なる目的が、どのように同一原理から生じるか?
  • RQ4表現力のある世界モデルが、タスク固有の報酬なしに自律的探索・適応を可能にするか?
  • RQ5このフレームワークとアクティブインファレンスや自由エネルギー原理といった既存理論との関係は何か?

主な発見

  • 共同KL最小化フレームワークは、狭義のタスク報酬から一般化された内発的目的に至る広範な目的を統合する。
  • 表現力のあるターゲットとの発散最小化は、潜在変数と感覚入力の間の相互情報量最大化をもたらす。
  • 過去の入力項は変分推論による表現学習を生み出し、将来の入力項は情報利得に基づく探索を可能にする。
  • 確率的行動とスキルは、将来の相互情報量最大化を通じて一般化されたエームパワーとスキル発見をもたらす。
  • 従来のアクティブインファレンスに比べ、計算的制限を克服するスケーラブルな代替手法を提供する。
  • 強力な世界モデルがタスク報酬をオプション化できることを示唆し、エージェントが自律的に豊かな環境的ニッチを発見・占有可能となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。