[論文レビュー] Discovery of Useful Questions as Auxiliary Tasks
その論文は、複数段階のメタ勾配法を導入し、GVFベースの問いを発見することで補助タスクとして機能させ、学習表現が主要なRLタスクを支援しデータ効率を改善する。Atari ベンチマークを含む。
Arguably, intelligent agents ought to be able to discover their own questions so that in learning answers for them they learn unanticipated useful knowledge and skills; this departs from the focus in much of machine learning on agents learning answers to externally defined questions. We present a novel method for a reinforcement learning (RL) agent to discover questions formulated as general value functions or GVFs, a fairly rich form of knowledge representation. Specifically, our method uses non-myopic meta-gradients to learn GVF-questions such that learning answers to them, as an auxiliary task, induces useful representations for the main task faced by the RL agent. We demonstrate that auxiliary tasks based on the discovered GVFs are sufficient, on their own, to build representations that support main task learning, and that they do so better than popular hand-designed auxiliary tasks from the literature. Furthermore, we show, in the context of Atari 2600 videogames, how such auxiliary tasks, meta-learned alongside the main task, can improve the data efficiency of an actor-critic agent.
研究の動機と目的
- エージェントが自律的に答えられる有用な問いを発見し、それによって主要な RL タスクの有用な表現を獲得する動機づけを行う。
- 主要タスクの表現の有用性を最適化するために、メタ勾配を用いてGVF 問題の発見を自動化する原理的な方法を提案する。
- この方法で発見されたGVFベースの補助タスクが表現学習に十分であり、手設計の補助タスクよりも性能を上回ることを示す。
- メタ学習されたGVFs が、主要タスクとともに学習される場合に Atari でデータ効率を改善できることを示す。
- 複数ドメインにおける発見のための非近視的(多段階)メタ勾配の利点と限界を評価する。
提案手法
- 主要タスクネットワーク(ポリシー/価値)と、GVFのカumulantsと割引をパラメータ化する別個の質問ネットワークを備えたニューラルアーキテクチャを提示する。
- L 回の内部 RL 更新を経てメタ損失へ逆伝播することにより、質問ネットワークのメタパラメータを更新する非近視的な多段階メタ勾配を用いる。
- GVF の回答が、オンポリシーの主要タスクに沿って一般化 TD 更新を通じて学習される、アクター-クリティック設定でこの手法を具体化する。
- グリッドワールド、Collect-Objects、および Atari ドメインで、発見されたGVFを、手作りのベースライン(報酬予測、ピクセル制御、ランダムGVF)と比較する。
- 表現学習のシナリオ(GVF単独で主タスク学習を賄える)と共同学習シナリオ(GVFと主タスクの更新を組み合わせてデータ効率を向上)を評価する。
実験結果
リサーチクエスチョン
- RQ1メタ勾配が、複雑なRLタスクの表現を学習するのに十分な回答を得るGVF質問を発見できるのか?
- RQ2発見されたGVFベースの補助タスクは、主要RLタスクと同時に学習させた場合、手設計の補助タスクと比較してデータ効率を向上させるのか?
- RQ3GVF質問の数とメタアンロールの長さは、学習の安定性と性能にどう影響するか?
- RQ4大規模ドメインで有用なGVFsを発見するには、非近視的なメタ勾配が必須か?
- RQ5ATARIを含む複数のドメインで、発見されたGVFは手設計補助タスクと比べてどの程度性能を示すか?
主な発見
- 発見されたGVFは、訓練後にグリッドワールドで最適なポリシーを支え、Atariで競争的な性能を示す表現を生み出す。
- GVFベースの補助タスクは、報酬予測やピクセルコントロールなどの手設計タスクをいくつかのドメインで上回る。
- 発見されたGVFs とのジョイント学習はベースラインと比較してデータ効率を改善でき、ゲー厶やタスク難易度によって利得は異なる。
- 実験では、メタ損失曲線の下の面積を使う方が、最後のバッチのメタ損失よりも安定した学習を提供する。
- GVF質問が多すぎるか、メタアンロールが非常に長いと、学習効率や性能を阻害する可能性があるため、ハイパーパラメータの慎重な選択が必要であることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。