[論文レビュー] Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven Exploration
この論文は、言語を用いて分布外の目標を想像し、探索を導く intrinsically motivated RL アーキテクチャである imagine を紹介します。モジュラーでオブジェクト中心の表現と Playground 環境での社会的言語フィードバックによって実現されます。
Developmental machine learning studies how artificial agents can model the way children learn open-ended repertoires of skills. Such agents need to create and represent goals, select which ones to pursue and learn to achieve them. Recent approaches have considered goal spaces that were either fixed and hand-defined or learned using generative models of states. This limited agents to sample goals within the distribution of known effects. We argue that the ability to imagine out-of-distribution goals is key to enable creative discoveries and open-ended learning. Children do so by leveraging the compositionality of language as a tool to imagine descriptions of outcomes they never experienced before, targeting them as goals during play. We introduce IMAGINE, an intrinsically motivated deep reinforcement learning architecture that models this ability. Such imaginative agents, like children, benefit from the guidance of a social peer who provides language descriptions. To take advantage of goal imagination, agents must be able to leverage these descriptions to interpret their imagined out-of-distribution goals. This generalization is made possible by modularity: a decomposition between learned goal-achievement reward function and policy relying on deep sets, gated attention and object-centered representations. We introduce the Playground environment and study how this form of goal imagination improves generalization and exploration over agents lacking this capacity. In addition, we identify the properties of goal imagination that enable these results and study the impacts of modularity and social interactions.
研究の動機と目的
- 外部報酬なしに自律エージェントがオープンエンドなスキルレパートリを学習できるよう、目標を想像して学習させる。
- 構成的言語を通じて分布外の目標生成を実現し、創造的な探索を促す。
- 社会的言語ガイダンスとモジュールアーキテクチャが目標の解釈とポリシー学習をどう支えるかを検討する。
- 述語・属性・オブジェクトカテゴリ間の一般化を分析するための統制された環境(Playground)を提供する。
提案手法
- 言語エンコーダを備えた imagine アーキテクチャを導入し、自然言語の目標を埋め込みにマッピングする。
- 2つの内部モデルを開発する:目標達成報酬関数と目標条件付きポリシー。
- 既知の目標と想像された目標を組み合わせる目標生成器を用い、想像は構成文法に基づいて新しい目標を組み立てる。
- オブジェクト中心のモジュラーアーキテクチャ(党中央 Deep Sets with gated attention)を用いて置換不変な表現を実現する。
- Hindsight Replay と共有言語エンコーダを用いて説明を学習信号へ翻訳する。
実験結果
リサーチクエスチョン
- RQ1言語を用いた目標想像は、新しい状態や言語で説明された新しい目標への一般化にどう影響するか。
- RQ2想像された目標が環境探索、特にオブジェクト操作にどのような影響を与えるか。
- RQ3モジュールアーキテクチャと社会的言語フィードバックは、想像された目標から学習する能力にどのように影響するか。
主な発見
- 目標想像は、テストセットでの未見の目標に対する一般化を、想像を伴わないベースラインと比較して大幅に改善する。
- エージェントは、想像された目標に応じて行動を調整する(例:植物に水を与えるなど)ことで行動的適応を示す。
- 想像は、テストシナリオでの目標指向の相互作用(i2c)の増加として計測される探索を促進する。
- モジュール性(オブジェクト中心の Deep Sets with gated attention)は、想像された目標を活用し、平坦なアーキテクチャよりも一般化を改善する上で重要である。
- パートナーからの記述的な社会的フィードバックは、緩やかなフィードバック条件下でも効果的な目標想像を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。