[論文レビュー] Imitating Interactive Intelligence
本論文は、人間同士のデータからの模倣学習で3D仮想プレイルーム内の対話型エージェントを訓練し、補助損失と評価モデルを追加して人間の評価を近似し、訓練データを超えた一般化を可能にする。
A common vision from science fiction is that robots will one day inhabit our physical spaces, sense the world as we do, assist our physical labours, and communicate with us through natural language. Here we study how to design artificial agents that can interact naturally with humans using the simplification of a virtual environment. This setting nevertheless integrates a number of the central challenges of artificial intelligence (AI) research: complex visual perception and goal-directed physical control, grounded language comprehension and production, and multi-agent social interaction. To build agents that can robustly interact with humans, we would ideally train them while they interact with humans. However, this is presently impractical. Therefore, we approximate the role of the human with another learned agent, and use ideas from inverse reinforcement learning to reduce the disparities between human-human and agent-agent interactive behaviour. Rigorously evaluating our agents poses a great challenge, so we develop a variety of behavioural tests, including evaluation by humans who watch videos of agents or interact directly with them. These evaluations convincingly demonstrate that interactive training and auxiliary losses improve agent behaviour beyond what is achieved by supervised learning of actions alone. Further, we demonstrate that agent capabilities generalise beyond literal experiences in the dataset. Finally, we train evaluation models whose ratings of agents agree well with human judgement, thus permitting the evaluation of new agent models without additional effort. Taken together, our results in this virtual environment provide evidence that large-scale human behavioural imitation is a promising tool to create intelligent, interactive agents, and the challenge of reliably evaluating such agents is possible to surmount.
研究の動機と目的
- 現実的で対話型の設定において、人工知能と人間のような相互作用を統合する。
- 大規模な行動事前分布を人間の相互作用デモを模倣して開発する。
- 対話型の訓練が、監視付きアクション学習を超えたエージェント行動の改善を示す。
- 学習したエージェントが、正確な訓練体験を超えた新規状態へ一般化することを示す。
- 新しいエージェントを評価するために、人間の評価と一致する判断を持つ評価モデルを作成する。
提案手法
- 知覚・行動・言語タスクのために、モバイルマニピュレータを備えた3D UnityベースのPlayroomを使用する。
- 言語ゲームを通じて、模倣学習者を訓練・評価するための大規模な人間の setter-solver 相互作用データセットを収集する(約610kエピソード)。
- 多modal観察に条件付けられた自己回帰ポリシーでモデリングされた、連続的なマウス視点操作とキーボード制御を備えたアクション空間を採用する。
- ResNetベースのビジョンモジュール、マルチモーダル変換器、LSTM、モータ出力と言語出力の別々のポリシーを備えたエージェントを設計する。
- 基本の模倣目標として行動模倣(cloning)を実装し、表現を正則化するために補助損失(Language MatchingとObject-in-View)を追加する。
- 分布のミスマッチを解消しデモンストレーションからの学習を改善するために、逆強化学習の役割を論じる。
実験結果
リサーチクエスチョン
- RQ1大規模な人間の行動模倣が、仮想環境で知的で対話的なエージェントを生み出すことができるか?
- RQ2補助学習信号と行動 pri or は、純粋なBCを超えた模倣学習エージェントを改善するか?
- RQ3学習したエージェントは、データセットで明示的に見られていない状態へどの程度一般化できるか?
- RQ4エージェント評価をスケーラブルにするために、評価モデルを人間の判断と一致させて訓練できるか?
主な発見
- 対話型訓練と補助損失は、行動の監視付き学習だけを超えたエージェント挙動を改善する。
- エージェントは、訓練データに明示的に現れない新規状態やタスクへ一般化する。
- 人間のデモンストレーションから訓練された大規模な行動 pri or は、対話中の人間らしい反応を促進する。
- 人間の判断を予測するよう訓練された評価モデルは、新しいエージェントに対する人間の評価と良く一致する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。