Skip to main content
QUICK REVIEW

[論文レビュー] Watch-And-Help: A Challenge for Social Perception and Human-AI Collaboration

Xavier Puig, Tianmin Shu|arXiv (Cornell University)|Oct 19, 2020
Reinforcement Learning in Robotics参考文献 54被引用数 40
ひとこと要約

WAH は、AI が人間のようなエージェントを観察して目標を推測し、続いて新しい環境で協力して家庭内タスクをできるだけ早く完了させるという2段階の課題を導入します。VirtualHome-Social における社会的知覚と人間-AI の協働を評価します。

ABSTRACT

In this paper, we introduce Watch-And-Help (WAH), a challenge for testing social intelligence in agents. In WAH, an AI agent needs to help a human-like agent perform a complex household task efficiently. To succeed, the AI agent needs to i) understand the underlying goal of the task by watching a single demonstration of the human-like agent performing the same task (social perception), and ii) coordinate with the human-like agent to solve the task in an unseen environment as fast as possible (human-AI collaboration). For this challenge, we build VirtualHome-Social, a multi-agent household environment, and provide a benchmark including both planning and learning based baselines. We evaluate the performance of AI agents with the human-like agent as well as with real humans using objective metrics and subjective user ratings. Experimental results demonstrate that the proposed challenge and virtual environment enable a systematic evaluation on the important aspects of machine social intelligence at scale.

研究の動機と目的

  • 社会的知覚(観察からの目標推論)と協調計画(未見環境での効率的な支援)を評価する新しいAIチャレンジを動機付け、定義する。
  • AIエージェント、内蔵の人間のようなエージェント、実在する人間との相互作用を可能にする、複雑な家庭内タスクのためのMulti-agent設定へ VirtualHome を拡張する。
  • 目標推論モデルと計画/DRLベースラインを含むベンチマークを提供し、機械の社会的知性を大規模に研究する。

提案手法

  • 2段階のWatch-And-Helpフレームワークを提案する:Watch段階でBobがAliceがタスクを実行するのを観察して彼女の目標を推測する;Help段階でBobがAliceと協力して、別の環境で同じ目標を効率的に達成する。
  • Symbolicと視覚的観察、物体相互作用、そしてBobに応じて再計画できる内蔵の人間のようなエージェントを備えたマルチエージェントの家庭環境であるVirtualHome-Socialを構築する。
  • タスクを、個数を伴う述語の集合として記述された目標で定義し、家庭内活動の5つの述語集合を表す(例:ディナー用テーブルのセッティング、冷蔵庫の買い物、料理、皿洗い、スナックをつまみながらの読書)。
  • 可視オブジェクト上のTransformer+LSTMを用いて述語のカウントを予測する目標推論モデルを実装する。高レベルのサブゴールを選択し、低レベルのポリシー/プランナーが行動を実行する階層的な計画/学習アーキテクチャを用いる。
  • HP(MCTS RPを用いた階層的プランナー)、Hybrid(RL+RP)、HRL(階層的RL)、Randomを含むベースラインを評価し、完全な目標知識を持つOracleバリアントも併せて評価する。

実験結果

リサーチクエスチョン

  • RQ1現実的なマルチエージェント環境において、AIは単一のデモンストレーションから人間の目標を推測できるか。
  • RQ2未知の環境で、AIエージェントが人間のようなエージェントと計画・協調してタスク完了時間を最小化できるか。
  • RQ3家庭内タスクで効果的な人間-AI協働を実現する主要な要因は何か。
  • RQ4異なるタスクカテゴリーで、目標推論の精度が協調性能に与える影響はどのようになるか。

主な発見

  • Test-1 における目標推論の精度/再現率は 0.85/0.96 を達成; 完全なデモンストレーションの使用は精度/再現率を高め、0.99/0.99 となる。
  • 真の目標を用いたHPベースラインは、Help段階においてOracle以外のベースラインの中で最良の性能を達成し、他のベースラインより高い成功率とスピードアップを示す。
  • 推定された目標(RG)を使用すると、Aliceの計画と衝突して性能が低下する可能性があり、動的な目標調整の必要性を浮き彫りにする。
  • Test-2(複数活動タスク)は目標予測精度を低下させ(0.68/0.64)、支援性能を劣化させ、複数活動シナリオへの一般化の課題を示す。
  • Alice 単独は Help 段階で 95.4% の成功率を達成し、HPベースラインは 88.6% の成功率と 0.21 のスピードアップを達成する;Test-2 では目標認識の不良により性能が低下する。
  • 人間を相手にした実験では、AIベースラインは実人間と組んだ場合に相対的な順位を維持し、ユーザー評価は客観的指標と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。