QUICK REVIEW

[論文レビュー] On the Critical Role of Conventions in Adaptive Human-AI Collaboration

Andy Shih, Arjun Sawhney|arXiv (Cornell University)|Apr 7, 2021

Reinforcement Learning in Robotics参考文献 29被引用数 33

ひとこと要約

本論文は、 conventions-dependent 表現と rule-dependent 表現を分離する学習フレームワークを提示し、新しいパートナーへの高速適応と新しいタスクへのゼロショット協調を可能にする。文脈バンディット、ブロック配置、Hanabi を横断して検証し、人間研究を実施。

ABSTRACT

Humans can quickly adapt to new partners in collaborative tasks (e.g. playing basketball), because they understand which fundamental skills of the task (e.g. how to dribble, how to shoot) carry over across new partners. Humans can also quickly adapt to similar tasks with the same partners by carrying over conventions that they have developed (e.g. raising hand signals pass the ball), without learning to coordinate from scratch. To collaborate seamlessly with humans, AI agents should adapt quickly to new partners and new tasks as well. However, current approaches have not attempted to distinguish between the complexities intrinsic to a task and the conventions used by a partner, and more generally there has been little focus on leveraging conventions for adapting to new settings. In this work, we propose a learning framework that teases apart rule-dependent representation from convention-dependent representation in a principled way. We show that, under some assumptions, our rule-dependent representation is a sufficient statistic of the distribution over best-response strategies across partners. Using this separation of representations, our agents are able to adapt quickly to new partners, and to coordinate with old partners on new tasks in a zero-shot manner. We experimentally validate our approach on three collaborative tasks varying in complexity: a contextual multi-armed bandit, a block placing task, and the card game Hanabi.

研究の動機と目的

規約を活用して新しい人間パートナーに迅速に適応できるAIの必要性を動機付ける。
規約依存と規則依存の成分を分離する表現学習フレームワークを提案する。
規則表現がパートナー間のベストレスポンス分布の十分統計量になり得ることを示す。
モジュラー・ポリシー設計を通じて新しいパートナーへの迅速な適応と新タスクでのゼロショット協調を実証する。
3つの協同タスクと人間対人間の研究でこのアプローチを検証する。

提案手法

共有報酬を持つ二者MDPを定義し、タスク分布とパートナー分布を異なるモデルとして扱う。
gtというタスクモジュールと各パートナーモジュールgpiを用いたモジュラーなポリシーアーキテクチャを導入し、これらを掛け合わせて自己エージェントのポリシーを形成する。
パートナー分布下の周辺最適応答にgtを近づけるよう、Wasserstein距離項D(s)で学習を正則化する。
（非公式だが）gtが決定論的な自己エージェントのベストレスポンス戦略分布の十分統計量を近似することを証明する。
同じタスクで複数のパートナーと訓練し、タスクとパートナーの表現を別々に学習する。
文脈バンディット、ブロック配置、Hanabi の各タスクで新しいパートナーへの適応と新タスクでのゼロショット協調を評価し、規約の転移を調べる人間対人間研究を含む。

実験結果

リサーチクエスチョン

RQ1周辺（タスク駆動型）ポリシー表現は、パートナー間のベストレスポンス分布の十分統計量として機能するだろうか？
RQ2規約と規則の表現を分離することは、同じタスクでの新しいパートナーへの適応をより速くするか？
RQ3パートナーと学習した規約は、同じまたは類似の対称性を持つ新しいタスクへ転移するか（ゼロショット協調）？
RQ4人間パートナーはタスク間でどのように規約を継承し、どの条件下でそうなるのか？
RQ5正則化を用いたモジュラーアーキテクチャは、適応シナリオでベースラインより優れているか？

主な発見

タスク（規約なし）とパートナー（規約特異）表現を分離するモジュラーアーキテクチャは、新しいパートナーへの適応を改善する。
タスクモジュールを周辺ベストレスポンス戦略と整合させる正則化は、オラクル周辺への距離を縮め、新しいタスクでのゼロショット協調を高める。
文脈バンディット、ブロック配置、Hanabi 変種を横断する実験で、ベースラインおよびFirst-Order MAMLと比べて適応が改善。
人間の研究は、類似の対称性を持つタスク間で規約を人間が継承することを示唆し、提案された表現分離を支持する。
このアプローチは、新しいタスクで過去のパートナーと再学習せずに協調を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。