Skip to main content
QUICK REVIEW

[論文レビュー] Emergence of Grounded Compositional Language in Multi-Agent Populations

Igor Mordatch, Pieter Abbeel|arXiv (Cornell University)|Mar 15, 2017
Language and cultural evolution被引用数 213
ひとこと要約

本論文は、物理的に基盤のある環境の中で多エージェント集団間に grounding された組成的言語が出現し得ることを示し、離散の Gumbel-Softmax 通信チャネルと語彙制御を用いたエンドツーエンドの微分可能なマルチエージェント強化学習で学習される。

ABSTRACT

By capturing statistical patterns in large corpora, machine learning has enabled significant advances in natural language processing, including in machine translation, question answering, and sentiment analysis. However, for agents to intelligently interact with humans, simply capturing the statistical patterns is insufficient. In this paper we investigate if, and how, grounded compositional language can emerge as a means to achieve goals in multi-agent populations. Towards this end, we propose a multi-agent learning environment and learning methods that bring about emergence of a basic compositional language. This language is represented as streams of abstract discrete symbols uttered by agents over time, but nonetheless has a coherent structure that possesses a defined vocabulary and syntax. We also observe emergence of non-verbal communication such as pointing and guiding when language communication is unavailable.

研究の動機と目的

  • 多-agent, 物理的に配置された設定において grounding された組成的言語の出現を示す。
  • 人間のデータや事前に定義された意味を用いず、エージェントが一貫した語彙と統語を発展させることを示す。
  • 環境の変化と語彙制約が言語構造と協調に与える影響を探る。

提案手法

  • 連続的な2D空間において、NエージェントとMランドマークを用いた協調的な部分観測マルコフゲームを用いる。
  • 通信を、共有された記号語彙から時間とともに出力される離散的記号として表現する。
  • 可微分ダイナミクスを用いた時間を通じたバックプロパゲーションで、全エージェントに同一のポリシーをエンドツーエンドで訓練する。
  • 離散的な通信記号の微分可能なサンプリングを可能にするためにGumbel-Softmaxリラクセーションを採用する。
  • ゴールを明確に伝えるコミュニケーション信号を促進する補助的なゴール予測報酬を組み込む。
  • 組成性を促進するために、ディリクレ過程ベースの目的で大規模な語彙を抑制する。

実験結果

リサーチクエスチョン

  • RQ1人間の言語データを使わず、物理環境での相互作用から grounding された組成的言語が出現しうるか?
  • RQ2どのような環境要因と語彙制約が出現言語の組成的構造を促進するか?
  • RQ3出現言語は、さまざまな集団サイズ・構成における協調戦略とタスク成功度とどのように関連しているか?
  • RQ4通信チャネルが制限される場合、言語を補完・代替する非言語的コミュニケーション戦略は何か?

主な発見

  • ランドマークおよび行動に対応する組成的で解釈可能な記号語彙が出現し、環境によってその構造が形成される。
  • 語彙サイズの制約と多様なタスク構成が、全体的で非組成的な言語よりも組成的言語の出現を促進する。
  • 通信ありでは、通信なしに比べてタスク報酬が著しく向上する(訓練: -0.919 vs -0.332; テスト: -0.920 vs -0.392)。
  • 出現した言語は物理学への grounding を反映し、発話がしばしば行動に先行する(例: movement の前に GOTO が発せられる)。
  • 言語が利用できない場合には、指差し・視線を用いた signaling、さらには押すことなどの非言語戦略が生じ、マルチモーダルな協調を示す。
  • ランドマークやエージェントの数が異なる見たことのない構成にも、組成的概念を再利用することで一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。