QUICK REVIEW

[論文レビュー] Multi-Agent Cooperation and the Emergence of (Natural) Language

Angeliki Lazaridou, Alexander Peysakhovich|arXiv (Cornell University)|Dec 21, 2016

Language and cultural evolution被引用数 122

ひとこと要約

この論文は、固定語彙を用いた参照ゲームにおいて、2つのニューラルエージェントがどのように通信を学習するかを研究し、出現的シンボルが人間が理解できる意味論と整合するか、監督付き言語タスクで地上化できるかを評価する。

ABSTRACT

The current mainstream approach to train natural language systems is to expose them to large amounts of text. This passive learning is problematic if we are interested in developing interactive machines, such as conversational agents. We propose a framework for language learning that relies on multi-agent communication. We study this learning in the context of referential games. In these games, a sender and a receiver see a pair of images. The sender is told one of them is the target and is allowed to send a message from a fixed, arbitrary vocabulary to the receiver. The receiver must rely on this message to identify the target. Thus, the agents develop their own language interactively out of the need to communicate. We show that two networks with simple configurations are able to learn to coordinate in the referential game. We further explore how to make changes to the game environment to cause the "word meanings" induced in the game to better reflect intuitive semantic properties of the images. In addition, we present a simple strategy for grounding the agents' code into natural language. Both of these are necessary steps towards developing machines that are able to communicate with humans productively.

研究の動機と目的

受動的なテキスト露出よりも、マルチエージェント協調を通じて言語学習を促進する。
タブラ・ラサ（初期無知）エージェントが参照課題を協調するための通信プロトコルを発展させることができることを示す。
出現的シンボルが低レベルの視覚情報ではなく高レベルの意味特性を反映しているかを調べる。
ゲーム構造を変更することが出現言語の意味的整合にどう影響するかを検討する。
監督付きラベリングタスクを介して出現的通信を自然言語にグラウンディングすることを探る。

提案手法

2つの単純なフィードフォワード型ニューラルネットワーク（送信者と受信者）が、2枚の画像と固定語彙を用いた参照ゲームを行う。
送信者は埋め込み空間を用いて、ターゲット/ディストラクターの入力を固定語彙のシンボルへマッピングし、アグノスティック型またはインフォームド型のアーキテクチャを使用する。
受信者はシンボルと画像の埋め込みを用いてドット積の類似度でターゲットを推定し、確率的な選択を生成する。
通信ボトルネックは、シンボルのガブス分布（温度τ）からサンプリングしてメッセージを離散化する。
訓練は強化学習（REINFORCE）を用い、正しいターゲット識別で報酬1、そうでなければ0；ミニバッチ更新（32）を50k反復で行う。

実験結果

リサーチクエスチョン

RQ1提案された設定でタブラ・ラサのエージェントは成功裏に参照通信を学習できるか？
RQ2出現的シンボルは人間の言語に類似した画像間の意味特性を獲得するのか？
RQ3視覚入力や共通知識の内容を変更することは、より高レベルの意味的グラウンディングを促すか？
RQ4監督付き言語タスクによるグラウンディングは、出現的シンボルを従来の名称と一致させるか？
RQ5グラウンディングされたエージェントの出現言語を人間はどれくらい解釈できるか？

主な発見

エージェントは高い通信成功率に収束し、情報提供型の送信者は通常アグノスティック型より学習が速い。
出現言語は情報提供型の送信者でより多くのシンボルを使用し、単なる同義語化よりも豊かな符号化を示唆する。
シンボル-オブジェクト対応の純度は偶然を上回り、オブジェクトカテゴリへの半意味的グラウンディングを示す。
共通知識を減らしても（クラスレベルのターゲット）、エージェントは協調を維持し、意味純度のわずかな増加を示す。
監督付きラベリングによるグラウンディングはシンボルの使用を拡張し、解釈性を高める。いくつかのシンボルは監督付きラベルへ直接対応し、非監督付き画像へのより広い一般化を実現する。
人間の評価では、語とターゲット画像の照合で68%の精度を示し、出現言語の部分的な人間理解可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。