[論文レビュー] On the interaction between supervision and self-play in emergent communication
本論文は emergent communication のための supervised learning と self-play の組み合わせ(S2P)を研究し、監視付き学習を最初に行ってから自己対戦を行う方が、emergent learning のみやファインチューニングよりも優れていること、そして性能を改善するために population-based S2P を導入することを示す。
A promising approach for teaching artificial agents to use natural language involves using human-in-the-loop training. However, recent work suggests that current machine learning methods are too data inefficient to be trained in this way from scratch. In this paper, we investigate the relationship between two categories of learning signals with the ultimate goal of improving sample efficiency: imitating human language data via supervised learning, and maximizing reward in a simulated multi-agent environment via self-play (as done in emergent communication), and introduce the term supervised self-play (S2P) for algorithms using both of these signals. We find that first training agents via supervised learning on human data followed by self-play outperforms the converse, suggesting that it is not beneficial to emerge languages from scratch. We then empirically investigate various S2P schedules that begin with supervised learning in two environments: a Lewis signaling game with symbolic inputs, and an image-based referential game with natural language descriptions. Lastly, we introduce population based approaches to S2P, which further improves the performance over single-agent methods.
研究の動機と目的
- emergent communication における supervised language data と self-play の組み合わせのデータ効率性を調査する。
- self-play の前に supervised learning から開始することは、タスク性能と自然言語(L*)への言語的整合性を改善するかを決定する。
- さまざまな S2P スケジュールを比較し、頑健性と性能向上のための population-based アプローチを評価する。
提案手法
- supervised self-play (S2P) を、言語 L* の専門家データセット D に対する self-play 更新と supervised 更新の組み合わせとして定義する。
- いくつかの S2P スケジュールを評価する:sp2sup、sup2sp、ランダム更新、スケジュール更新(sched)、および話者凍結付きのスケジュール更新(sched_frz)。
- 2つの emergent communication 環境を study:象徴的入力を持つ Lewis signaling game(Object Reconstruction)と、自然言語説明を伴う画像ベースの referential game(IBR)。
- IBRゲームで離散的な話者メッセージを扱うため、straight-through Gumbel-Softmax を用いたバックプロパゲーションを使用する。
- 集団ベースの S2P (Pop-S2P) を、エージェントの集団を訓練して単一のエージェントに蒸留し、アンサンブルを上限ベースラインとして使用することにより導入する。
実験結果
リサーチクエスチョン
- RQ1自己対戦の前に監視付き学習から開始することは、emergent learning のみと比較してサンプル効率と自然言語(L*)への整合性を改善するか?
- RQ2異なる S2P スケジュールは、環境を超えてタスク性能と言語のドリフトの観点でどう比較されるか?
- RQ3集団ベースの S2P は、単一エージェントの S2P より性能をさらに向上させることができるか、特により複雑な自然言語タスクにおいて?
- RQ4S2P の下で学習を導く際の自己対戦の役割は、正則化か制約充足か?
- RQ5話者凍結のような戦略は、自己対戦中の言語のドリフトを緩和するのに有益か?
主な発見
- 自己対戦の前に監視付き学習を行うと、自己対戦の後に監視を行うよりも、両方の環境でより良い性能を発揮する。
- 集団ベースアプローチ(Pop-S2P)を追加すると、単一エージェント S2P を上回る性能を示し、特に画像ベースの referential game で顕著である。
- IBR 環境では、sched S2P は監視ベースのベースラインを上回り、Pop-S2P がさらに大きな利得を提供する。
- 自己対戦は正則化の一形態として機能し、自己対戦ラウンド中に目標言語の性能が短期的に低下するが、その後の監視更新によって回復する。
- 自己対戦による emergent language は自然言語から逸脱し得るが、それはより大きな初期監視データと集団ベースの蒸留によって緩和できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。