[论文解读] On the interaction between supervision and self-play in emergent communication
该论文研究如何将监督学习与自我博弈(S2P)结合以实现新兴通信,结果表明先进行监督学习再进行自我博弈在性能上优于仅进行新兴学习或微调,并引入基于种群的 S2P 来提高性能。
A promising approach for teaching artificial agents to use natural language involves using human-in-the-loop training. However, recent work suggests that current machine learning methods are too data inefficient to be trained in this way from scratch. In this paper, we investigate the relationship between two categories of learning signals with the ultimate goal of improving sample efficiency: imitating human language data via supervised learning, and maximizing reward in a simulated multi-agent environment via self-play (as done in emergent communication), and introduce the term supervised self-play (S2P) for algorithms using both of these signals. We find that first training agents via supervised learning on human data followed by self-play outperforms the converse, suggesting that it is not beneficial to emerge languages from scratch. We then empirically investigate various S2P schedules that begin with supervised learning in two environments: a Lewis signaling game with symbolic inputs, and an image-based referential game with natural language descriptions. Lastly, we introduce population based approaches to S2P, which further improves the performance over single-agent methods.
研究动机与目标
- 研究在新兴通信中将监督语言数据与自我博弈相结合的样本数据效率。
- 确定先进行监督学习再进行自我博弈是否能够提升任务性能以及语言与自然语言(L*)的一致性。
- 比较多种 S2P 调度并评估基于种群的方法在鲁棒性与性能提升方面的效果。
提出的方法
- 将监督自我博弈(S2P 定义为对语言 L* 的专家数据集 D 进行自我博弈更新与监督更新的组合。
- 评估多种 S2P 调度:sp2sup、sup2sp、随机更新、计划更新(sched)以及带说话者冻结的计划更新(sched_frz)。
- 研究两种新兴通信环境:带符号输入的 Lewis 信号博弈(Object Reconstruction)以及带自然语言描述的基于图像的指称博弈(IBR)。
- 在 IBR 博弈中使用带直通的 Gumbel-Softmax 的反向传播来处理离散的说话者信息。
- 通过训练一群代理并蒸馏成单一代理来引入基于种群的 S2P(Pop-S2P),并以集成作为一个上限基线。
实验结果
研究问题
- RQ1相比仅进行新兴学习,先进行监督学习再进行自我博弈是否能改善样本效率和与自然语言(L*)的一致性?
- RQ2不同的 S2P 调度在任务性能和跨环境的语言漂移方面表现如何?
- RQ3基于种群的 S2P 是否能在更复杂的自然语言任务中相对于单代理 S2P 进一步提升性能?
- RQ4自我博弈在 S2P 下的作用是什么——作为正则化还是约束满足?
- RQ5像说话者冻结这样的策略在自我博弈过程中是否有助于缓解语言漂移?
主要发现
- 在两个环境中,先进行监督学习再进行自我博弈的性能优于先进行自我博弈再进行监督。
- 加入基于种群的方法(Pop-S2P)在单代理 S2P 的基础上提升了性能,特别是在基于图像的指称博弈中。
- 在 IBR 环境中,sched S2P 优于监督基线,且 Pop-S2P 进一步带来显著的提升。
- 自我博弈起到一种正则化的作用,在自我博弈轮次中目标语言性能出现短期下降,但随后由监督更新恢复。
- 自我博弈产生的新兴语言可能偏离自然语言,这可以通过更大规模的初始监督数据和基于种群的蒸馏来减缓。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。