[论文解读] Data-Efficient Reinforcement Learning with Self-Predictive Representations
SPR 在一个强大的 RL 代理上增添自监督的潜在空间未来预测和数据增强,以提高样本效率,在 Atari 100k 上达到最先进的结果,并在若干游戏中超过人类分数。
L'efficacité des données reste un défi majeur dans l'apprentissage par renforcement profond. Bien que les techniques modernes soient capables d'atteindre des performances élevées dans des tâches extrêmement complexes, y compris les jeux de stratégie comme le StarCraft, les échecs, le shogi et le go, ainsi que dans des domaines visuels exigeants comme les jeux Atari, cela nécessite généralement d'énormes quantités de données interactives, limitant ainsi l'application pratique de l'apprentissage par renforcement. Dans ce mémoire, nous proposons la SPR, une méthode inspirée des récentes avancées en apprentissage auto-supervisé de représentations, conçue pour améliorer l'efficacité des données des agents d'apprentissage par renforcement profond. Nous évaluons cette méthode sur l'environement d'apprentissage Atari, et nous montrons qu'elle améliore considérablement les performances des agents avec un surcroît de calcul modéré. Lorsqu'on lui accorde à peu près le même temps d'apprentissage qu'aux testeurs humains, un agent d'apprentissage par renforcement augmenté de SPR atteint des performances surhumaines dans 7 des 26 jeux, une augmentation de 350% par rapport à l'état de l'art précédent, tout en améliorant fortement les performances moyennes et médianes. Nous évaluons également cette méthode sur un ensemble de tâches de contrôle continu, montrant des améliorations substantielles par rapport aux méthodes précédentes. Le chapitre 1 présente les concepts nécessaires à la compréhension du travail présenté, y compris des aperçus de l'apprentissage par renforcement profond et de l'apprentissage auto-supervisé de représentations. Le chapitre 2 contient une description détaillée de nos contributions à l'exploitation de l'apprentissage de représentation auto-supervisé pour améliorer l'efficacité des données dans l'apprentissage par renforcement. Le chapitre 3 présente quelques conclusions tirées de ces travaux, y compris des propositions pour les travaux futurs.
研究动机与目标
- 在环境交互受限时,激励数据高效的 RL。
- 基于视觉输入结构和时间动态性,利用自监督目标。
- 学习对未来潜在状态具有预测性的表征。
- 在观测的增强视图之间强制表征的一致性。
- 将 SPR 与强大的 RL 代理结合,以提升像素基础任务的表现。
提出的方法
- 使用一个在线编码器 f_o 从观测 s_t 产生表征 z_t。
- 维护一个目标编码器 f_m,其参数为在线编码器的指数滑动平均(EMA)。
- 引入一个转换模型 h,从过去的潜在状态和动作预测未来的潜在表征。
- 应用投影头 g_o、g_m 和一个预测器 q 将表征映射到一个用于余弦相似性 SPR 损失的空间。
- 将 SPR 损失计算为预测的和目标投影在未来 K 步上的负余弦相似性。
- 将 SPR 损失与 Rainbow RL 损失结合:L_total = L_RL + lambda * L_SPR。
实验结果
研究问题
- RQ1自预测表征是否在 Atari 100k 设定中提升数据效率?
- RQ2数据增强如何影响 SPR 表征质量和 RL 性能?
- RQ3不同未来预测深度 K 对 SPR 性能的影响如何?
- RQ4目标编码器(EMA)在防止表征崩溃和实现良好性能方面有多重要?
主要发现
| 随机 | 人类 | SimPLe | DER | OTRainbow | CURL | DrQ | SPR(无增强) | SPR |
|---|---|---|---|---|---|---|---|---|
| 0.000 | 1.000 | 0.443 | 0.285 | 0.264 | 0.381 | 0.357 | 0.463 | 0.704 |
| 0.000 | 1.000 | 0.144 | 0.161 | 0.204 | 0.175 | 0.268 | 0.307 | 0.415 |
| 0.000 | 23.382 | 0.232 | 0.239 | 0.197 | 0.325 | 0.171 | 0.336 | 0.510 |
| 0.000 | 0.994 | 0.118 | 0.142 | 0.103 | 0.142 | 0.131 | 0.225 | 0.361 |
| 0 | N/A | 2 | 2 | 1 | 2 | 2 | 5 | 7 |
- 在数据增强的条件下,SPR 在 Atari 100k 上实现中位数人类归一化分数 0.415,创造了新的最先进结果。
- 不使用增强时,SPR 也优于现有方法,表明预测潜在目标的价值。
- SPR 在 26 个游戏中有 7 个超过专家人类分数,体现了稳健的数据高效性能。
- 单独的目标编码器(EMA,tau)对获得最佳性能至关重要;在此设置下 tau = 0 且带增强时表现最佳。
- 预测深度提升至 K = 5 时在所有游戏上提升性能,随着 K 增大收益趋于递减。
- 投影和预测头至关重要;移除它们相比使用投影潜在表示时会降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。