QUICK REVIEW

[论文解读] Refactoring Policy for Compositional Generalizability using Self-Supervised Object Proposals

Tongzhou Mu, Jiayuan Gu|arXiv (Cornell University)|Jan 1, 2020

Domain Adaptation and Few-Shot Learning被引用 2

一句话总结

该论文提出了一种两阶段框架，通过使用自监督对象提议的以对象为中心的图神经网络（GNN），将高奖励的教师策略重构为可泛化的学生策略。通过利用自监督目标检测提取有意义的视觉对象作为输入，学生策略在四个具有挑战性的任务中实现了出色的组合泛化能力，优于现有基线方法。

ABSTRACT

We study how to learn a policy with compositional generalizability. We propose a two-stage framework, which refactorizes a high-reward teacher policy into a generalizable student policy with strong inductive bias. Particularly, we implement an object-centric GNN-based student policy, whose input objects are learned from images through self-supervised learning. Empirically, we evaluate our approach on four difficult tasks that require compositional generalizability, and achieve superior performance compared to baselines.

研究动机与目标

为了解决在未见过的任务组合上学习具有组合泛化能力的策略的挑战。
通过利用结构化、以对象为中心的表示，提升复杂决策任务中的泛化能力。
通过使用自监督对象提议作为输入特征，减少对任务特定监督的依赖。
设计一种具有强归纳偏置的学生策略，在保持性能的同时实现零样本泛化。
在需要在分布偏移下进行组合推理的任务上评估该框架。

提出的方法

该框架采用两阶段训练流程：首先，在密集演示数据上训练教师策略。
其次，将教师的行为蒸馏到一个基于自监督对象提议提取的以对象为中心输入的学生策略中。
通过对比学习从图像中提取自监督对象提议，提供无需边界框标注的对象级特征。
学生策略实现为图神经网络（GNN），通过处理对象特征及其关系来做出决策。
基于GNN的学生策略在模仿教师行为的同时，施加了用于组合推理的归纳偏置。
该框架利用以对象为中心的表示，提升了对未见过的任务组合的零样本泛化能力。

实验结果

研究问题

RQ1通过教师策略蒸馏训练的学生策略是否在组合泛化能力上优于标准模仿学习？
RQ2将自监督对象提议作为输入在零样本设置下如何提升泛化能力？
RQ3与端到端策略相比，以对象为中心的GNN架构在多大程度上增强了泛化能力？
RQ4基于GNN的学生策略的归纳偏置是否导致在未见过的任务组合上性能提升？
RQ5该框架在需要组合推理的多样化、复杂任务上的表现如何？

主要发现

所提出的框架在四个需要组合泛化能力的具有挑战性的任务上，性能优于强基线方法。
使用自监督对象提议使学生策略能够在无额外监督的情况下，有效泛化到未见过的任务组合。
基于GNN的学生策略表现出强大的归纳偏置，从而提升了零样本泛化能力。
两阶段蒸馏过程成功地将教师的高奖励行为转移到学生策略中，同时增强了泛化能力。
即使在缺乏显式目标检测监督的情况下，该框架也优于基线方法。
实证结果证实，以对象为中心的表示显著提升了复杂、组合性环境中的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。