[论文解读] TACO: Learning Task Decomposition via Temporal Alignment for Control
TACO 提出了一种弱监督、领域无关的方法,通过联合优化任务草图与示范的时间对齐以及子策略学习,来学习模块化的控制策略。该方法在显著减少标注工作量的前提下,实现了与完全监督方法相当的性能,在基于视觉的3D机器人控制等任务上,优于独立的分割与模仿方法。
Many advanced Learning from Demonstration (LfD) methods consider the decomposition of complex, real-world tasks into simpler sub-tasks. By reusing the corresponding sub-policies within and between tasks, they provide training data for each policy from different high-level tasks and compose them to perform novel ones. Existing approaches to modular LfD focus either on learning a single high-level task or depend on domain knowledge and temporal segmentation. In contrast, we propose a weakly supervised, domain-agnostic approach based on task sketches, which include only the sequence of sub-tasks performed in each demonstration. Our approach simultaneously aligns the sketches with the observed demonstrations and learns the required sub-policies. This improves generalisation in comparison to separate optimisation procedures. We evaluate the approach on multiple domains, including a simulated 3D robot arm control task using purely image-based observations. The results show that our approach performs commensurately with fully supervised approaches, while requiring significantly less annotation effort.
研究动机与目标
- 解决在无需手动分割示范或大量领域知识的前提下,学习可重用、模块化策略以应对复杂任务的挑战。
- 通过仅使用高层次的任务草图(子任务序列)而非时间对齐的轨迹片段,减少在示范学习(LfD)中的标注负担。
- 通过统一的似然目标联合优化策略学习与时间对齐,提升泛化能力与零样本模仿能力。
- 在全状态监督不切实际的基于视觉和连续控制领域中,实现有效的策略学习。
提出的方法
- 将学习问题表述为最大化观测动作序列与任务草图的联合似然,实现对齐与策略学习的端到端优化。
- 为每个子任务学习一个子策略,扩展动作空间以支持自终止,实现在推理时的模块化组合。
- 采用受连接时序分类(CTC)启发的可微分序列对齐机制,支持对对齐分布的基于梯度的优化。
- 将方法应用于基于状态和基于图像的观测,使用卷积编码器提取视觉输入的特征以支持策略学习。
- 通过正则化多个合理对齐路径的联合目标训练子策略,提升鲁棒性并减少过拟合。
- 通过在推理时基于新且未见过的任务草图组合子策略,实现零样本模仿,无需微调。
实验结果
研究问题
- RQ1弱监督方法能否仅使用任务草图(子任务序列)而无需时间分割或领域特定先验,学习到模块化控制策略?
- RQ2与独立的分割与模仿流程相比,联合优化时间对齐与策略学习是否能提升泛化能力与性能?
- RQ3TACO 在复杂、基于视觉的控制任务中,对未见任务序列的泛化能力如何?能否实现零样本模仿?
- RQ4在任务准确率与对齐质量方面,与完全监督基线和基于CTC的基线相比,该方法表现如何?
- RQ5当仅使用基于图像的观测而无法获取真实关节角或状态表示时,该方法能否保持高性能?
主要发现
- TACO 在所有评估领域(包括仅使用图像观测的模拟3D机械臂)均实现了与完全监督方法(GT-BC)相当的任务准确率。
- 在3D机械臂任务中,TACO 在仅需极小部分标注工作量的情况下,达到了与GT-BC相当的性能,展现出强大的数据效率。
- TACO 显著优于基于CTC的基线方法,后者无法完成完整任务序列,且在基于图像的拨号任务中仅解决了极少数子任务。
- 在基于图像的拨号任务中,尽管缺乏状态空间信息,TACO 仍实现了超过90%的平均子任务准确率,表现出对视觉模糊的强鲁棒性。
- 在更大数据集上,TACO 在未见序列上的对齐准确率优于GT-BC,表明对齐分布的优化降低了过拟合风险。
- 与基线相比,TACO 在任务长度增加时,任务准确率下降更缓慢,表明其在长序列中具备更好的可扩展性与对误差传播的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。