QUICK REVIEW

[论文解读] TACO: Learning Task Decomposition via Temporal Alignment for Control

Kyriacos Shiarlis, Markus Wulfmeier|arXiv (Cornell University)|Mar 2, 2018

Reinforcement Learning in Robotics参考文献 19被引用 29

一句话总结

TACO 提出了一种弱监督、领域无关的方法，通过联合优化任务草图与示范的时间对齐以及子策略学习，来学习模块化的控制策略。该方法在显著减少标注工作量的前提下，实现了与完全监督方法相当的性能，在基于视觉的3D机器人控制等任务上，优于独立的分割与模仿方法。

ABSTRACT

Many advanced Learning from Demonstration (LfD) methods consider the decomposition of complex, real-world tasks into simpler sub-tasks. By reusing the corresponding sub-policies within and between tasks, they provide training data for each policy from different high-level tasks and compose them to perform novel ones. Existing approaches to modular LfD focus either on learning a single high-level task or depend on domain knowledge and temporal segmentation. In contrast, we propose a weakly supervised, domain-agnostic approach based on task sketches, which include only the sequence of sub-tasks performed in each demonstration. Our approach simultaneously aligns the sketches with the observed demonstrations and learns the required sub-policies. This improves generalisation in comparison to separate optimisation procedures. We evaluate the approach on multiple domains, including a simulated 3D robot arm control task using purely image-based observations. The results show that our approach performs commensurately with fully supervised approaches, while requiring significantly less annotation effort.

研究动机与目标

解决在无需手动分割示范或大量领域知识的前提下，学习可重用、模块化策略以应对复杂任务的挑战。
通过仅使用高层次的任务草图（子任务序列）而非时间对齐的轨迹片段，减少在示范学习（LfD）中的标注负担。
通过统一的似然目标联合优化策略学习与时间对齐，提升泛化能力与零样本模仿能力。
在全状态监督不切实际的基于视觉和连续控制领域中，实现有效的策略学习。

提出的方法

将学习问题表述为最大化观测动作序列与任务草图的联合似然，实现对齐与策略学习的端到端优化。
为每个子任务学习一个子策略，扩展动作空间以支持自终止，实现在推理时的模块化组合。
采用受连接时序分类（CTC）启发的可微分序列对齐机制，支持对对齐分布的基于梯度的优化。
将方法应用于基于状态和基于图像的观测，使用卷积编码器提取视觉输入的特征以支持策略学习。
通过正则化多个合理对齐路径的联合目标训练子策略，提升鲁棒性并减少过拟合。
通过在推理时基于新且未见过的任务草图组合子策略，实现零样本模仿，无需微调。

实验结果

研究问题

RQ1弱监督方法能否仅使用任务草图（子任务序列）而无需时间分割或领域特定先验，学习到模块化控制策略？
RQ2与独立的分割与模仿流程相比，联合优化时间对齐与策略学习是否能提升泛化能力与性能？
RQ3TACO 在复杂、基于视觉的控制任务中，对未见任务序列的泛化能力如何？能否实现零样本模仿？
RQ4在任务准确率与对齐质量方面，与完全监督基线和基于CTC的基线相比，该方法表现如何？
RQ5当仅使用基于图像的观测而无法获取真实关节角或状态表示时，该方法能否保持高性能？

主要发现

TACO 在所有评估领域（包括仅使用图像观测的模拟3D机械臂）均实现了与完全监督方法（GT-BC）相当的任务准确率。
在3D机械臂任务中，TACO 在仅需极小部分标注工作量的情况下，达到了与GT-BC相当的性能，展现出强大的数据效率。
TACO 显著优于基于CTC的基线方法，后者无法完成完整任务序列，且在基于图像的拨号任务中仅解决了极少数子任务。
在基于图像的拨号任务中，尽管缺乏状态空间信息，TACO 仍实现了超过90%的平均子任务准确率，表现出对视觉模糊的强鲁棒性。
在更大数据集上，TACO 在未见序列上的对齐准确率优于GT-BC，表明对齐分布的优化降低了过拟合风险。
与基线相比，TACO 在任务长度增加时，任务准确率下降更缓慢，表明其在长序列中具备更好的可扩展性与对误差传播的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。