QUICK REVIEW

[論文レビュー] TACO: Learning Task Decomposition via Temporal Alignment for Control

Kyriacos Shiarlis, Markus Wulfmeier|arXiv (Cornell University)|Mar 2, 2018

Reinforcement Learning in Robotics参考文献 19被引用数 29

ひとこと要約

TACOは、タスクスケッチとデモの時間的整合性を同時に最適化し、サブポリシー学習を行うことで、弱教師ありでドメインに依存しないモジュラー制御ポリシーを学習する手法を提案する。完全教師あり手法と同等の性能を達成しつつ、著しく少ないアノテーション作業で実現でき、画像ベースの3Dロボット制御を含むタスクにおいて、分離されたセグメンテーションと模倣手法を上回る性能を示した。

ABSTRACT

Many advanced Learning from Demonstration (LfD) methods consider the decomposition of complex, real-world tasks into simpler sub-tasks. By reusing the corresponding sub-policies within and between tasks, they provide training data for each policy from different high-level tasks and compose them to perform novel ones. Existing approaches to modular LfD focus either on learning a single high-level task or depend on domain knowledge and temporal segmentation. In contrast, we propose a weakly supervised, domain-agnostic approach based on task sketches, which include only the sequence of sub-tasks performed in each demonstration. Our approach simultaneously aligns the sketches with the observed demonstrations and learns the required sub-policies. This improves generalisation in comparison to separate optimisation procedures. We evaluate the approach on multiple domains, including a simulated 3D robot arm control task using purely image-based observations. The results show that our approach performs commensurately with fully supervised approaches, while requiring significantly less annotation effort.

研究の動機と目的

手動でセグメント化されたデモや広範なドメイン知識を必要とせずに、複雑なタスクのための再利用可能でモジュラーなポリシーを学習する課題に対処すること。
学習からデモンストレーション（LfD）におけるアノテーション負荷を軽減するため、時間的に整合された軌道セグメントの代わりに高レベルのタスクスケッチ（サブタスクの系列）のみを用いること。
統一された尤度目的関数を通じてポリシー学習と時間的整合性の最適化を同時に実行することで、一般化性能およびゼロショット模倣能力を向上させること。
完全な状態情報の監視が現実的でない視覚ベースおよび連続的制御ドメインにおいて、効果的なポリシー学習を可能にすること。

提案手法

観測された行動系列とタスクスケッチの同時尤度を最大化する問題に定式化することで、アライメントとポリシー学習のエンドツーエンド最適化を可能にする。
各サブタスクごとに1つのサブポリシーを学習し、自己終了をサポートする拡張された行動空間を採用することで、推論時におけるモジュラーな組み合わせを可能にする。
接続主義的時系列分類（CTC）にインspiredされた微分可能なシーケンスアライメント機構を用い、アライメント分布の勾配ベース最適化を可能にする。
状態ベースと画像ベースの観測の両方に対応し、視覚入力の特徴抽出に畳み込みエンコーダーを用いる。
複数の妥当なアライメントを通じて正則化する統合的目的関数を用いてサブポリシーを学習することで、ロバストネスを向上させ、過学習を低減する。
再トレーニングなしに、推論時に未観測の新しいタスクスケッチに基づいてサブポリシーを組み合わせることでゼロショット模倣を実現する。

実験結果

リサーチクエスチョン

RQ1時間的セグメンテーションやドメイン固有の事前知識なしに、タスクスケッチ（サブタスクの系列）のみを用いて弱教師ありでモジュラー制御ポリシーを学習できるか？
RQ2アライメントとポリシー学習を同時に最適化することで、分離されたセグメンテーションと模倣手順と比較して、一般化性能と性能が向上するか？
RQ3TACOは、未観測のタスクシーケンスにどの程度一般化でき、複雑な視覚ベースの制御タスクでゼロショット模倣を達成できるか？
RQ4タスクの正確性とアライメント品質の観点から、完全教師ありベースラインおよびCTCベースラインと比較して、本手法はどの程度の性能を示すか？
RQ5真の関節角度や状態表現にアクセスできない状態で、画像ベースの観測のみを用いても、本手法は高い性能を維持できるか？

主な発見

TACOは、画像ベースの観測のみを用いる3Dロボットアームを含む、すべての評価ドメインで完全教師あり手法（GT-BC）と同等のタスク正確性を達成した。
3Dロボットアームタスクでは、TACOはGT-BCと同等の性能を示したが、アノテーション作業はごくわずかに抑えられ、高いデータ効率性を示した。
CTCベースラインに比べてTACOは顕著に優れており、CTCベースラインは全タスクシーケンスの完了に失敗し、画像ベースのドア操作ドメインではわずか数パーセンテージのサブタスクしか解けなかった。
画像ベースのドア操作ドメインでは、状態空間情報が欠如しているにもかかわらず、TACOは平均90％以上のサブタスク正確性を達成し、視覚的曇りに対して高いロバストネスを示した。
より大きなデータセットにおいて、TACOはGT-BCよりも未観測シーケンスのアライメント正確性が高く、アライメント分布の最適化により過学習が低減していることが示唆された。
TACOでは、タスク長が延びるに従って正確性の低下が、ベースラインと比較して遅やかに進行したため、より長いシーケンスにおけるスケーラビリティと誤差伝搬への耐性が優れていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。