QUICK REVIEW

[論文レビュー] Multiple Interactions Made Easy (MIME): Large Scale Demonstrations Data for Imitation

Pratyusha Sharma, Lekha Mohan|arXiv (Cornell University)|Oct 16, 2018

Robot Manipulation and Learning被引用数 36

ひとこと要約

この論文では、プッシュからスタッキングまで20の多様な操作タスクにわたる8,260組のヒューマンロボットペアを含む大規模なロボットデモデータセットMIMEを紹介する。3人称視点の動画特徴をロボット関節軌道にマッピングするためのLSTMを用いた視覚的模倣フレームワークを提案し、複数の真値軌道を用いた評価により、ベースラインを上回る性能を達成した。マルチモーダル評価により、平均二乗誤差は0.1076まで低下した。

ABSTRACT

In recent years, we have seen an emergence of data-driven approaches in robotics. However, most existing efforts and datasets are either in simulation or focus on a single task in isolation such as grasping, pushing or poking. In order to make progress and capture the space of manipulation, we would need to collect a large-scale dataset of diverse tasks such as pouring, opening bottles, stacking objects etc. But how does one collect such a dataset? In this paper, we present the largest available robotic-demonstration dataset (MIME) that contains 8260 human-robot demonstrations over 20 different robotic tasks (https://sites.google.com/view/mimedataset). These tasks range from the simple task of pushing objects to the difficult task of stacking household objects. Our dataset consists of videos of human demonstrations and kinesthetic trajectories of robot demonstrations. We also propose to use this dataset for the task of mapping 3rd person video features to robot trajectories. Furthermore, we present two different approaches using this dataset and evaluate the predicted robot trajectories against ground-truth trajectories. We hope our dataset inspires research in multiple areas including visual imitation, trajectory prediction, and multi-task robotic learning.

研究の動機と目的

複雑で多様なマルチタスク操作を捉えた大規模かつ多様なロボットデモデータセットの不足を解消すること。
20のタスクにわたる多様で現実世界のヒューマンおよびロボット軌道を提供することで、ロボティクスにおけるデータ駆動型学習を可能にすること。
3人称視点の動画デモをロボット関節軌道にマッピングする視覚的模倣モデルの開発と評価を行うこと。
複数の真値軌道を用いた評価により、軌道のマルチモーダル性に対処し、同一でないが有効な解に対して過剰にペナルティを科さないようすること。
MIMEが複雑で現実世界の操作設定における視覚的模倣モデルの訓練と評価にどのように有用であるかを示すこと。

提案手法

キネスティックデモとそれに伴うヒューマンの動作の3人称視点の動画記録を用いて、8,260組のヒューマンロボットデモペアを収集する。
視覚的デモをVGG特徴で符号化し、それを順次LSTMに供給してロボット関節軌道を予測する。
LSTMの隠れ状態とセル状態を、ロボットの初期設定画像のVGG特徴で初期化する。
予測された関節クラスタ番号と真値との間に交差エントロピー損失を用いてモデルを学習する。
予測された軌道と真値軌道の間の平均二乗誤差（MSE）を用いて性能を評価し、複数の真値軌道における最小MSEを用いることでマルチモーダル性を考慮する。
比較のため、平均軌道とk近傍法（k=11）のベースラインを実装する。

実験結果

リサーチクエスチョン

RQ1大規模かつ多様なヒューマンロボットデモデータセットは、複雑な操作タスクにおける視覚的模倣学習を改善できるか？
RQ21つのタスクに対して複数の有効なロボット軌道が存在する場合、マルチモーダルな軌道予測は評価精度にどのように影響するか？
RQ3MIMEデータセットを用いた視覚的模倣において、トレーニングデータの増加が性能に与える影響はどの程度か？
RQ4提案されたLSTMベースのビデオから軌道へのモデルは、平均軌道やk-NNといった単純なベースラインと比べてどのように差がつくか？
RQ53人称視点のビデオからの視覚特徴は、多様な操作タスクに対してロボット関節角度に効果的にマッピングできるか？

主な発見

MIMEデータセットには、プッシュからスタッキングまで20の多様な操作タスクにわたる8,260組のヒューマンロボットデモペアが含まれる。
提案された視覚的模倣モデル（LSTMとVGG特徴を併用）は、複数の真値軌道を用いた評価において、ホールドアウトテストセットで平均二乗誤差（MSE）0.1076を達成した。
複数の真値軌道における最小MSEを用いることで、MSEが0.1296から0.1076に低下し、マルチモーダル評価の重要性が示された。
行動クラーニングモデルは、平均軌道とk-NNベースラインの両方を上回り、トレーニングデータの増加に伴い性能が着実に向上した。
マルチモーダル性の高いタスク、例えばボックス内への配置は、MSEが0.1403と高く、軌道予測の難易度が高いためである。
k=11のk-NNベースラインは平均軌道よりも優れた性能を示したが、依然として行動クラーニングモデルに劣っており、エンドツーエンド学習の利点が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。