QUICK REVIEW

[論文レビュー] Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations with Robotic Play

Irmak Guzey, Ben Evans|arXiv (Cornell University)|Mar 21, 2023

Robot Manipulation and Learning被引用数 8

ひとこと要約

T-Dexは自己教師付き学習を用いて大規模なロボット遊びデータから触覚表現を事前学習し、触覚-視覚、ノンパラメトリック模倣を巧緻なタスクに適用します。視覚ベースおよびトルクベースのベースラインを5つのタスクで上回ります。

ABSTRACT

Teaching dexterity to multi-fingered robots has been a longstanding challenge in robotics. Most prominent work in this area focuses on learning controllers or policies that either operate on visual observations or state estimates derived from vision. However, such methods perform poorly on fine-grained manipulation tasks that require reasoning about contact forces or about objects occluded by the hand itself. In this work, we present T-Dex, a new approach for tactile-based dexterity, that operates in two phases. In the first phase, we collect 2.5 hours of play data, which is used to train self-supervised tactile encoders. This is necessary to bring high-dimensional tactile readings to a lower-dimensional embedding. In the second phase, given a handful of demonstrations for a dexterous task, we learn non-parametric policies that combine the tactile observations with visual ones. Across five challenging dexterous tasks, we show that our tactile-based dexterity models outperform purely vision and torque-based models by an average of 1.7X. Finally, we provide a detailed analysis on factors critical to T-Dex including the importance of play data, architectures, and representation learning.

研究の動機と目的

触覚センサを用いた巧緻な操作を視覚のみのアプローチより動機づける。
2段階のフレームワークを開発する：遊びデータから触覚エンコーダを事前学習し、最小デモンストレーションでタスク固有の模倣を行う。
触覚表現と視覚を組み合わせると、視覚のみまたはトルクベースの手法より困難なタスクで性能が向上することを示す。
遊びデータ、アーキテクチャ選択、表現学習のパフォーマンスへの影響を分析する。

提案手法

自己教師付き触覚エンコーダを訓練するために2.5時間の遊びデータを収集する。
触覚データを画像のような入力として扱い、表現学習にBYOLを適用する。
視覚特徴も取り入れた最近傍模倣ポリシーを用いた事前学習済みの触覚エンコーダを使用する。
推論時に追加の訓練なしで触覚と視覚特徴を結合する。
5つの巧緻タスクを、それぞれ6つのタスクデモンストレーションで評価する。
BC、NN-Torque、NN-Image、NN-Tactile、NN-Taskを含むベースラインと比較して結果を報告する。

実験結果

リサーチクエスチョン

RQ1触覚情報は視覚のみまたはトルクのみの方法より巧緻な操作性能を向上させるか。
RQ2遊びデータは触覚表現とダウンストリームタスクの成功にどれだけ重要か。
RQ3触覚処理のアーキテクチャと表現選択は性能にどのように影響するか。
RQ4遊びデータでの事前学習はノンパラメトリック模倣による少数ショット学習を有効にするか。

主な発見

Method	Joystick	Cup	Bowl	Book	Bottle	Average
BC	0%	0%	0%	0%	0%	0%
NN-Image	40%	0%	20%	50%	0%	22%
NN-Tactile	60%	0%	20%	0%	60%	28%
NN-Task	80%	40%	30%	60%	30%	48%
NN-Torque	70%	20%	40%	30%	30%	38%
T-Dex	80%	80%	70%	90%	60%	76%

T-Dexは5つのタスクで視覚のみおよびトルクのみの模倣モデルに比べ平均成功率を1.7倍向上させた。
遊びデータは触覚ベースの模倣に大きな利得をもたらし、遊びデータを使用して訓練した触覚モデルでは平均して58%の改善を達成した。
遊びデータ上でBYOLによって学習した触覚表現を最近傍模倣と併用すると、画像のみまたは事前学習なしの触覚データに依存するベースラインを上回る。
触覚エンコーダのアーキテクチャとデータレイアウトの選択（例：パッド構造を保持、パッドごとの共有エンコーダを避ける）は性能に顕著に影響する。
遊びデータでの事前学習は未知の物体配置への一般化を促進し、巧緻な操作の触覚-視覚結合を堅牢にサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。