[論文レビュー] Touch and Go: Learning from Human-Collected Vision and Touch
本論文は Touch and Go を紹介し、人間が収集した大規模な実世界の visuo-tactile データセットを用い、自己教師付き触覚表現学習、触覚駆動の画像スタイライズ、そしてこのデータを用いたマルチモーダルな未来の触覚予測を示します。
The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.
研究の動機と目的
- 人間が収集した視覚-触覚データから学習を促進し、多様な実世界環境における豊かな材料特性を捉える。
- 屋内外のシーンを跨ぎ、さまざまな材料を含む大規模で野外でも収集された visuo-tactile データセットを作成する。
- 自己教師付き触覚表現学習、クロスモーダルな画像スタイライズ、将来の触覚予測といった応用を実証する。
提案手法
- GelSight 触覚センサで人体データコレクターが屋内外の環境で物体を探査し、自己の視点動画を記録しながら大規模な visuo-tactile データセット(Touch and Go)を収集する。
- 対応する視覚的および触覚的ペアを照合し、組み合わせ不一致のペアを対比することで、視覚-触覚表現を学習する対照的多視点コード化アプローチを適用する。
- 跨-modal な関連付けを学習し、与えられた触覚信号と同時に出現する質感を反映する画像を生成するために、CUT に基づく触覚駆動型画像スタイライズフレームワークを拡張する。
- 視覚-触覚入力の系列から未来の触覚フレームを予測するために、L1 および知覚損失を用いたマルチモーダルな動画予測アーキテクチャを適用する。
- 分析と下流評価を容易にするために、データに材料カテゴリと押下のフレームのアノテーションを付与する。
実験結果
リサーチクエスチョン
- RQ1自己教師付き学習は、視覚と触覚の対を活用して、ロボットの把持と材料理解に一般化する表現を生み出せるか?
- RQ2触覚情報は材料特性を反映する画像スタイライズをどの程度駆動できるか?
- RQ3視覚情報を取り入れることは、 visuo-tactile シーケンスから将来の触覚信号を予測するモデルの予測性能を改善するか?
主な発見
- データセットには約13.9k の検出触れと ~3,971 の物体インスタンスが含まれ、屋内外のシーンで多様な材料が収集された。
- 自己教師付きで学習した触覚特徴は、ロボット操作タスクでの supervised ImageNet 特徴よりも顕著に優れており、データセット内の材料認識にも優れている。
- 触覚駆動型の画像スタイライズ手法は、粗さや滑らかさといった触覚特性を反映した画像に変更でき、一貫性指標で CycleGAN のベースラインを上回る。
- マルチモーダル(視覚+触覚)モデルは、触覚のみモデルに比べて将来の触覚予測品質を向上させ、予測期間が長くなるほどゲインが大きくなる。
- visuo-tactile データセットを用いた自己教師付き学習は、把持と材料理解の性能を、他の visuo-tactile データセットの特徴や ImageNet の特徴で学習した baselines よりも改善する。
- データセットの実世界での多様な環境は、 visuo-tactile 表現の学習においてロボット中心あるいは合成データセットより有利である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。