QUICK REVIEW

[논문 리뷰] Touch and Go: Learning from Human-Collected Vision and Touch

Fengyu Yang, Chenyang Ma|arXiv (Cornell University)|2022. 11. 22.

Tactile and Sensory Interactions인용 수 20

한 줄 요약

본 논문은 인간이 수집한 대규모 실제 세계의 시각-촉각 데이터셋 Touch and Go를 소개하고, 이 데이터를 이용한 자기지도 촉각 표현 학습, 촉각 주도 이미지 스타일링, 그리고 다중모달 미래 촉각 예측을 시연한다.

ABSTRACT

The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.

연구 동기 및 목표

다양한 실제 환경에서 풍부한 물성 정보를 포착하기 위해 인간이 수집한 시각-촉각 데이터로부터 학습을 촉진한다.
실내외의 다양한 재질을 아우르는 대규모의 현장 시각-촉각 데이터셋을 구축한다.
자기지도 촉각 표현 학습, 교차모달 이미지 스타일링, 그리고 미래 촉촉 예측에 이르는 응용을 시연한다.

제안 방법

인간 데이터 수집자가 GelSight 촉각 센서를 사용해 실내외 환경에서 물체를 탐지하도록 하며 자가시점 비디오를 기록하는 방식으로 대규모 시각-촉각 데이터셋(Touch and Go)을 수집한다.
일치하는 시각-촉각 쌍을 매칭하고 일치하지 않는 쌍을 대조하여 시각-촉각 표현을 학습하는 대조 다중뷰 코딩 기법을 적용한다.
주어진 촉각 신호와 함께 텍스처가 공진하는 이미지를 생성하기 위해 (CUT를 기반으로) 촉각 주도 이미지 스타일링 프레임워크를 확장하여 교차모달 연관성을 학습한다.
시각-촉각 입력 시퀀스에서 미래의 촉각 프레임을 예측하기 위해 다중모달 비디오 예측 아키텍처를 적응시키고 L1 및 지각 손실을 사용한다.
분석 및 하류 평가를 용이하게 하기 위해 물질 카테고리와 프레스 내 프레임으로 데이터를 주석화한다.

실험 결과

연구 질문

RQ1자기지도 학습이 쌍으로 제공된 시각 및 촉각 데이터를 활용해 로봇 그립 및 물질 이해로 일반화되는 표현을 생성할 수 있는가?
RQ2촉각 정보를 통해 촉각으로 관찰된 재질 특성을 반영하는 이미지 스타일링을 어느 정도까지 촉진할 수 있는가?
RQ3시각 정보를 포함하면 시각-촉각 시퀀스로부터 미래의 촉각 신호를 예측하는 모델링이 향상되는가?

주요 결과

데이터셋은 다양한 재료를 갖춘 실내외 공간에서 수집된 약 13.9k개의 탐지된 접촉 및 약 3,971개의 물체 인스턴스를 포함한다.
자기지도 학습을 통해 학습된 촉각 특징은 로봇 조작 작업과 데이터셋 내 물질 인식에서 감독 학습된 ImageNet 특징보다 현저히 우수하다.
촉각 주도 이미지 스타일링 접근법은 이미지의 거칠기나 매끄러움과 같은 촉각 속성을 반영하도록 이미지를 변경할 수 있으며 일관성 지표에서 CycleGAN 기반 대비 우수하다.
다중모달(시각+촉각) 모델은 촉각만 모델보다 미래 촉각 예측 품질을 향상시키며 예측 기간이 길어질수록 이득이 커진다.
시각-촉각 데이터를 이용한 자기지도 학습은 다른 시각-촉각 데이터셋으로 학습된 특징 및 ImageNet 특징을 포함한 여러 베이스라인보다 그립 및 물질 이해 성능이 더 좋다.
데이터셋의 실제 세계의 다양한 환경은 로봇 중심 또는 합성 데이터셋에 비해 시각-촉각 표현 학습에 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.