QUICK REVIEW

[논문 리뷰] Seeing Glass: Joint Point Cloud and Depth Completion for Transparent Objects

Haoping Xu, Yi Ru Wang|arXiv (Cornell University)|2021. 09. 30.

Advanced Vision and Imaging인용 수 25

한 줄 요약

TranspareNet은 투명 물체에 대해 점군과 깊이를 공동으로 보정하여 혼잡한 장면에서 완전한 깊이 맵을 생성하고, 깊이 왜곡을 활용해 TODD 데이터셋과 자동 주석을 도입합니다.

ABSTRACT

The basis of many object manipulation algorithms is RGB-D input. Yet, commodity RGB-D sensors can only provide distorted depth maps for a wide range of transparent objects due light refraction and absorption. To tackle the perception challenges posed by transparent objects, we propose TranspareNet, a joint point cloud and depth completion method, with the ability to complete the depth of transparent objects in cluttered and complex scenes, even with partially filled fluid contents within the vessels. To address the shortcomings of existing transparent object data collection schemes in literature, we also propose an automated dataset creation workflow that consists of robot-controlled image collection and vision-based automatic annotation. Through this automated workflow, we created Toronto Transparent Objects Depth Dataset (TODD), which consists of nearly 15000 RGB-D images. Our experimental evaluation demonstrates that TranspareNet outperforms existing state-of-the-art depth completion methods on multiple datasets, including ClearGrasp, and that it also handles cluttered scenes when trained on TODD. Code and dataset will be released at https://www.pair.toronto.edu/TranspareNet/

연구 동기 및 목표

로봇 공학에서 RGB-D 깊이가 신뢰할 수 없는 상황에서 투명 물체에 대한 견고한 인식을 위한 동기를 제공합니다.
투명 용기의 완전한 깊이 복원을 재현하기 위한 점군과 깊이 보정의 공동 파이프라인을 제안합니다.
RGB-D 데이터용으로 자동 라벨링을 갖춘 대규모의 실제 투명 물체 깊이 데이터셋 TODD를 만듭니다.
투명 물체 주변의 깊이 왜곡을 활용하면 후처리 깊이 보정과 물체 조작의 강건성이 향상된다는 것을 보여줍니다.

제안 방법

각 투명 물체의 깊이를 점군으로 투영합니다.
Gridding 레이어 + 3D CNN 인코더-디코더 + Gridding 역을 포함한 점군 보정 네트워크를 적용하여 보정된 점군을 예측합니다.
보정된 점군을 다시 깊이 도메인으로 투영하고 Depth Completion 모듈과 융합합니다.
객체 마스크에 조건화된 SPADE 정규화를 갖는 인코더-디코더 Depth Completion 네트워크를 사용하여 깊이를 정제합니다.
RGB와 희소한 깊이 분포를 융합하여 밀도 깊이 맵을 생성하고 Gridding Loss와 log-L1 깊이 손실로 학습합니다.
로봇 제어 이미지 수집 및 AprilTags 기반 포즈 정렬을 이용한 자동 데이터셋 생성 및 주석 파이프라인을 제공합니다.

실험 결과

연구 질문

RQ1투명 물체 위치의 깊이 정보를 버리기보다 활용하여 깊이 보정이 가능할까?
RQ2공동 점군 및 Depth 보정 방식이 복잡한 장면에서 투명 물체의 정확도를 기존 최첨단 방법과 비교해 향상시키는가?
RQ3TODD가 복잡한 현장 환경에서 투명 물체 지각을 학습하고 평가하기에 확장 가능하고 현실적인 실세계 데이터셋인가?
RQ4알려진 물체와 새로운 물체 및 다중 물체 혼잡 환경에서 TranspareNet의 성능은 어떠한가?
RQ5깊이 보정에서 PCC와 DC 구성 요소의 기여도 및 이들의 공동 통합이 미치는 영향은?

주요 결과

TranspareNet이 최첨단 깊이 보정 방법을 투명 물체 벤치마크에서 능가합니다(예: ClearGrasp).
공동 PCC + DC 파이프라인은 DC만 사용하는 것보다 깊이 보정 성능을 개선하고 특히 복잡한 장면에서 이점을 보입니다.
TODD는 다섯 가지 배경에서 다양한 배경의 6개의 유리 용기에 대해 실제 RGB-D 이미지 약 14.7k, 정답 깊이, 인스턴스 분할 및 6DoF 포즈를 제공합니다.
자동 TODD 데이터 수집/주석 파이프라인은 최소한의 인간 개입으로 확장 가능한 라벨링을 가능하게 합니다.
TODD에서 TranspareNet은 알려진 물체와 신규 물체 모두에서 다중 물체 수(1–3) 및 혼잡 수준에서 강력한 성능을 보입니다.
이 방법은 투명으로 인한 깊이 왜곡을 활용하여 거친 깊이 추정치를 생성하고 이를 정제에 도움을 준다는 것을 검증합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.