QUICK REVIEW

[논문 리뷰] Weakly Supervised Learning of Rigid 3D Scene Flow

Leonidas Guibas, Tolga Birdal|arXiv (Cornell University)|2021. 01. 01.

Advanced Vision and Imaging참고 문헌 88인용 수 4

한 줄 요약

이 논문은 밀도 높은 플로우 레이블 대신 이진 전경/배경 마스크와 자동차 내부 운동 감지기(ego-motion) 애너테이션만을 사용하여 3D 시 scene flow 추정을 위한 약한 감독 기반 딥 러닝 방법을 제안한다. 객체 수준에서 강성 조건을 적용하고 테스트 시 최적화를 도입함으로써, 다양한 자율주행 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 기존 방법 대비 KITTI에서 종점 오차를 30cm 이상 감소시켰다.

ABSTRACT

We propose a data-driven scene flow estimation algorithm exploiting the observation that many 3D scenes can be explained by a collection of agents moving as rigid bodies. At the core of our method lies a deep architecture able to reason at the extbf{object-level} by considering 3D scene flow in conjunction with other 3D tasks. This object level abstraction, enables us to relax the requirement for dense scene flow supervision with simpler binary background segmentation mask and ego-motion annotations. Our mild supervision requirements make our method well suited for recently released massive data collections for autonomous driving, which do not contain dense scene flow annotations. As output, our model provides low-level cues like pointwise flow and higher-level cues such as holistic scene understanding at the level of rigid objects. We further propose a test-time optimization refining the predicted rigid scene flow. We showcase the effectiveness and generalization capacity of our method on four different autonomous driving datasets. We release our source code and pre-trained models under \url{github.com/zgojcic/Rigid3DSceneFlow}.

연구 동기 및 목표

비용이 많이 드는 밀도 높은 플로우 애너테이션에 의존도를 줄이며 최소한의 감독으로 정확한 3D 시 scene flow 추정 문제를 해결하기 위해.
운동을 물체의 강성 변환으로 모델링하여 동적인 3D 시 scene 이해의 일반화 및 강인성을 향상시키기 위해.
밀도 높은 시 scene flow 애너테이션이 없는 대규모 실세계 데이터셋에서 효과적인 학습 및 추론을 가능하게 하기 위해.
저수준의 플로우와 고수준의 시 scene 이해를 모두 지원하는 해석 가능한 물체 수준의 시 scene 표현을 제공하기 위해.

제안 방법

방법은 시ene를 전경(강성 운동 물체)과 배경(정적)으로 분해하며, 배경 플로우는 자동차 내부 운동 감지기로 모델링하고, 전경 플로우는 각 물체별로 강성 변환으로 처리한다.
딥 네트워크는 각 분할된 강성 이동체에 대해 변환 매개변수(회전 및 이동)를 예측하며, 이를 통해 각 점별로 강성 시 scene 플로우를 계산한다.
네트워크는 이진 인스턴스 마스크와 자동차 내부 운동 감지기 데이터만을 사용하여 약한 감독으로 학습되며, 이는 일반적으로 자동차 내부 센서나 단순 분할 알고리즘에서 얻을 수 있다.
테스트 시 최적화는 물체 수준의 변환과 점 수준의 플로우 정렬을 동시에 최적화하여 예측된 강성 시 scene 플로우를 보정한다.
안정적인 자동차 내부 운동 감지기 추정을 위해 엔트로피 정규화된 Sinkhorn 알고리즘을 사용하여 소프트 대응 매트릭스를 계산하며, 이상치를 감소시키기 위해 여유 행과 열을 도입한다.
아키텍처는 탄력적이며, 세분화 및 인스턴스 수준의 강성 손실을 포함한 여러 3D 작업에 적용 가능하다.

실험 결과

연구 질문

RQ1밀도 높은 플로우 감독 대신 이진 전경/배경 마스크와 자동차 내부 운동 감지기 애너테이션만으로 3D 시 scene flow 추정을 효과적으로 학습할 수 있는가?
RQ2점 수준의 플로우 예측과 비교해 물체의 강성 변환으로 운동을 모델링할 경우 플로우 정확도와 일반화 능력이 어떻게 향상되는가?
RQ3테스트 시 최적화가 예측된 시 scene 플로우를 얼마나 정교하게 다듬고 연속된 LiDAR 프레임 간의 정렬을 향상시키는가?
RQ4인스턴스 애너테이션이 노이즈가 있거나 존재하지 않을 경우, 새로운 데이터셋에 대해 미세조정 없이 얼마나 잘 일반화되는가?

주요 결과

기존 최신 기술 대비 KITTI 데이터셋에서 종점 오차를 30cm 이상 감소시켜 뚜렷한 성능 향상을 입증하였다.
학습 또는 추론 시 진정한 인스턴스 마스크가 없더라도, 진정한 마스크를 사용하는 모델과 비교해 유사한 성능을 달성하여, 무 supervision 클러스터링 전략의 효과성을 입증하였다.
절단 실험을 통해 Sinkhorn 알고리즘이 자동차 내부 운동 감지기 추정을 크게 향상시켜, 원시 유사도 매트릭스를 사용한 경우 대비 RTE와 RRE를 40% 이상 감소시켰다.
Waymo Open 데이터셋에서의 미세조정은 특히 센서 근처의 물체나 고밀도 물체가 있는 시나리오에서 강인성을 향상시켰으며, 직접 일반화보다 성능이 뛰어났다.
추가적인 미세조정 없이도 Waymo Open 데이터셋에 효과적으로 일반화되어 강력한 제로샷 전이 능력을 보였다.
실패 사례는 주로 lidarKITTI의 노이즈가 있는 진짜 애너테이션(예: 잘못 레이블링된 물체 경계)이나 Waymo에서 드물게 등장하는 물체 때문이며, 모델 자체의 한계 때문이 아니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.