[논문 리뷰] Practical Deep Stereo (PDS): Toward applications-friendly deep stereo matching
PDS는 메모리 효율적인 병목 매칭 모듈과 서브-픽셀 MAP/크로스 엔트로피 손실을 도입하여 전체 크기 이미지에서의 학습과 유연한 시차 범위를 가능하게 하며, 더 작은 메모리 사용으로 최첨단 성능을 달성한다.
End-to-end deep-learning networks recently demonstrated extremely good perfor- mance for stereo matching. However, existing networks are difficult to use for practical applications since (1) they are memory-hungry and unable to process even modest-size images, (2) they have to be trained for a given disparity range. The Practical Deep Stereo (PDS) network that we propose addresses both issues: First, its architecture relies on novel bottleneck modules that drastically reduce the memory footprint in inference, and additional design choices allow to handle greater image size during training. This results in a model that leverages large image context to resolve matching ambiguities. Second, a novel sub-pixel cross- entropy loss combined with a MAP estimator make this network less sensitive to ambiguous matches, and applicable to any disparity range without re-training. We compare PDS to state-of-the-art methods published over the recent months, and demonstrate its superior performance on FlyingThings3D and KITTI sets.
연구 동기 및 목표
- 엔드-투-엔드 심층 스테레오 네트워크의 메모리 풋프린트를 감소시켜 더 큰 이미지 맥락과 실용적 배치를 가능하게 한다.
- 재훈련 없이 테스트 시 시차 범위의 유연성을 허용한다.
- 새로운 손실 및 추론 전략을 통해 서브-픽셀 정밀도와 수렴 속도를 향상시킨다.
제안 방법
- 좌우 결합 디스크립터를 압축하여 컴팩트한 매칭 시그니처로 만드는 병목 매칭 모듈을 도입한다.
- compact signatures를 처리하여 비용 볼륨을 생성하는 hourglass 형태의 정규화 네트워크를 사용한다.
- 다중 모드 후포를 처리하고 즉석에서 시차 범위를 변경할 수 있도록 sub-pixel MAP 추정기를 사용한다.
- 수렴 가속과 정확도 향상을 위해 이산화된 라플라스 타깃을 갖는 서브-픽셀 크로스 엔트로피 손실을 제안한다.
- 대형 컨텍스트 정보를 활용하기 위해 전체 해상도 이미지로 학습한다.
- 메모리를 줄이고 전체 이미지 학습을 지원하기 위해 Instance Normalization으로 정규화한다.
실험 결과
연구 질문
- RQ1정확도를 희생하지 않으면서 심층 스테레오 네트워크의 메모리 풋프린트를 줄일 수 있는가?
- RQ2전체 해상도 이미지로 학습하는 것이 맥락 기반 매칭 성능을 향상시키는가?
- RQ3재훈련 없이 테스트 시 시차 범위를 변경하면서도 정확도를 유지할 수 있는가?
- RQ4서브-픽셀 MAP 추론과 서브-픽셀 크로스 엔트로피 손실이 다중 모드 후포에 대한 견고성과 수렴 속도를 향상시키는가?
주요 결과
| 방법 | 매개변수 | 메모리 | 3EP | MAE | 수정 |
|---|---|---|---|---|---|
| PDS (proposed) | 2.2 | 0.4 | 3.38 | 1.12 | ✓ |
| PSM Chang and Chen (2018) | 5.2 | 0.6 | n/a | 1.09 | ✗ |
| CRL Pang et al. (2017) | 78 | 0.2 | 6.20 | 1.32 | ✗ |
| iResNet-i2 Liang et al. (2018) | 43 | 0.2 | 4.57 | 1.40 | ✗ |
| DispNetCorr1D Mayer et al. (2016) | 42 | 0.1 | n/a | 1.68 | ✗ |
| LRCR Jie et al. (2018) | 30 | 9.0 | 8.67 | 2.02 | ✗ |
| GC Kendall et al. (2017) | 3.5 | 4.5 | 9.34 | 2.02 | ✗ |
- PDS는 FlyingThings3D에서 비교 방법들 중 3-pixels 에러(3PE)가 가장 작고 MAE가 두 번째로 작다.
- PDS는 메모리 풋프린트가 가장 작고 파라미터 수가 적으면서도 재훈련 없이 다양한 시차 범위를 가능하게 한다.
- 전체 해상도 이미지로 학습하면 특히 큰 이미지 맥 context를 사용할 때 성능이 개선된다.
- 추론 시 SoftArgmin에서 서브-픽셀 MAP으로 전환하면 다중 모드 에러가 감소하고 시차 범위가 확장되어도 성능이 유지된다.
- 서브-픽셀 크로스 엔트로피는 더 빠른 수렴과 개선된 3PE를 가져오며 MAE의 변화는 미미하다.
- KITTI 벤치마크에서 PDS는 보고된 비교에서 KITTI’15에서 3위, KITTI’12에서 4위를 차지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.