QUICK REVIEW

[논문 리뷰] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Zachary Teed, Jia Deng|arXiv (Cornell University)|2020. 03. 26.

Advanced Vision and Imaging참고 문헌 53인용 수 135

한 줄 요약

RAFT를 introducing? 단일 해상도, 반복 업데이트 네트워크를 사용하여 모든 쌍 특징 상관관계와 순환 업데이트 유닛을 통해 KITTI와 Sintel에서 최첨단 광류를 달성하며 강력한 일반화와 효율성을 보인다.

ABSTRACT

We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.

연구 동기 및 목표

정확도가 높은 광류 모델의 동기를 부여하고 거친-에서 미세-로의 아키텍처의 한계를 극복한다.
학습된 업데이트를 통해 흐름을 정제하는 단일 해상도, 순환 업데이트 메커니즘을 개발한다.
강력한 매칭을 위한 학습 가능한 픽셀별 특징과 모든 쌍 상관관계 전체 볼륨을 활용한다.
추론 및 학습에서 데이터셋 간의 강력한 일반화와 효율성을 Demonstrate 한다.

제안 방법

공유 인코더와 컨텍스트 네트워크를 사용해 두 프레임에서 픽셀별 특징을 추출한다.
픽셀 특징의 내적을 통해 모든 픽셀 쌍에 대한 4차원 전체 상관관계 볼륨을 구성하고 다중 규모 상관관계 피라미드를 형성하도록 풀링한다.
상관관계 피라미드와 이전 흐름을 읽고 합성곱 GRU 기반 업데이트 연산자를 사용해 고해상도 흐름 필드를 반복적으로 업데이트한다.
Neighbor 픽셀들에 대한 학습된 볼록 결합을 사용해 1/8 해상도 흐름을 전체 해상도로 업샘플링한다.
지수적으로 증가하는 가중치를 가진 중간 흐름 추정 시퀀스에 대해 감독 손실로 학습한다.

실험 결과

연구 질문

RQ1모든 쌍 상관관계에 대한 가중치가 묶인 반복 업데이트를 통해 하나의 고해상도 흐름 필드를 효과적으로 정제할 수 있는가?
RQ2다중 규모 상관관계 볼륨에 대해 GRU 기반 업데이트 연산자를 학습하는 것이 다단계 거친-에서-가까운 파이프라인보다 정확성을 향상시키는가?
RQ3단일 해상도 RAFT 모델이 데이터셋 전반(Sintel, KITTI)에서 얼마나 잘 일반화되고 고해상도 비디오로 확장될 수 있는가?
RQ4컨텍스트, 상관관계 풀링, 조회 반경, 업샘플링 등의 설계 선택이 정확도와 효율성에 미치는 영향은 무엇인가?

주요 결과

KITTI에서 F1-all = 5.10%로 최첨단 달성, 이전 최고(6.10%) 대비 16% 개선.
Sintel 최종 패스에서 엔드-포인트 에러(EPE) = 2.855 픽셀로, 이전 최고(4.098 px) 대비 30% 감소.
강력한 데이터셋 간 일반화 보여줌; 합성 데이터에서 학습한 후 KITTI EPE = 5.04( Chairs/Things 사전 학습 이후, 이전 깊은 네트보다 40% 우수).
높은 효율성 유지: 1080Ti에서 10 FPS로 1088x436 비디오 처리 가능하며, 인접 픽셀에 대한 학습된 가중치 조합으로 1/5 파라미터 변형을 사용해 20 FPS로도 구동되며 Sintel에서 이전 방법보다 여전히 우수.
단일 고해상도 흐름 필드를 많은 반복(100+ 가능) 동안 가중치 묶음 업데이트로 유지 및 업데이트하여 다른 반복 개선에서 관찰된 발산을 피함.
다중 스케일 상관관계 풀링, 상관 조회 및 학습된 업샘플링에서 이점 확인; 왜곡 기반 개선은 KITTI에서 상관 기반 매칭보다 성능이 떨어짐.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.