Skip to main content
QUICK REVIEW

[논문 리뷰] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Zachary Teed, Jia Deng|arXiv (Cornell University)|2020. 03. 26.
Advanced Vision and Imaging참고 문헌 53인용 수 135
한 줄 요약

RAFT를 introducing? 단일 해상도, 반복 업데이트 네트워크를 사용하여 모든 쌍 특징 상관관계와 순환 업데이트 유닛을 통해 KITTI와 Sintel에서 최첨단 광류를 달성하며 강력한 일반화와 효율성을 보인다.

ABSTRACT

We introduce Recurrent All-Pairs Field Transforms (RAFT), a new deep network architecture for optical flow. RAFT extracts per-pixel features, builds multi-scale 4D correlation volumes for all pairs of pixels, and iteratively updates a flow field through a recurrent unit that performs lookups on the correlation volumes. RAFT achieves state-of-the-art performance. On KITTI, RAFT achieves an F1-all error of 5.10%, a 16% error reduction from the best published result (6.10%). On Sintel (final pass), RAFT obtains an end-point-error of 2.855 pixels, a 30% error reduction from the best published result (4.098 pixels). In addition, RAFT has strong cross-dataset generalization as well as high efficiency in inference time, training speed, and parameter count. Code is available at https://github.com/princeton-vl/RAFT.

연구 동기 및 목표

  • 정확도가 높은 광류 모델의 동기를 부여하고 거친-에서 미세-로의 아키텍처의 한계를 극복한다.
  • 학습된 업데이트를 통해 흐름을 정제하는 단일 해상도, 순환 업데이트 메커니즘을 개발한다.
  • 강력한 매칭을 위한 학습 가능한 픽셀별 특징과 모든 쌍 상관관계 전체 볼륨을 활용한다.
  • 추론 및 학습에서 데이터셋 간의 강력한 일반화와 효율성을 Demonstrate 한다.

제안 방법

  • 공유 인코더와 컨텍스트 네트워크를 사용해 두 프레임에서 픽셀별 특징을 추출한다.
  • 픽셀 특징의 내적을 통해 모든 픽셀 쌍에 대한 4차원 전체 상관관계 볼륨을 구성하고 다중 규모 상관관계 피라미드를 형성하도록 풀링한다.
  • 상관관계 피라미드와 이전 흐름을 읽고 합성곱 GRU 기반 업데이트 연산자를 사용해 고해상도 흐름 필드를 반복적으로 업데이트한다.
  • Neighbor 픽셀들에 대한 학습된 볼록 결합을 사용해 1/8 해상도 흐름을 전체 해상도로 업샘플링한다.
  • 지수적으로 증가하는 가중치를 가진 중간 흐름 추정 시퀀스에 대해 감독 손실로 학습한다.

실험 결과

연구 질문

  • RQ1모든 쌍 상관관계에 대한 가중치가 묶인 반복 업데이트를 통해 하나의 고해상도 흐름 필드를 효과적으로 정제할 수 있는가?
  • RQ2다중 규모 상관관계 볼륨에 대해 GRU 기반 업데이트 연산자를 학습하는 것이 다단계 거친-에서-가까운 파이프라인보다 정확성을 향상시키는가?
  • RQ3단일 해상도 RAFT 모델이 데이터셋 전반(Sintel, KITTI)에서 얼마나 잘 일반화되고 고해상도 비디오로 확장될 수 있는가?
  • RQ4컨텍스트, 상관관계 풀링, 조회 반경, 업샘플링 등의 설계 선택이 정확도와 효율성에 미치는 영향은 무엇인가?

주요 결과

  • KITTI에서 F1-all = 5.10%로 최첨단 달성, 이전 최고(6.10%) 대비 16% 개선.
  • Sintel 최종 패스에서 엔드-포인트 에러(EPE) = 2.855 픽셀로, 이전 최고(4.098 px) 대비 30% 감소.
  • 강력한 데이터셋 간 일반화 보여줌; 합성 데이터에서 학습한 후 KITTI EPE = 5.04( Chairs/Things 사전 학습 이후, 이전 깊은 네트보다 40% 우수).
  • 높은 효율성 유지: 1080Ti에서 10 FPS로 1088x436 비디오 처리 가능하며, 인접 픽셀에 대한 학습된 가중치 조합으로 1/5 파라미터 변형을 사용해 20 FPS로도 구동되며 Sintel에서 이전 방법보다 여전히 우수.
  • 단일 고해상도 흐름 필드를 많은 반복(100+ 가능) 동안 가중치 묶음 업데이트로 유지 및 업데이트하여 다른 반복 개선에서 관찰된 발산을 피함.
  • 다중 스케일 상관관계 풀링, 상관 조회 및 학습된 업샘플링에서 이점 확인; 왜곡 기반 개선은 KITTI에서 상관 기반 매칭보다 성능이 떨어짐.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.