QUICK REVIEW

[논문 리뷰] Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation

Huaizu Jiang, Deqing Sun|arXiv (Cornell University)|2017. 11. 30.

Advanced Vision and Imaging참고 문헌 20인용 수 43

한 줄 요약

이 논문은 중간 프레임을 두 입력 프레임 사이에 생성하는 고품질의 가변 길이 영상 보간을 위한 엔드 투 엔드 컨volution 신경망인 Super SloMo를 제안한다. U-Net 기반의 플로우 계산 및 정밀화 네트워크를 사용하여 움직임 추정과 막힘 추론을 동시에 모델링하고, 부드러운 가시성 맵을 활용함으로써, Middlebury, UCF101 및 고프레임레트 Sintel을 포함한 여러 데이터셋에서 최신 기술 수준의 성능을 달성한다. 또한 시간에 독립적인 파rameter를 갖추고 있어, 재학습 없이도 임의의 수의 중간 프레임을 동시에 생성할 수 있다.

ABSTRACT

Given two consecutive frames, video interpolation aims at generating intermediate frame(s) to form both spatially and temporally coherent video sequences. While most existing methods focus on single-frame interpolation, we propose an end-to-end convolutional neural network for variable-length multi-frame video interpolation, where the motion interpretation and occlusion reasoning are jointly modeled. We start by computing bi-directional optical flow between the input images using a U-Net architecture. These flows are then linearly combined at each time step to approximate the intermediate bi-directional optical flows. These approximate flows, however, only work well in locally smooth regions and produce artifacts around motion boundaries. To address this shortcoming, we employ another U-Net to refine the approximated flow and also predict soft visibility maps. Finally, the two input images are warped and linearly fused to form each intermediate frame. By applying the visibility maps to the warped images before fusion, we exclude the contribution of occluded pixels to the interpolated intermediate frame to avoid artifacts. Since none of our learned network parameters are time-dependent, our approach is able to produce as many intermediate frames as needed. We use 1,132 video clips with 240-fps, containing 300K individual video frames, to train our network. Experimental results on several datasets, predicting different numbers of interpolated frames, demonstrate that our approach performs consistently better than existing methods.

연구 동기 및 목표

두 입력 프레임 사이에 고품질의 다수 중간 영상 프레임을 생성하여 임의의 프레임 레이트 상향 조정을 가능하게 하는 방법을 개발하는 것.
움직임 경계 부근에서의 잡음 등을 줄이기 위해 움직임 추정과 막힘 추론을 하나의 엔드 투 엔드 학습 가능한 네트워크에서 동시에 모델링하는 것.
재귀적 단일 프레임 보간의 한계를 극복하기 위해 시간에 독립적인 아키텍처를 설계하여, 임의의 수의 중간 프레임을 동시에 생성할 수 있도록 하는 것.
고프레임레트 영상 데이터로 모델을 훈련시켜 다양한 영상 보간 작업에서의 일반화 능력과 성능 향상을 도모하는 것.

제안 방법

U-Net 기반의 플로우 계산 네트워크가 두 입력 프레임 간의 이방향 광학 플로우를 추정한다.
이방향 플로우는 원하는 각 시간 단계에 대한 중간 플로우를 근사하기 위해 선형 조합된다.
두 번째 U-Net이 근사된 플로우를 정밀화하고 막힘을 처리하기 위해 부드러운 가시성 맵을 예측한다.
입력 프레임은 정밀화된 플로우 필드를 사용해 왜곡되고, 가시성 맵이 적용된 후 선형 융합을 통해 막힌 픽셀을 제외한다.
전체 네트워크는 총 30만 프레임에 이르는 1,132개의 고프레임레트(240 fps) 영상 클립에서 엔드 투 엔드로 훈련된다.
모델의 시간 불변 파rameter 덕분에, 재학습 없이도 임의의 수의 중간 프레임을 동시에 생성할 수 있다.

실험 결과

연구 질문

RQ1단일 엔드 투 엔드 딥 러닝 모델이 두 입력 영상 프레임 사이에 다수의 중간 프레임을 효과적으로 생성하면서도 높은 공간적 및 시간적 일관성을 유지할 수 있는가?
RQ2움직임 경계와 막힘은 어떻게 효과적으로 모델링할 수 있으며, 영상 보간에서 잡음 요소를 줄일 수 있는가?
RQ3시간에 독립적인 네트워크 아키텍처는 재귀적 계산의 병목 현상을 극복하고 임의의 수의 중간 프레임을 동시에 생성할 수 있는가?
RQ4플로우 추정과 가시성 예측을 동시에 최적화하는 것이 별도 또는 순차적 접근 방식보다 더 나은 보간 품질을 이끌 수 있는가?

주요 결과

Middlebury 데이터셋에서 Super SloMo는 모든 베이스라인 방법을 능가하며, 8개 시퀀스 중 6개에서 최고의 PSNR 및 SSIM 성능를 기록했고, 이는 합성 영상인 Urban 및 스테레오 Teddy 시퀀스를 포함한다.
UCF101에서 Super SloMo는 모든 메트릭에서 비신경망 기반 및 CNN 기반 방법을 뛰어넘어, 복잡한 운동 영역에서도 뛰어난 성능을 보였다.
slowflow 데이터셋에서 Super SloMo는 최고의 PSNR 및 SSIM 점수를 기록했으며, FlowNet2는 SSIM 및 L1 오차에서 우월했지만, 전체 품질 측면에선 Super SloMo가 뛰어났다.
고프레임레트 MPI Sintel 데이터셋에서 Super SloMo는 모든 다른 방법을 압도적으로 뛰어넘었으며, 각 보간 시간 단계에서 기준 방법 대비 항상 높은 PSNR 점수를 기록했다.
비지도 광학 플로우 학습에 대해, Super SloMo는 KITTI 2012 벤치마크에서 평균 종단 오차(EPE) 13.0을 기록했으며, 이는 이전 최고 성능인 DVF 방법 대비 11%의 상대적 향상이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.