QUICK REVIEW

[논문 리뷰] Video Frame Interpolation via Adaptive Separable Convolution

Simon Niklaus, Long Mai|arXiv (Cornell University)|2017. 08. 05.

Advanced Vision and Imaging참고 문헌 39인용 수 72

한 줄 요약

신경망이 픽셀당 밀집한 1D 커널 쌍을 추정해 분리 가능한 공간 적응 컨볼루션으로 비디오 프레임 보간을 수행, 전체 프레임 합성을 가능하게 하며 메모리를 낮추고 더 나은 시각 품질을 위한 지각 손실 사용 옵션을 제공.

ABSTRACT

Standard video frame interpolation methods first estimate optical flow between input frames and then synthesize an intermediate frame guided by motion. Recent approaches merge these two steps into a single convolution process by convolving input frames with spatially adaptive kernels that account for motion and re-sampling simultaneously. These methods require large kernels to handle large motion, which limits the number of pixels whose kernels can be estimated at once due to the large memory demand. To address this problem, this paper formulates frame interpolation as local separable convolution over input frames using pairs of 1D kernels. Compared to regular 2D kernels, the 1D kernels require significantly fewer parameters to be estimated. Our method develops a deep fully convolutional neural network that takes two input frames and estimates pairs of 1D kernels for all pixels simultaneously. Since our method is able to estimate kernels and synthesizes the whole video frame at once, it allows for the incorporation of perceptual loss to train the neural network to produce visually pleasing frames. This deep neural network is trained end-to-end using widely available video data without any human annotation. Both qualitative and quantitative experiments show that our method provides a practical solution to high-quality video frame interpolation.

연구 동기 및 목표

명시적 광학 흐름 추정 없이 엔드투엔드 방식의 고품질 프레임 보간을 동기로 삼는다.
큰 모션에 대해 공간적으로 적응하는 커널의 메모리 및 계산 요구를 줄인다.
모든 픽셀에 대해 분리 가능한 1D 커널을 동시에 예측하는 완전 합성곱 네트워크를 제안한다.
보간된 프레임의 시각 품질을 높이기 위해 지각 손실의 적용을 가능하게 한다.

제안 방법

출력 픽셀 각각에 대해 2D 적응 커널을 근사하기 위해 전체 2D 적응 커널을 분리 가능한 1D 커널로 대체한다.
모든 합성곱 인코더–디코더 네트워크를 사용해 픽셀당 네 가지 1D 커널 세트를 예측한다(두 프레임, 두 방향).
예측된 1D 커널을 입력 프레임 위의 로컬 합성곱으로 적용하여 한 번의 패스로 중간 프레임을 합성한다.
샤프함과 디테일 향상을 위해 L1 손실 또는 지각 손실(VGG 기반 특징 재구성)로 학습한다.
경계는 재복제 패딩(replication padding)으로 처리하고 디코더에서 bilinear 업샘플링을 선택해 체커보드 인공 현상을 완화한다.
모션 처리와 수용 영역의 균형을 맞추기 위해 커널 크기(51)와 풀링 층(다섯)을 실험한다.

실험 결과

연구 질문

RQ1메모리 요구를 줄이면서 분리 가능한 1D 커널이 프레임 보간을 위한 전체 2D 공간적 적응 커널을 근사할 수 있는가?
RQ2지각 손실로의 엔드투엔드 학습이 순수 픽셀 단위 손실보다 보간된 프레임의 지각 품질을 더 높게 만들어 주는가?
RQ3제안된 분리 가능 합성 접근법이 품질과 속도 면에서 최첨단 광학 흐름 기반 및 AdaConv 방법과 어떻게 비교되는가?
RQ4큰 모션을 잘 처리하고 1080p에서 전체 프레임 합성을 유지하기 위한 최적의 커널 크기 및 네트워크 아키텍처 선택은 무엇인가?
RQ5가려짐(오클루전), 모션 불연속성, 밝기 변화와 같은 도전적 시나리오에서도 방법의 강건성은 어떠한가?

주요 결과

분리 가능한 1D 커널 접근은 커널당 메모리를 n^2에서 2n으로 감소시켜 한 번의 패스로 전체 프레임 1080p 보간을 가능하게 한다.
L1 손실은 숫자적 성능이 강하고 Middlebury에서 특히 불연속 모션 영역에서 최첨단 결과를 낸다.
지각 손실(L_F)을 포함하면 시각적 선명도와 고주파 디테일이 향상되며, 질적 및 사용자 연구 결과에서 보여 준다.
이 방법은 1080p 보간에 대해 AdaConv보다 훨씬 빠르며(20배 이상) 시각적으로 더 만족스러운 결과를 자주 산출한다.
디코더에서 bilinear 업샘플링을 사용하면 일부 업샘플링 방법과 관련된 체커보드 인공 현상을 완화하는 데 도움이 된다.
정량적 결과는 MAE 및 SSIM에서 최첨단 방법과 경쟁력을 보이며, held-out 평가에서 L1 모델이 전반적으로 최고 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.