QUICK REVIEW

[논문 리뷰] Learnable Gated Temporal Shift Module for Deep Video Inpainting

Ya-Liang Chang, Zhe Yu Liu|arXiv (Cornell University)|2019. 07. 02.

Generative Adversarial Networks and Image Synthesis참고 문헌 30인용 수 52

한 줄 요약

Learnable Gated Temporal Shift Module (LGTSM)을 도입하여 2D CNN이 자유형 비디오 인페인팅에서 시간 정보를 무료로 활용하도록 하며, 3D-컨볼루션 기준 대비 매개변수 및 추론 시간이 약 3분의 1 수준으로 최첨단 성능을 달성한다.

ABSTRACT

How to efficiently utilize temporal information to recover videos in a consistent way is the main issue for video inpainting problems. Conventional 2D CNNs have achieved good performance on image inpainting but often lead to temporally inconsistent results where frames will flicker when applied to videos (see https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1); 3D CNNs can capture temporal information but are computationally intensive and hard to train. In this paper, we present a novel component termed Learnable Gated Temporal Shift Module (LGTSM) for video inpainting models that could effectively tackle arbitrary video masks without additional parameters from 3D convolutions. LGTSM is designed to let 2D convolutions make use of neighboring frames more efficiently, which is crucial for video inpainting. Specifically, in each layer, LGTSM learns to shift some channels to its temporal neighbors so that 2D convolutions could be enhanced to handle temporal information. Meanwhile, a gated convolution is applied to the layer to identify the masked areas that are poisoning for conventional convolutions. On the FaceForensics and Free-form Video Inpainting (FVI) dataset, our model achieves state-of-the-art results with simply 33% of parameters and inference time.

연구 동기 및 목표

자유형 비디오 인페인팅에서 시간 정보의 효율적 활용을 위한 동기를 제시한다.
3D 컨볼루션 없이 2D 컨볼루션에 시간 맥락을 보강하는 모듈을 개발한다.
컨볼루션을 오염시키는 마스크된 영역을 식별하는 게이팅을 도입한다.
매개변수가 현저히 적고 추론이 더 빠른 상태에서 최첨단 결과를 달성한다.
시간적 리얼리즘을 향상시키는 손실 프레임워크(TSMGAN)를 제안한다.

제안 방법

잔여 Temporal Shift Module(TSM)을 학습 가능한 시간 이동 커널(LGTSM)로 확장한다.
각 층에서 학습 가능한 커널을 사용해 피처 채널의 하위 집합을 이웃 프레임으로 이동시킨다.
유효한 영역, 인페인팅된 영역, 마스크된 영역을 구분하는 게이팅 맵을 생성하는 게이팅 컨볼루션을 적용한다.
게이팅 이동과 2D 컨볼루션을 결합하여 게이팅 맵으로 변조된 피처를 출력한다.
l1, perceptual, style, 그리고 TSMGAN 적대적 손실의 조합으로 학습한다.
스펙트럴 노말라이제이션이 적용된 U-네트-유사 제너레이터와 TSMGAN 구분기를 사용한다.

실험 결과

연구 질문

RQ1LGTSM이 2D CNN으로 자유형 비디오 인페인팅의 시간 정보를 효과적으로 활용하도록 할 수 있는가?
RQ2학습 가능한 시간 이동이 고정 TSM 및 3D 컨볼루션과 비교해 시간 일관성과 품질을 향상시키는가?
RQ3도전적인 자유형 마스크와 다양한 비디오 콘텐츠에서 LGTSM의 성능은 어떠한가?
RQ4TSMGAN 손실이 시간적 리얼리즘과 전반적 품질에 미치는 영향은 무엇인가?

주요 결과

게이팅이 있는 LGTSM은 FaceForensics 및 Free-form Video Inpainting(FVI) 데이터셋에서 최첨단 또는 경쟁력 있는 결과를 달성한다.
LGTSM은 3D 컨볼루션 기준의 매개변수 및 추론 시간의 약 33% 수준만으로도 유사한 지각적 및 비디오 품질(LPIPS, FID)을 제공한다.
절삭(절단) 연구는 게이팅 컨볼루션과 TSMGAN 손실이 성능에 크게 기여하며, 학습 가능한 이동 커널은 매개변수 비용이 거의 없으면서 추가 이점을 제공한다.
제너레이터를 사전 학습한 후 TSMGAN으로 미세조정하는 것이 학습 속도를 높이고 안정성을 개선한다.
LGTSM은 비정형 마스크 전반에서 시간적으로 일관된 인페인팅 비디오를 생성하는 강력한 정성적 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.