QUICK REVIEW

[논문 리뷰] Deep Learned Frame Prediction for Video Compression

Serkan Sulun|arXiv (Cornell University)|2018. 01. 01.

Advanced Image Processing Techniques참고 문헌 26인용 수 3

한 줄 요약

이 논문은 비디오 압축을 위한 딥 네ural 네트워크(DNN) 기반 프레임 예측 방법을 제안하며, 평균 제곱 오차(MSE)와 적대적 손실을 통해 예측 정확도와 시각적 현실감을 향상시킨다. 결과적으로 MSE 학습이 비디오 압축의 비율-왜곡 성능에서 적대적 학습을 능가하는 것으로 나타났으며, 반면 적대적 학습은 독립적인 예측 시 더 선명하고 현실적인 프레임을 생성한다.

ABSTRACT

Motion compensation is one of the most essential methods for any video compression algorithm. Video frame prediction is a task analogous to motion compensation. In recent years, the task of frame prediction is undertaken by deep neural networks (DNNs). In this thesis we create a DNN to perform learned frame prediction and additionally implement a codec that contains our DNN. We train our network using two methods for two different goals. Firstly we train our network based on mean square error (MSE) only, aiming to obtain highest PSNR values at frame prediction and video compression. Secondly we use adversarial training to produce visually more realistic frame predictions. For frame prediction, we compare our method with the baseline methods of frame difference and 16x16 block motion compensation. For video compression we further include x264 video codec in the comparison. We show that in frame prediction, adversarial training produces frames that look sharper and more realistic, compared MSE based training, but in video compression it consistently performs worse. This proves that even though adversarial training is useful for generating video frames that are more pleasing to the human eye, they should not be employed for video compression. Moreover, our network trained with MSE produces accurate frame predictions, and in quantitative results, for both tasks, it produces comparable results in all videos and outperforms other methods on average. More specifically, learned frame prediction outperforms other methods in terms of rate-distortion performance in case of high motion video, while the rate-distortion performance of our method is competitive with that of x264 in low motion video.

연구 동기 및 목표

기존의 운동 보정 기법보다 향상된 딥 러닝 기반의 비디오 압축을 위한 프레임 예측 모델을 개발한다.
평균 제곱 오차(MSE)와 적대적 학습이 프레임 예측 품질과 비디오 압축 효율성에 미치는 영향을 평가한다.
학습된 프레임 예측 네트워크를 완전한 비디오 코덱에 통합하고, x264 및 기준 방법과의 성능을 비교한다.
시각적으로 열등한 적대적 예측이 실제 비디오 압축에 유익한지 확인한다.
고속도 및 저속도 비디오 시퀀스에서의 비율-왜곡 성능을 분석한다.

제안 방법

이전 프레임에서 미래 프레임을 예측하기 위해 스킵 연결을 갖춘 U-Net 유사 생성자 네트워크를 설계한다.
패치GAN 판별자를 구현하여 실제 프레임과 생성된 프레임을 구별함으로써 적대적 학습을 가능하게 한다.
정량적 정확도를 위해 MSE 손실을, 지각적 현실감을 위해 적대적 손실을 사용하여 생성자를 학습시킨다.
학습된 프레임 예측 네트워크를 예측 잔차를 인코딩하는 비디오 압축 코덱에 통합한다.
공정한 비교를 위해 x264를 계층적 및 순차적 인코딩 구조를 갖춘 기준 코덱으로 사용한다.
PSNR 및 Bjontegaard delta PSNR를 포함한 표준 비율-왜곡 평가 지표를 적용한다.

실험 결과

연구 질문

RQ1적대적 학습은 MSE 전용 학습 대비 예측 비디오 프레임의 지각적 품질을 향상시키는가?
RQ2제안된 학습된 프레임 예측 방법은 PSNR와 시각적 품질 측면에서 기존의 프레임 차이 및 블록 기반 운동 보정과 비교해 어떻게 성능을 내는가?
RQ3고속도 및 저속도 비디오 시퀀스에서 제안된 코덱의 비율-왜곡 성능은 x264와 비교해 어떠한가?
RQ4적대적 학습으로 확보한 시각적 현실감이 압축 효율성 향상으로 이어지는가?
RQ5딥 프레임 예측은 최신 기술 기반 비디오 코덱과 비교해 경쟁력 있거나 우수한 비율-왜곡 성능을 달성할 수 있는가?

주요 결과

적대적 학습은 MSE 전용 학습 대비 유의미하게 선명하고 더 현실적인 시각적 프레임 예측을 생성한다.
시각적 품질이 뛰어나지만, 적대적 학습은 MSE 학습 대비 비디오 압축에서 일관되게 열악한 비율-왜곡 성능을 보인다.
MSE로 학습된 모델은 모든 테스트 시퀀스 평균에서 기준 방법을 능가하는 경쟁력 있는 비율-왜곡 성능을 달성한다.
고속도 영상에서는 제안된 학습된 프레임 예측 방법이 다른 학습 및 기존 방법보다 뛰어난 비율-왜곡 성능을 보인다.
저속도 영상에서는 제안된 방법이 x264와 비슷한 비율-왜곡 성능을 달성하여 기존 코덱과의 경쟁력 있는 성능을 입증한다.
본 연구는 적대적 학습으로 확보된 지각적 품질 향상이 압축 효율성 향상으로 이어지지 않음을 확인하였으며, 이는 비디오 압축에 적합하지 않음을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.