QUICK REVIEW

[논문 리뷰] Rate-Perception Optimized Preprocessing for Video Coding

Chengqian Ma, Zhiqiang Wu|arXiv (Cornell University)|2023. 01. 25.

Video Coding and Compression Technologies인용 수 9

한 줄 요약

본 논문은 경량 네트워크와 적응형 DCT 손실로 프레임을 전처리하는 rate-perception optimized preprocessing (RPP)를 제안하여 비트레이트를 줄이면서 지각 품질을 보존하고, 인코더/ 디코더 설정을 변경하지 않고 AVC, HEVC, VVC, AV1 전반에서 상당한 BD-rate 절감 효과를 달성한다.

ABSTRACT

In the past decades, lots of progress have been done in the video compression field including traditional video codec and learning-based video codec. However, few studies focus on using preprocessing techniques to improve the rate-distortion performance. In this paper, we propose a rate-perception optimized preprocessing (RPP) method. We first introduce an adaptive Discrete Cosine Transform loss function which can save the bitrate and keep essential high frequency components as well. Furthermore, we also combine several state-of-the-art techniques from low-level vision fields into our approach, such as the high-order degradation model, efficient lightweight network design, and Image Quality Assessment model. By jointly using these powerful techniques, our RPP approach can achieve on average, 16.27% bitrate saving with different video encoders like AVC, HEVC, and VVC under multiple quality metrics. In the deployment stage, our RPP method is very simple and efficient which is not required any changes in the setting of video encoding, streaming, and decoding. Each input frame only needs to make a single pass through RPP before sending into video encoders. In addition, in our subjective visual quality test, 87% of users think videos with RPP are better or equal to videos by only using the codec to compress, while these videos with RPP save about 12% bitrate on average. Our RPP framework has been integrated into the production environment of our video transcoding services which serve millions of users every day.

연구 동기 및 목표

전통적 및 학습 기반 비디오 코덱 모두에서 레이트-왜율 성능 향상을 위한 전처리의 필요성을 제시한다.
높은 주파수 세부 정보를 보존하면서 공간적 중복성을 줄이기 위한 적응형 DCT 손실을 도입한다.
효율적인 전처리를 위한 주의(attention)가 포함된 경량 CNN을 설계하고 지각 품질을 위한 전체 참조 IQA를 통합한다.
코덱 변경 없이 표준 코덱(AVC, HEVC, VVC, AV1)에서의 플러그-앤-플레이 배치를 입증한다.
다양한 데이터셋과 코덱에서 BD-rate 및 주관적 품질 개선을 정량화한다.

제안 방법

DCT 계수의 크기와 계수로부터 유도된 임계값에 따라 고주파 구성 요소를 선택적으로 유지하도록 적응형 DCT 손실을 개발한다.
채널 주의(attention)과 효율적 업/다운샘플링을 갖춘 경량 완전 컨볼루션 네트워크로서의 rate-perception optimized preprocessor(RPP)를 도입한다.
학습 중 실제 환경의 왜곡 아티팩트를 시뮬레이션하기 위해 고차원적 저하를 모델링한다.
적응형 DCT 손실, MS-SSIM 지각 손실, L1 재구성 손실을 결합한 합동 손실로 가중치를 조정하며 학습한다.
단일 패스 프리프로세서로 배포되며, 프리프로세스된 프레임 f_p는 인코더/디코더 설정 변경 없이 표준 코덱으로 인코딩된다.

Figure 2 : Example framework of training RPP. (a) is the histogram of frequency coefficient of the predicted frame. (b) is the histogram of frequency coefficient filtered by the adaptive DCT function

실험 결과

연구 질문

RQ1전통 코덱과의 변경 없이 프리처리 단계가 비트레이트를 개선할 수 있는가?
RQ2적응형 DCT 기반 손실이 지각적으로 중요한 고주파 콘텐츠를 더 잘 보존하면서 비트레이트 절감을 가능하게 하는가?
RQ3MS-SSIM 및 저하 모델링과의 결합 최적화가 다수의 코덱에서 RD 성능에 어떤 영향을 주는가?
RQ4RPP의 일반적인 하드웨어에서의 실제 추론 효율성은 어떠한가?
RQ5H.264/HEVC/VVC/AV1에 대해 매우 빠름/중간 설정에서 데이터셋과 프리셋 간의 접근이 강건한가?

주요 결과

데이터셋	코덱	지표	BD-Rate
UVG	RPP+H.264(veryfast)	VMAF	-26.92
UVG	RPP+H.264(veryfast)	MS-SSIM	-4.86
UVG	RPP+H.265(veryfast)	VMAF	-39.77
UVG	RPP+H.265(veryfast)	MS-SSIM	-8.70
UVG	RPP+H.264(medium)	VMAF	-27.30
UVG	RPP+H.264(medium)	MS-SSIM	-5.60
UVG	RPP+H.265(medium)	VMAF	-39.24
UVG	RPP+H.265(medium)	MS-SSIM	-9.58
MCL-JCV	RPP+H.264	VMAF	-11.84
MCL-JCV	RPP+H.264	MS-SSIM	-11.75
MCL-JCV	RPP+H.265	VMAF	-14.94
MCL-JCV	RPP+H.265	MS-SSIM	-19.90
HEVC ClassB	RPP+H.264	VMAF	-11.84
HEVC ClassB	RPP+H.264	MS-SSIM	-11.75
HEVC ClassB	RPP+H.265	VMAF	-14.94
HEVC ClassB	RPP+H.265	MS-SSIM	-19.90

RPP는 다수의 메트릭에서 AVC, HEVC 및 VVC에 걸쳐 평균 BD-rate 절감을 약 16.27% 달성한다.
적응형 DCT 손실은 상당한 비트레이트 절감을 기여하며 절감의 전체 BD-rate 개선 중 60% 이상을 차지한다(연구에서의 차감 연구).
RPP+H.265는 데이터셋과 프리셋에 상관없이 H.264보다 더 큰 BD-rate 감소를 지속적으로 제공한다.
주관적 테스트에서 시청자의 87%가 RPP를 보강한 비디오가 코덱만 사용한 비디오보다 낫거나 동등하다고 평가하며 평균적으로 약 12%의 비트레이트 절감을 달성한다.
RPP는 RTX 3090에서 TensorRT 기준 1080p에 대해 약 87.7 FPS와 같은 실시간 유사 추론 속도를 지원하여 실용적 배치를 가능하게 한다.
RPP는 플러그-앤-플레이로, 프레임당 단일 순전파만 필요하며 인코더/디코더 구성 변경이 필요 없다.

Figure 3 : (a) Rate distortion curves for UVG dataset, MCL_JCV dataset, and HEVC Class B dataset on MS-SSIM and VMAF. Curves are plotted for the standard codec and RPP + standard codec. The corrrsponding BD rates for our proposed method are reported in Tables 1, 2 and 3, repsectively, for each datas

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.