QUICK REVIEW

[논문 리뷰] HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation

Ho Man Kwan, Ge Gao|arXiv (Cornell University)|2023. 06. 16.

Advanced Data Compression Techniques인용 수 13

한 줄 요약

HiNeRV는 계층적 인코딩을 사용하는 은닉 신경 표현을 영상 압축에 도입하여 프레임/패치의 통합 표현을 가능하게 하고, INR 기초선들을 상회하는 강력한 비트율-왜곡 성능을 달성하며 기존의/학습 기반 코덱과도 경쟁력 있다.

ABSTRACT

Learning-based video compression is currently a popular research topic, offering the potential to compete with conventional standard video codecs. In this context, Implicit Neural Representations (INRs) have previously been used to represent and compress image and video content, demonstrating relatively high decoding speed compared to other methods. However, existing INR-based methods have failed to deliver rate quality performance comparable with the state of the art in video compression. This is mainly due to the simplicity of the employed network architectures, which limit their representation capability. In this paper, we propose HiNeRV, an INR that combines light weight layers with novel hierarchical positional encodings. We employs depth-wise convolutional, MLP and interpolation layers to build the deep and wide network architecture with high capacity. HiNeRV is also a unified representation encoding videos in both frames and patches at the same time, which offers higher performance and flexibility than existing methods. We further build a video codec based on HiNeRV and a refined pipeline for training, pruning and quantization that can better preserve HiNeRV's performance during lossy model compression. The proposed method has been evaluated on both UVG and MCL-JCV datasets for video compression, demonstrating significant improvement over all existing INRs baselines and competitive performance when compared to learning-based codecs (72.3% overall bit rate saving over HNeRV and 43.4% over DCVC on the UVG dataset, measured in PSNR).

연구 동기 및 목표

프레임 단위 또는 패치 단위 접근을 넘어 INR 기반 영상 압축의 비트율-왜곡 성능 향상을 촉진하는 동기를 부여한다.
매개변수 효율성을 유지하면서 표현 용량을 증가시키기 위해 계층형 인코딩으로 HiNeRV를 개발한다.
손실 코딩에 대한 통합된 프레임/패치 표현과 실용적인 모델 압축 파이프라인을 가능하게 한다.
표준 데이터셋에서 HiNeRV가 기존 코덱(HEVC/x265) 및 학습 기반 코덱과의 경쟁력을 보임을 입증한다.

제안 방법

가벼운 계층과 계층적 위치 인코딩을 사용하는 INR인 HiNeRV를 도입하여 깊고 넓은 네트워크를 구축한다.
계층적 인코딩으로 특징 맵을 점진적으로 정제하는 HiNeRV 블록을 통해 패치를 업샘플링하여 비디오 콘텐츠를 표현한다.
업샘플링 중 로컬 계층형 인코딩을 사용하여 더 작은 격자와 다중 해상도 시간 격계를 통해 고주파 정보를 주입한다.
경계 불량을 피하기 위해 겹친 패치와 패딩으로 훈련하여 프레임 단위와 패치 단위 표현을 통합한다.
손실 압축에서도 품질을 보존하기 위해 적응형 가지치기와 양자화 인지 훈련으로 모델 압축 파이프라인을 개선한다.

HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation

실험 결과

연구 질문

RQ1HiNeRV의 계층형 인코딩이 기존 INR 기반 영상 코덱보다 비트율-왜곡 성능을 향상시킬 수 있는가?
RQ2통합된 프레임/패치 표현이 인코딩/디코딩의 유연성 및 성능에 실질적 이점을 제공하는가?
RQ3적응형 가지치기와 양자화 인지 훈련이 낮은 비트레이트에서 HiNeRV의 품질을 얼마나 보존하는가?
RQ4표준 데이터셋(UVG, MCL-JCV)에서 HiNeRV가 기존 코덱(HEVC/x265) 및 학습 기반 코덱과 어떻게 비교되는가?

주요 결과

HiNeRV는 모든 INR 기반선보다 크게 우수합니다(예: UVG에서 PSNR 기준 HNeRV 대비 BD-율 72.3% 향상).
HiNeRV는 기존/학습 기반 코덱과 경쟁력이 있으며 UVG 및 MCL-JCV에서 DCVC 및 x265 Veryslow 대비 PSNR/SSIM에서 상당한 BD-율 감소를 달성한다.
겹친 패치를 가진 통합된 프레임/패치 표현은 경계 인공물을 줄이고 재학습 없이도 유연한 인코딩/디코딩 구성을 가능하게 한다.
적응형 가지치기와 양자화 인지 훈련이 6비트 양자화하에서도 HiNeRV의 비트율-왜곡 성능을 보존하는 데 도움이 된다.
HiNeRV는 UVG 및 MCL-JCV 데이터셋에서 유사한 매개변수 수로도 우수한 재구성 품질을 보여주며, 디코딩 속도는 GPU(A100)에서 측정되었고 인코딩/디코딩 성능이 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.