Skip to main content
QUICK REVIEW

[논문 리뷰] EVC: Towards Real-Time Neural Image Compression with Mask Decay

Guohua Wang, Jiahao Li|arXiv (Cornell University)|2023. 02. 10.
Advanced Vision and Imaging인용 수 24
한 줄 요약

EVC는 해상도에 걸쳐 실시간으로(최대 30 FPS) 작동하는 단일하고 확장 가능한 신경 영상 압축 모델을 제시하며, 대형 교사 모델을 더 작고 효율적인 학생 모델로 변환하기 위한 mask decay 학습과 가변 RD 트레이드오프를 위한 확장 가능한 인코더를 갖춘다.

ABSTRACT

Neural image compression has surpassed state-of-the-art traditional codecs (H.266/VVC) for rate-distortion (RD) performance, but suffers from large complexity and separate models for different rate-distortion trade-offs. In this paper, we propose an Efficient single-model Variable-bit-rate Codec (EVC), which is able to run at 30 FPS with 768x512 input images and still outperforms VVC for the RD performance. By further reducing both encoder and decoder complexities, our small model even achieves 30 FPS with 1920x1080 input images. To bridge the performance gap between our different capacities models, we meticulously design the mask decay, which transforms the large model's parameters into the small model automatically. And a novel sparsity regularization loss is proposed to mitigate shortcomings of $L_p$ regularization. Our algorithm significantly narrows the performance gap by 50% and 30% for our medium and small models, respectively. At last, we advocate the scalable encoder for neural image compression. The encoding complexity is dynamic to meet different latency requirements. We propose decaying the large encoder multiple times to reduce the residual representation progressively. Both mask decay and residual representation learning greatly improve the RD performance of our scalable encoder. Our code is at https://github.com/microsoft/DCVC.

연구 동기 및 목표

  • 실시간 신경 영상 압축에 대한 저지연 및 RD 트레이드오프 전반에서의 단일 모델 레이트-컨트롤의 동기를 마련한다.
  • 빠른 추론을 위한 GPU 친화적 블록으로 효율적인 인코더/디코더 프레임워크를 개발한다.
  • 조정 가능한 양자화 스텝(글로벌 및 채널별)을 통해 하나의 모델 내에서 다양한 RD 트레이드오프를 달성한다.
  • 큰 교사에서 더 작은 학생 모델로 지식을 전달하기 위해 mask decay를 도입한다.

제안 방법

  • Efficient Variable-bit-rate Codec (EVC)을 Depth-Conv 블록과 공간적 사전지식(spatial priors)을 사용해 GPU 효율성을 높이며 제안한다.
  • 하나의 모델에서 여러 RD 트레이드오프를 달성하기 위해 전역 및 채널별 조정 가능한 양자화 스텝을 도입한다.
  • 사전 학습된 교사를 더 작은 학생으로 바꾸기 위해 마스크 층을 삽입하고 마스크 decay를 구동하는 새로운 희소성 손실을 최적화한다.
  • 네트워크 pring의 한계(L1/L2) 극복을 위한 그래디언트 설계를 갖춘 희소성 규제 손실을 도입한다.
  • 큰 인코더에서 작은 인코더로 점진적으로 다리질하는 잔차 표현 학습(RRL)과 함께 확장 가능한 인코더 접근법을 제시한다.
  • 먼저 mask decay를 통해 교사를 학생으로 변환한 뒤 학생을 미세조정하는 두 단계 학습 프로세스로 훈련한다.

실험 결과

연구 질문

  • RQ1단일 신경 영상 압축 모델이 여러 RD 트레이드오프에서 실시간 RD 성능을 달성할 수 있는가?
  • RQ2mask decay가 신경 영상 압축에서 큰 교사 모델에서 더 작고 빠른 학생 모델로의 효과적인 전이를 가능하게 하는가?
  • RQ3잔차 표현을 가진 확장 가능한 인코더가 대형 인코더와 소형 인코더 간의 성능 차이를 줄이면서 단일 디코더를 유지할 수 있는가?
  • RQ4학습 중 pruning을 개선하는 희소성 규제는 표준 L1/L2 손실과 비교해 어떤 이점을 제공하는가?

주요 결과

  • 대형 모델은 VTM보다 우수하거나 SOTA 신경 코덱과 동등한 성능을 보이며, 이 접근법은 서로 다른 RD 트레이드오프에 대해 하나의 모델을 가능하게 한다.
  • 대형 모델은 768×512 입력에 대해 30 FPS를, 소형 모델은 1920×1080 입력에 대해 30 FPS를 달성한다.
  • 마스크 decay와 새로운 희소성 손실은 중간(Medium) 및 소형(小型) 모델의 성능을 각각 약 50%와 30% 개선한다(베이스라인 대비).
  • Scalable-EVC with residual representation learning은 SlimCAE를 능가하고 다른 SOTA 모델과 비슷한 수준이면서 인코더의 확장성을 제공한다.
  • 인코더는 디코더보다 중복성이 많으며, 인코더를 제거/압축하는 것이 디코더를 제거하는 것보다 RD 성능 손실이 작다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.