QUICK REVIEW

[논문 리뷰] Recent Advances of End-to-End Video Coding Technologies for AVS Standard Development

Xihua Sheng, Xiongzhuang Liang|arXiv (Cornell University)|2026. 01. 31.

Video Coding and Compression Technologies인용 수 0

한 줄 요약

이 논문은 엄격한 복잡도 제한 하에서 엔드투엔드 지능형 비디오 코딩 프레임워크인 AVS-EEM을 조사하고, 최신 AVS-EEM v9.2가 표준 테스트 조건에서 AVS3 앵커에 비해 BD-율 감소를 달성한다는 것을 보고한다.

ABSTRACT

Video coding standards are essential to enable the interoperability and widespread adoption of efficient video compression technologies. In pursuit of greater video compression efficiency, the AVS video coding working group launched the standardization exploration of end-to-end intelligent video coding, establishing the AVS End-to-End Intelligent Video Coding Exploration Model (AVS-EEM) project. A core design principle of AVS-EEM is its focus on practical deployment, featuring inherently low computational complexity and requiring strict adherence to the common test conditions of conventional video coding. This paper details the development history of AVS-EEM and provides a systematic introduction to its key technical framework, covering model architectures, training strategies, and inference optimizations. These innovations have collectively driven the project's rapid performance evolution, enabling continuous and significant gains under strict complexity constraints. Through over two years of iterative refinement and collaborative effort, the coding performance of AVS-EEM has seen substantial improvement. Experimental results demonstrate that its latest model achieves superior compression efficiency compared to the conventional AVS3 reference software, marking a significant step toward a deployable intelligent video coding standard.

연구 동기 및 목표

AVS 엔드투엔드 지능형 비디오 코딩(AVS-EEM)의 개발 역사를 설명한다.
AVS-EEM 프레임워크, 아키텍처, 훈련 전략 및 추론 최적화를 설명한다.
전통적인 AVS3 앵커에 대한 압축 성능 및 복잡도 분석을 제시한다.
고정된 복잡도 제약에서 성능 향상을 가능하게 하는 주요 기법들을 강조한다.
AVS 표준화 작업 내에서 AVS-EEM의 향후 방향을 논의한다.

제안 방법

학습 가능한 엔드 투 엔드 프레임워크에서 작동하는 모션 분기와 잔차 분기가 있는 AVS-EEM 아키텍처를 제시한다.
계산량 감소를 위한 원 도메인 다운샘플링 모션 추정으로 계산량을 줄이는 방법을 설명한다.
특징 도메인 그룹별 모션 정렬 및 콘텐츠/모션 조건부 모션 압축을 설명한다.
다중 스케일 잔차 코딩을 위한 참조 신뢰 계수와 함께 하는 시간적 맥락 탐색을 상세히 설명한다.
다중 스케일 시간 컨텍스트 보조 특징 도메인 잔차 압축 및 잔차 체커보드 자기회귀 엔트로피 모델링을 도입한다.
진보적, 계층적 품질 기반, 다중 프레임 계단식 학습을 포함한 학습 전략을 개략한다.

실험 결과

연구 질문

RQ1엄격한 복잡도 제약하에서 엔드투엔드 신경망 코딩이 일반적인 테스트 조건에서 AVS3 표준에 비해 경쟁력 있는 압축 효율을 달성할 수 있는가?
RQ2정해진 인코딩/디코딩 복잡도 한계를 존중하면서 상당한 BD-rate 개선을 가능하게 하는 어떤 아키텍처 및 훈련 전략이 있는가?
RQ3모션 및 잔차 분기가 시간적 맥락을 통해 어떻게 상호 작용하여 엔드투엔드 코딩 효율성을 향상시키는가?
RQ4AVS-EEM 버전 간 코딩 성능과 계산 복잡도 간의 트레이드오프는 무엇인가?
RQ5실용성 및 배포 가능성 측면에서 AVS-EEM은 다른 엔드투엔드 및 머신 비전 지향 표준과 어떻게 비교되는가?

주요 결과

AVS-EEM은 v0.1에서 v9.2까지 상당한 진화를 보여주며, 저지연 YUV420 조건에서 Y, U, V 성분에 걸쳐 큰 BD-rate 격차에서 BD-rate 감소로 이동한다.
최신 AVS-EEM v9.2는 표준 조건에서 AVS3 앵커에 비해 BD-rate 감소가 –4.14% (Y), –9.58% (U), and –24.72% (V)이다.
초기 모델은 큰 격차를 겪었고(예: v0.1에서 Y의 BD-rate 증가 201.37%), 300 KMAC/pixel 인코딩 및 200 KMAC/pixel 디코딩 한계로 제약된 프레임워크 내에서 측정 가능한 이득으로 수렴했다.
AVS-EEM 프레임워크는 엔드투엔드 비트-손실 최적화를 통한 두 개의 분기(motion and residual) 아키텍처를 유지하여 실제 배치를 가능하게 한다.
진전은 콘텐츠/모션 특성 조건화, 특징 도메인 정렬, 시간적 맥락 탐색, 계층적 품질 스케일링 및 체커보드 자기회귀 엔트로피 모델링과 같은 혁신에 의존한다.
실험 결과는 복잡도 제약을 준수하면서 최신 AVS-EEM이 기존 AVS3 기준 소프트웨어보다 우수한 압축 효율을 보임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.