QUICK REVIEW

[論文レビュー] Recent Advances of End-to-End Video Coding Technologies for AVS Standard Development

Xihua Sheng, Xiongzhuang Liang|arXiv (Cornell University)|Jan 31, 2026

Video Coding and Compression Technologies被引用数 0

ひとこと要約

この論文は厳密な複雑さ制約の下での end-to-end の知能的映像符号化フレームワーク AVS-EEM を調査し、最新の AVS-EEM v9.2 が標準のテスト条件下で AVS3 アンカーと比較して BD-rate を低減することを報告します。

ABSTRACT

Video coding standards are essential to enable the interoperability and widespread adoption of efficient video compression technologies. In pursuit of greater video compression efficiency, the AVS video coding working group launched the standardization exploration of end-to-end intelligent video coding, establishing the AVS End-to-End Intelligent Video Coding Exploration Model (AVS-EEM) project. A core design principle of AVS-EEM is its focus on practical deployment, featuring inherently low computational complexity and requiring strict adherence to the common test conditions of conventional video coding. This paper details the development history of AVS-EEM and provides a systematic introduction to its key technical framework, covering model architectures, training strategies, and inference optimizations. These innovations have collectively driven the project's rapid performance evolution, enabling continuous and significant gains under strict complexity constraints. Through over two years of iterative refinement and collaborative effort, the coding performance of AVS-EEM has seen substantial improvement. Experimental results demonstrate that its latest model achieves superior compression efficiency compared to the conventional AVS3 reference software, marking a significant step toward a deployable intelligent video coding standard.

研究の動機と目的

AVS-end-to-end 知能的映像符号化（AVS-EEM）の開発史を説明する。
AVS-EEM のフレームワーク、アーキテクチャ、学習戦略、推論最適化を説明する。
従来の AVS3 アンカーに対する圧縮性能と複雑さの分析を示す。
固定された複雑さ制約の下で性能向上を可能にする主要技術を強調する。
AVS 標準化の取り組みの中で AVS-EEM の将来の方向性を議論する。

提案手法

モーション分枝と残差分枝をノンラインドエンドツーエンドのフレームワークで動作させる AVS-EEM アーキテクチャを提示する。
計算量を削減するための元画像領域のダウンサンプリングモーション推定を説明する。
特徴量領域のグループウェイズモーションアライメントとコンテンツ/モーション条件付きモーション圧縮を説明する。
マルチスケール残差符号化のための参照信頼度係数を用いた時系列コンテキスト探索を詳述する。
マルチスケール時系列コンテキスト支援特徴量領域残差圧縮と残差チェッカーボード自己回帰エントローモデリングを導入する。
段階的、階層的品質ベース、マルチフレーム連鎖学習を含む訓練戦略を概説する。

実験結果

リサーチクエスチョン

RQ1厳密な複雑さ制約の下でエンドツーエンドのニューラル符号化は、一般的なテスト条件下で AVS3 標準に対して競争力のある圧縮効率を実現できるか。
RQ2事前に定義されたエンコード/デコードの複雑さ制限を尊重しつつ、どのアーキテクチャと訓練戦略がBD-rateの大幅な改善を可能にするのか。
RQ3モーション分岐と残差分岐は時系列コンテキストを通じてエンドツーエンドの符号化効率をどう向上させるのか。
RQ4AVS-EEM バージョン間での符号化性能と計算複雑さのトレードオフはどうなるか。
RQ5AVS-EEM は他のエンドツーエンドや機械視覚志向の標準と比較して実用性と展開性の点でどうか。

主な発見

AVS-EEM は v0.1 から v9.2 へと substantial な進化を遂げ、低遅延 YUV420 条件下で Y、U、V 成分全体で BD-rate の減少へと移行している。
最新の AVS-EEM v9.2 は標準条件下で AVS3 アンカーに対して –4.14%（Y）、–9.58%（U）、–24.72%（V）の BD-rate 減を達成。
初期のモデルは大きなギャップを抱えており（例：v0.1 の Y で BD-rate が 201.37% の増加）、300 KMAC/ピクセルのエンコードと 200 KMAC/ピクセルのデコード制限という枠組み内で測定可能な利得へと収束した。
AVS-EEM フレームワークはモーションと残差の二枝分岐アーキテクチャをエンドツーエンドのレート・ディストーション最適化とともに維持し、実用的な展開を可能にしている。
進歩は、コンテンツ/モーション特徴条件付け、特徴量領域アライメント、時系列コンテキスト探索、階層的品質スケーリング、チェッカーボード自己回帰エントローモデリングなどのイノベーションに支えられている。
実験結果は、最新の AVS-EEM が複雑さ制約を遵守しつつ、従来の AVS3 リファレンスソフトウェアよりも優れた圧縮効率を示すことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。