[論文レビュー] SCENE: Semantic-aware Codec Enhancement with Neural Embeddings
SCENEは、視覚-言語埋め込みと微分可能なコーデックプロキシで組み立てられた畳み込みを調整し、推論時にリアルタイムの単独前処理器として動作する、軽量なセマンティックガイド前処理フレームワークである。
Compression artifacts from standard video codecs often degrade perceptual quality. We propose a lightweight, semantic-aware pre-processing framework that enhances perceptual fidelity by selectively addressing these distortions. Our method integrates semantic embeddings from a vision-language model into an efficient convolutional architecture, prioritizing the preservation of perceptually significant structures. The model is trained end-to-end with a differentiable codec proxy, enabling it to mitigate artifacts from various standard codecs without modifying the existing video pipeline. During inference, the codec proxy is discarded, and SCENE operates as a standalone pre-processor, enabling real-time performance. Experiments on high-resolution benchmarks show improved performance over baselines in both objective (MS-SSIM) and perceptual (VMAF) metrics, with notable gains in preserving detailed textures within salient regions. Our results show that semantic-guided, codec-aware pre-processing is an effective approach for enhancing compressed video streams.
研究の動機と目的
- 標準コーデックの知覚品質ギャップを動機づけ、セマンティック認識に基づく強化を追求する。
- 視覚-言語埋め込みを活用してコンテンツ認識復元を案内するSCENEを導入する。
- 訓練とデプロイのギャップを微分可能なコデックプロキシで橋渡しする。
- 高解像度ベンチマークでリアルタイム性能と改善を示す。
提案手法
- 入力フレームをダウンサンプリングし、3x3畳み込み層で低レベル特徴を抽出する。
- 凍結されたSigLIP 2エンコーダを用いてセマンティック埋め込みを抽出し、それらをチャネル方向の畳み込み係数へ変換する。
- セマンティック係数で変調されたコンテンツ依存カーネルを用いた組み立て畳み込みを使用する。
- コーデック歪みを模倣する微分可能なJPEGプロキシを用いて訓練し、多項ロスを最適化する。
- 推論時にはコデックプロキシを用いず、SCENEを単独の前処理器として使用する。

実験結果
リサーチクエスチョン
- RQ1セマンティック認識とコーデック認識を組み合わせた前処理は、標準コーデック(H.264/H.265/AV1)下でデコードパイプラインを変更せずに知覚品質(VMAF)と顕著領域の整合性を改善できるか。
- RQ2視覚-言語モデルの埋め込みは、ベースラインの組み立て畳み込みを超えてコンテンツ適応復元を効果的に案内できるか。
- RQ3微分可能なコデックプロキシで訓練することで、推論時の現実世界のコーデック歪みに対する一般化が向上するか。
主な発見
- SCENEはH.264でAsConvSRに比べBD-rateを大きく削減(VMAFで−32.0%対−29.4%)。
- H.265ではSCENEがBD-rateを−37.4%の削減を達成、AsConvSRの−33.9%を上回る。
- MS-SSIM BD-rateの変化は小さく正の傾向(+6〜+11%)で、画素レベルの劣化は限定的な知覚向上を示唆。
- AV1ではSCENEは最大でVMAFで+10.6ポイントの向上を示すが、ビットレート増加により結果がコーデック単独区間外となりBD-rateが定義されない。
- SCENEはAsConvSRと同程度のMS-SSIMを維持しつつ、低ビットレート域で知覚指標を改善。
- 推論レイテンシは1080pフレームあたり約27.74 ms(約36 fps)/ RTX 4090で、リアルタイム展開をサポート。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。