QUICK REVIEW

[论文解读] AIM 2024 Challenge on Video Super-Resolution Quality Assessment: Methods and Results

Иван Молодецких, A. Borisov|arXiv (Cornell University)|Oct 5, 2024

Image and Video Quality Assessment被引用 7

一句话总结

本文在 AIM 2024 挑战中对无参考的视频 SR 质量评估指标进行基准测试，推出一个包含 52 种 SR 方法放大后的 1124 段视频的数据集，并报告表现最好的无参考 QA 方法。

ABSTRACT

This paper presents the Video Super-Resolution (SR) Quality Assessment (QA) Challenge that was part of the Advances in Image Manipulation (AIM) workshop, held in conjunction with ECCV 2024. The task of this challenge was to develop an objective QA method for videos upscaled 2x and 4x by modern image- and video-SR algorithms. QA methods were evaluated by comparing their output with aggregate subjective scores collected from >150,000 pairwise votes obtained through crowd-sourced comparisons across 52 SR methods and 1124 upscaled videos. The goal was to advance the state-of-the-art in SR QA, which had proven to be a challenging problem with limited applicability of traditional QA methods. The challenge had 29 registered participants, and 5 teams had submitted their final results, all outperforming the current state-of-the-art. All data, including the private test subset, has been made publicly available on the challenge homepage at https://challenges.videoprocessing.ai/challenges/super-resolution-metrics-challenge.html

研究动机与目标

促进并推进无参考视频超分辨率质量评估指标。
提供一个多样化、具挑战性的数据集，并给出 SR 输出的真实主观排名。
在多种 SR 模型和难度等级下，基于众包的主观分数评估提交的无参考 QA 方法。
促进公平比较并识别对 SR QA 有效的特征集与架构。

提出的方法

创建一个包含来自 52 种 SR 方法、分三个难度级别（Easy、Medium、Hard）的 1124 段放大视频的数据集。
通过众包成对比较收集总计>150,000 票的真实主观排名，并使用 Bradley–Terry 模型进行聚合。
通过预测分数与真实主观排名之间的斯皮尔曼相关性来评估提交结果，对每个难度等级内的视频取平均。
将 Easy、Medium、Hard 的相关性按权重组合来计算最终分数，然后将公开测试集和私有测试集的结果合并以排名。
参与者使用逐帧和帧间特征的组合，以及如 SlowFast、Swin Transformer 主干网和多模态特征等目标架构，开发无参考 QA 指标。

实验结果

研究问题

RQ1当前无参考视频 QA 指标在跨越多种 SR 方法的 SR 处理视频中，与主观质量的相关性有多高？
RQ2与传统基于帧的指标相比，NR QA 模型是否能在不同内容类型和 SR 伪影模式上具有更好的泛化能力？
RQ3哪些架构选择和特征集能为 SR QA 提供与人类判断最强相关性的结果？
RQ4结合逐帧与帧间特征是否在各难度等级上提升 SR QA 性能？

主要发现

团队	类型	简单	中等	困难	私有分数	公开分数	最终分数
QA-FTE	NR Video	0.8595	0.9323	0.7965	0.8575	0.8661	0.8604
TVQA-SR	NR Video	0.8741	0.9115	0.7738	0.8448	0.8907	0.8601
SJTU MMLab	NR Video	0.9044	0.9255	0.7239	0.8362	0.8906	0.8543
Wink	NR Video	0.8600	0.8986	0.6885	0.8014	0.8864	0.8297
sv-srcb-lab	NR Video	0.8758	0.9014	0.7769	0.8432	0.7926	0.8263
PieAPP [36] (baseline)	FR Image	0.8471	0.8820	0.7120	0.8025	0.6971	0.7674
Q-Align [51] (baseline)	NR Image	0.8864	0.8456	0.6770	0.7855	0.7028	0.7580

所有五个最终提交在公开测试集上均超过基线（用于图像的 PieAPP 和 Q-Align）。
QA-FTE 在私有和总体挑战结果上均获得最高总分。
在无参考视频指标中，TVQA-SR 和 SJTU MMLab 获得公开集上最佳表现。
无参考方法主导了提交，利用逐帧与帧间特征（如 SlowFast、Fast-VQA、Q-Align 以及大型多模态模型）。
不同的难度等级揭示出不同的可辨别性，Hard 情况对主观-真值相关性最具挑战性。
综合最终分数使用加权方案：Final = (Public + 2*Private)/3，并按 Easy/Medium/Hard 的每视频相关性以权重 0.3、0.4、0.5 进行平均。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。