QUICK REVIEW

[论文解读] MS-SCANet: A Multiscale Transformer-Based Architecture with Dual Attention for No-Reference Image Quality Assessment

Mayesha Maliha R. Mithila, Mylene C. Q. Farias|arXiv (Cornell University)|Feb 3, 2026

Image and Video Quality Assessment被引用 0

一句话总结

MS-SCANet 引入一个具有空间和通道注意力的双分支多尺度变换器，用于无参考图像质量评估，利用跨分支注意力和两个一致性损失来提升在标准基准上的无参考 IQA 性能。

ABSTRACT

We present the Multi-Scale Spatial Channel Attention Network (MS-SCANet), a transformer-based architecture designed for no-reference image quality assessment (IQA). MS-SCANet features a dual-branch structure that processes images at multiple scales, effectively capturing both fine and coarse details, an improvement over traditional single-scale methods. By integrating tailored spatial and channel attention mechanisms, our model emphasizes essential features while minimizing computational complexity. A key component of MS-SCANet is its cross-branch attention mechanism, which enhances the integration of features across different scales, addressing limitations in previous approaches. We also introduce two new consistency loss functions, Cross-Branch Consistency Loss and Adaptive Pooling Consistency Loss, which maintain spatial integrity during feature scaling, outperforming conventional linear and bilinear techniques. Extensive evaluations on datasets like KonIQ-10k, LIVE, LIVE Challenge, and CSIQ show that MS-SCANet consistently surpasses state-of-the-art methods, offering a robust framework with stronger correlations with subjective human scores.

研究动机与目标

提升无参考 IQA 能捕捉细节与粗略细节的能力。
开发能够高效处理多尺度的双分支变换器架构。
整合空间与通道注意力，在强调显著特征的同时降低计算负担。
提出跨分支注意力和两种一致性损失，以增强多尺度特征融合和空间完整性。

提出的方法

双分支多尺度变换器在并行分支中处理多尺度的图像块。
分支内自注意力采用基于窗口的方式以降低计算量，具备3D补丁嵌入和位置编码。
融入挤压并通道注意力（Squeeze-and-Excitation 风格）以重新校准特征通道。
引入跨分支注意力以直接跨尺度融合补丁标记，灵感来自 CrossViT。
提出跨分支一致性损失和自适应池化一致性损失以稳定多尺度特征整合。
将 L1（MAE）损失与两种一致性损失结合，作为总训练损失。

实验结果

研究问题

RQ1双注意力的多尺度变换器如何提升无参考 IQA 的表现？
RQ2跨分支注意力能否有效融合来自不同尺度的特征用于 IQA？
RQ3在下采样过程中，新的一致性损失是否改善特征整合与空间完整性？
RQ4该方法在多样化的 IQA 数据集上的泛化能力如何？

主要发现

MS-SCANet 在 KONIQ-10k、LIVE、LIVE-C 与 CSIQ 基准上的 PLCC 与 SROCC 指标持续达到顶级表现。
6x6 窗口、256 嵌入维度在 PLCC 与 SROCC 之间提供了平衡折衷。
双分支双注意力与跨分支融合优于单分支注意力配置。
CB 损失和 AP 损失共同提升了跨尺度特征整合与下采样完整性，从而提升总体准确性。
跨数据集验证显示出强健的泛化能力，训练-测试数据集对之间的 SROCC 稳健。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。