Skip to main content
QUICK REVIEW

[논문 리뷰] MS-SCANet: A Multiscale Transformer-Based Architecture with Dual Attention for No-Reference Image Quality Assessment

Mayesha Maliha R. Mithila, Mylene C. Q. Farias|arXiv (Cornell University)|2026. 02. 03.
Image and Video Quality Assessment인용 수 0
한 줄 요약

MS-SCANet은 공간 주의력과 채널 주의력을 갖춘 이중 분기 다중 스케일 트랜스포머를 도입하여 블라인드 이미지 품질 평가를 수행하며, Cross-Branch Attention과 두 가지 일관성 손실을 사용해 표준 벤치마크에서 무참조 IQA 성능을 향상시킨다.

ABSTRACT

We present the Multi-Scale Spatial Channel Attention Network (MS-SCANet), a transformer-based architecture designed for no-reference image quality assessment (IQA). MS-SCANet features a dual-branch structure that processes images at multiple scales, effectively capturing both fine and coarse details, an improvement over traditional single-scale methods. By integrating tailored spatial and channel attention mechanisms, our model emphasizes essential features while minimizing computational complexity. A key component of MS-SCANet is its cross-branch attention mechanism, which enhances the integration of features across different scales, addressing limitations in previous approaches. We also introduce two new consistency loss functions, Cross-Branch Consistency Loss and Adaptive Pooling Consistency Loss, which maintain spatial integrity during feature scaling, outperforming conventional linear and bilinear techniques. Extensive evaluations on datasets like KonIQ-10k, LIVE, LIVE Challenge, and CSIQ show that MS-SCANet consistently surpasses state-of-the-art methods, offering a robust framework with stronger correlations with subjective human scores.

연구 동기 및 목표

  • 섬세한 디테일과 거친 디테일을 모두 포착할 수 있는 향상된 무참조 IQA를 촉진한다.
  • 다중 스케일을 효율적으로 처리하는 이중 분기 트랜스포머 아키텍처를 개발한다.
  • 계산 부담을 줄이면서도 중요한 특징을 강조하기 위해 공간 및 채널 주의력을 통합한다.
  • 다중 스케일 특징 융합과 공간 무결성을 향상시키기 위해 cross-branch attention과 두 가지 일관성 손실을 제안한다.

제안 방법

  • 이중 분기 다중 스케일 트랜스포머가 병렬 분기에서 여러 스케일의 이미지 패치를 처리한다.
  • 분기 내 자기-주의는 계산을 줄이기 위해 윈도우 기반이며, 3D 패치 임베딩과 위치 인코딩을 포함한다.
  • 특징 채널을 재조정하기 위해 squeeze-and-excitation 스타일의 채널 주의력을 도입한다.
  • CrossViT에서 영감을 받아 스케일 간 패치 토큰을 직접 융합하기 위한 cross-branch attention을 도입한다.
  • Cross-Branch Consistency Loss와 Adaptive Pooling Consistency Loss를 제안하여 다중 스케일 특징 통합의 안정성을 높인다.
  • 총 학습 손실을 위해 L1 (MAE) 손실과 두 가지 일관성 손실을 결합한다.

실험 결과

연구 질문

  • RQ1다중 스케일 트랜스포머가 이중 주의력을 갖추면 NR-IQA 성능을 어떻게 향상시킬 수 있는가?
  • RQ2cross-branch attention이 서로 다른 스케일의 특징을 IQA를 위해 효과적으로 융합할 수 있는가?
  • RQ3새로운 일관성 손실이 샘플링 하에서 특징 통합과 공간 무결성을 개선하는가?
  • RQ4이 방법의 다양한 IQA 데이터셋에 대한 일반화는 어떠한가?

주요 결과

  • MS-SCANet은 KONIQ-10k, LIVE, LIVE-C, CSIQ 벤치마크에서 PLCC 및 SROCC 지표로 일관되게 최상위 성능을 달성한다.
  • 6x6 윈도우와 256 임베딩 차원이 PLCC와 SROCC 간의 균형 잡힌 트레이드를 제공한다.
  • 이중 분기 이중 주의력과 교차 분기 융합은 단일 분기 주의력 구성보다 우수하다.
  • CB Loss와 AP Loss가 교차 스케일 특징 통합과 다운샘플링 무결성을 공동으로 개선해 전반적 정확도를 높인다.
  • 교차 데이터셋 검증에서 학습-테스트 데이터셋 쌍 간 강력한 일반화와 안정적인 SROCC를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.