Skip to main content
QUICK REVIEW

[논문 리뷰] Q-Probe: Scaling Image Quality Assessment to High Resolution via Context-Aware Agentic Probing

Xiang Li, Xueheng Li|arXiv (Cornell University)|2026. 01. 21.
Image and Video Quality Assessment인용 수 0
한 줄 요약

Q-Probe는 글로벌-에서 로컬 분석을 결합한 맥락 인지형 IQA 프레임워크를 통해 고해상도 이미지 품질 평가를 확장하고, 글로벌-에서 로컬 프로빙, Vista-Bench 벤치마크, 그리고 세 단계의 훈련 커리큘럼을 사용하여 미세한 로컬 열화를 자연 촬영 효과와 더 잘 구분합니다.

ABSTRACT

Reinforcement Learning (RL) has empowered Multimodal Large Language Models (MLLMs) to achieve superior human preference alignment in Image Quality Assessment (IQA). However, existing RL-based IQA models typically rely on coarse-grained global views, failing to capture subtle local degradations in high-resolution scenarios. While emerging "Thinking with Images" paradigms enable multi-scale visual perception via zoom-in mechanisms, their direct adaptation to IQA induces spurious "cropping-implies-degradation" biases and misinterprets natural depth-of-field as artifacts. To address these challenges, we propose Q-Probe, the first agentic IQA framework designed to scale IQA to high resolution via context-aware probing. First, we construct Vista-Bench, a pioneering benchmark tailored for fine-grained local degradation analysis in high-resolution IQA settings. Furthermore, we propose a three-stage training paradigm that progressively aligns the model with human preferences, while simultaneously eliminating causal bias through a novel context-aware cropping strategy. Extensive experiments demonstrate that Q-Probe achieves state-of-the-art performance in high-resolution settings while maintaining superior efficacy across resolution scales.

연구 동기 및 목표

  • 글로벌 맥락 속에서 미묘한 로컬 열화를 포착하는 강력한 고해상도 IQA의 필요성 제기.
  • 고해상도 IQA에서 로컬 확대 시 잘못된 자르기가 열화로 오인되는 바이어스 제거.
  • 세밀한 고해상도 열화 평가를 위한 Vista-Bench 개발 및 공개.
  • 글로벌 지각, 로컬 주의, 정밀 위치화를 인간 선호도와 일치시키는 세 단계 학습 커리큘럼 제안.
  • 해상도 척도에 걸쳐 고해상도 IQA에서 최첨단 성능 입증

제안 방법

  • Wavelet 기반 구조-질감 분리와 Gemini-2.5 Pro 주석을 이용하여 고해상도 이미지에 국지적 열화를 주입해 Vista-Bench를 구성합니다.
  • 세 단계 학습 커리큘럼 채택: 1단계 지각 정렬(Perception Alignment) — pre-RL과 GRPO를 통해 글로벌 미학 정렬; 2단계 하이브리드 해상도 SFT — 데이터 플라이휠로 맥락 인지 CoT 궤적 생성; 3단계 분리된 Post-RL — Looking(로컬화)과 Scoring 보상을 분리하여 결함 위치화와 점수 산출 정교화.
  • 1단계는 Thurstone 기반의 확률적 순위화와 GRPO를 사용해 인간 선호의 쌍대 비교를 모델링하고 순위 보상 R_rank를 생성합니다.
  • 2단계는 다양한 해상도 트래젝트리를 가진 Probe-CoT-3K를 구축하여 자르기 편향을 방지하고, 추론 및 행동 시퀀스에 대해 L_SFT로 학습합니다.
  • 3단계는 로컬화 정확도와 점수 정확도를 함께 최적화하기 위해 분리된 보상: R_acc(점수 정확도), R_loc(IoU를 통한 결함 로컬라이제이션), R_format(궤적 형식화)으로 구성된 디커플링 보상을 사용합니다.
  • 기준으로 Qwen-2.5-VL-7B를 사용하며, Vista-Bench와 표준 IQA 데이터셋에서 SRCC/PLCC 지표를 제시하고, 차폐 및 자름 커버리지 분석을 포함합니다.
Figure 2 : This diagram illustrates the construction pipeline of Vista-Bench and the Data Flywheel for SFT. Specifically, we utilize wavelet transforms to decouple structure from texture, selectively injecting artifacts into texture-rich semantic regions, while employing Gemini-2.5 Pro to generate i
Figure 2 : This diagram illustrates the construction pipeline of Vista-Bench and the Data Flywheel for SFT. Specifically, we utilize wavelet transforms to decouple structure from texture, selectively injecting artifacts into texture-rich semantic regions, while employing Gemini-2.5 Pro to generate i

실험 결과

연구 질문

  • RQ1에이전트식 맥락 인지 탐색이 글로벌 시야와 로컬 주의를 효과적으로 결합함으로써 고해상도 IQA를 향상시킬 수 있는가?
  • RQ2확대 자르기가 IQA에서 인지된 열화와 우발적 상관을 초래하지 않게 자르기 전략을 어떻게 설계할 수 있는가?
  • RQ3글로벌 지각 → 로컬 주의 → 정밀 로컬라이제이션의 3단계 학습 커리큘럼이 고해상도 IQA 벤치마크에서 최첨단 성능을 낳는가?
  • RQ4세밀한 로컬 열화를 평가하기 위한 전용 고해상도 벤치마크(Vista-Bench)의 영향은 무엇인가?
  • RQ5디커플링된 보상 메커니즘이 RL 기반 IQA에서 로컬라이제이션 정밀도와 점수 정확도에 어떤 영향을 미치는가?

주요 결과

방법VistaSPAQKADID-10kPIPALTID13KonIQAGIQA평균SRCC/PLCC 주석
BRISQUE0.1520.6140.4290.2420.5480.3850.4970.409SRCC: 0.409 / PLCC: 0.426
NIQE0.1870.6760.4870.3570.5320.4210.5330.456SRCC: 0.456 / PLCC: 0.445
MUSIQ0.2950.7200.6470.3170.6700.4730.4940.516SRCC: 0.516 / PLCC: 0.493
UNIQUE0.3100.7510.5130.3930.7030.6490.6080.561SRCC: 0.561 / PLCC: 0.546
MANIQA0.3250.7450.7600.3380.5890.2130.4220.484SRCC: 0.484 / PLCC: 0.505
Qwen2.5-VL-7B0.3850.8480.7870.3900.7870.7540.7350.669SRCC: 0.669 / PLCC: 0.694
LIQE0.3420.8150.8090.3710.7180.6840.6530.627SRCC: 0.627 / PLCC: 0.623
DeQA-Score0.3980.8520.8310.3830.7560.6770.7380.662SRCC: 0.662 / PLCC: 0.675
Q-Align0.3600.7670.8320.4060.7690.5730.6820.627SRCC: 0.627 / PLCC: 0.638
UnifiedReward-T0.4120.8710.8410.3990.7880.8200.7220.693SRCC: 0.693 / PLCC: 0.708
Q-Insight0.3650.8720.8560.4290.8160.8060.7490.699SRCC: 0.699 / PLCC: 0.719
VisualQuality-R10.4510.8750.8710.4690.8480.8550.8050.739SRCC: 0.739 / PLCC: 0.734
Q-Probe (Ours)0.7280.8920.9010.4740.8290.8710.8370.790SRCC: 0.790 / PLCC: 0.799
  • Q-Probe는 고해상도 Vista-Bench에서 최첨단 SRCC/PLCC를 달성합니다(SRCC 0.728, PLCC 0.776).
  • Q-Probe는 표준 저해상도 IQA 데이터셋에서도 우수한 성능을 유지하며 해상도 간 일반화가 강합니다.
  • 글로벌 지각 → 로컬 주의 → 정밀 로컬라이제이션의 3단계 커리큘럼은 단일 단계나 부분 커리큘럼보다 현저히 우수합니다.
  • 맥락 인지 자르기 전략은 자르기가 열화를 초래한다는 잘못된 상관을 방지하고 로컬라이제이션 정밀도를 향상시킵니다.
  • 3단계의 디커플링 보상(R_acc 및 R_loc)은 점수 정확도와 결함 로컬라이제이션의 균형을 맞추는 데 중요하며, 차례로 최고의 SRCC(0.728)를 달성합니다.
  • Vista-Bench는 고해상도 IQA를 위한 로컬화 열화 주석을 제공하고 Q-Probe의 미세한 평가에서 효과를 보여줍니다.
Figure 3 : Overview of the three-stage training framework. Initially, RL Pre-training leverages ranking rewards to align global perception with human preferences. Subsequently, hybrid-resolution SFT enables the model to acquire robust logical reasoning. Finally, the RL Post-training stage fine-tunes
Figure 3 : Overview of the three-stage training framework. Initially, RL Pre-training leverages ranking rewards to align global perception with human preferences. Subsequently, hybrid-resolution SFT enables the model to acquire robust logical reasoning. Finally, the RL Post-training stage fine-tunes

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.