QUICK REVIEW

[논문 리뷰] Q-Probe: Scaling Image Quality Assessment to High Resolution via Context-Aware Agentic Probing

Xiang Li, Xueheng Li|arXiv (Cornell University)|2026. 01. 21.

Image and Video Quality Assessment인용 수 0

한 줄 요약

Q-Probe는 글로벌-에서 로컬 분석을 결합한 맥락 인지형 IQA 프레임워크를 통해 고해상도 이미지 품질 평가를 확장하고, 글로벌-에서 로컬 프로빙, Vista-Bench 벤치마크, 그리고 세 단계의 훈련 커리큘럼을 사용하여 미세한 로컬 열화를 자연 촬영 효과와 더 잘 구분합니다.

ABSTRACT

Reinforcement Learning (RL) has empowered Multimodal Large Language Models (MLLMs) to achieve superior human preference alignment in Image Quality Assessment (IQA). However, existing RL-based IQA models typically rely on coarse-grained global views, failing to capture subtle local degradations in high-resolution scenarios. While emerging "Thinking with Images" paradigms enable multi-scale visual perception via zoom-in mechanisms, their direct adaptation to IQA induces spurious "cropping-implies-degradation" biases and misinterprets natural depth-of-field as artifacts. To address these challenges, we propose Q-Probe, the first agentic IQA framework designed to scale IQA to high resolution via context-aware probing. First, we construct Vista-Bench, a pioneering benchmark tailored for fine-grained local degradation analysis in high-resolution IQA settings. Furthermore, we propose a three-stage training paradigm that progressively aligns the model with human preferences, while simultaneously eliminating causal bias through a novel context-aware cropping strategy. Extensive experiments demonstrate that Q-Probe achieves state-of-the-art performance in high-resolution settings while maintaining superior efficacy across resolution scales.

연구 동기 및 목표

글로벌 맥락 속에서 미묘한 로컬 열화를 포착하는 강력한 고해상도 IQA의 필요성 제기.
고해상도 IQA에서 로컬 확대 시 잘못된 자르기가 열화로 오인되는 바이어스 제거.
세밀한 고해상도 열화 평가를 위한 Vista-Bench 개발 및 공개.
글로벌 지각, 로컬 주의, 정밀 위치화를 인간 선호도와 일치시키는 세 단계 학습 커리큘럼 제안.
해상도 척도에 걸쳐 고해상도 IQA에서 최첨단 성능 입증

제안 방법

Wavelet 기반 구조-질감 분리와 Gemini-2.5 Pro 주석을 이용하여 고해상도 이미지에 국지적 열화를 주입해 Vista-Bench를 구성합니다.
세 단계 학습 커리큘럼 채택: 1단계 지각 정렬(Perception Alignment) — pre-RL과 GRPO를 통해 글로벌 미학 정렬; 2단계 하이브리드 해상도 SFT — 데이터 플라이휠로 맥락 인지 CoT 궤적 생성; 3단계 분리된 Post-RL — Looking(로컬화)과 Scoring 보상을 분리하여 결함 위치화와 점수 산출 정교화.
1단계는 Thurstone 기반의 확률적 순위화와 GRPO를 사용해 인간 선호의 쌍대 비교를 모델링하고 순위 보상 R_rank를 생성합니다.
2단계는 다양한 해상도 트래젝트리를 가진 Probe-CoT-3K를 구축하여 자르기 편향을 방지하고, 추론 및 행동 시퀀스에 대해 L_SFT로 학습합니다.
3단계는 로컬화 정확도와 점수 정확도를 함께 최적화하기 위해 분리된 보상: R_acc(점수 정확도), R_loc(IoU를 통한 결함 로컬라이제이션), R_format(궤적 형식화)으로 구성된 디커플링 보상을 사용합니다.
기준으로 Qwen-2.5-VL-7B를 사용하며, Vista-Bench와 표준 IQA 데이터셋에서 SRCC/PLCC 지표를 제시하고, 차폐 및 자름 커버리지 분석을 포함합니다.

Figure 2 : This diagram illustrates the construction pipeline of Vista-Bench and the Data Flywheel for SFT. Specifically, we utilize wavelet transforms to decouple structure from texture, selectively injecting artifacts into texture-rich semantic regions, while employing Gemini-2.5 Pro to generate i

실험 결과

연구 질문

RQ1에이전트식 맥락 인지 탐색이 글로벌 시야와 로컬 주의를 효과적으로 결합함으로써 고해상도 IQA를 향상시킬 수 있는가?
RQ2확대 자르기가 IQA에서 인지된 열화와 우발적 상관을 초래하지 않게 자르기 전략을 어떻게 설계할 수 있는가?
RQ3글로벌 지각 → 로컬 주의 → 정밀 로컬라이제이션의 3단계 학습 커리큘럼이 고해상도 IQA 벤치마크에서 최첨단 성능을 낳는가?
RQ4세밀한 로컬 열화를 평가하기 위한 전용 고해상도 벤치마크(Vista-Bench)의 영향은 무엇인가?
RQ5디커플링된 보상 메커니즘이 RL 기반 IQA에서 로컬라이제이션 정밀도와 점수 정확도에 어떤 영향을 미치는가?

주요 결과

방법	Vista	SPAQ	KADID-10k	PIPAL	TID13	KonIQ	AGIQA	평균	SRCC/PLCC 주석
BRISQUE	0.152	0.614	0.429	0.242	0.548	0.385	0.497	0.409	SRCC: 0.409 / PLCC: 0.426
NIQE	0.187	0.676	0.487	0.357	0.532	0.421	0.533	0.456	SRCC: 0.456 / PLCC: 0.445
MUSIQ	0.295	0.720	0.647	0.317	0.670	0.473	0.494	0.516	SRCC: 0.516 / PLCC: 0.493
UNIQUE	0.310	0.751	0.513	0.393	0.703	0.649	0.608	0.561	SRCC: 0.561 / PLCC: 0.546
MANIQA	0.325	0.745	0.760	0.338	0.589	0.213	0.422	0.484	SRCC: 0.484 / PLCC: 0.505
Qwen2.5-VL-7B	0.385	0.848	0.787	0.390	0.787	0.754	0.735	0.669	SRCC: 0.669 / PLCC: 0.694
LIQE	0.342	0.815	0.809	0.371	0.718	0.684	0.653	0.627	SRCC: 0.627 / PLCC: 0.623
DeQA-Score	0.398	0.852	0.831	0.383	0.756	0.677	0.738	0.662	SRCC: 0.662 / PLCC: 0.675
Q-Align	0.360	0.767	0.832	0.406	0.769	0.573	0.682	0.627	SRCC: 0.627 / PLCC: 0.638
UnifiedReward-T	0.412	0.871	0.841	0.399	0.788	0.820	0.722	0.693	SRCC: 0.693 / PLCC: 0.708
Q-Insight	0.365	0.872	0.856	0.429	0.816	0.806	0.749	0.699	SRCC: 0.699 / PLCC: 0.719
VisualQuality-R1	0.451	0.875	0.871	0.469	0.848	0.855	0.805	0.739	SRCC: 0.739 / PLCC: 0.734
Q-Probe (Ours)	0.728	0.892	0.901	0.474	0.829	0.871	0.837	0.790	SRCC: 0.790 / PLCC: 0.799

Q-Probe는 고해상도 Vista-Bench에서 최첨단 SRCC/PLCC를 달성합니다(SRCC 0.728, PLCC 0.776).
Q-Probe는 표준 저해상도 IQA 데이터셋에서도 우수한 성능을 유지하며 해상도 간 일반화가 강합니다.
글로벌 지각 → 로컬 주의 → 정밀 로컬라이제이션의 3단계 커리큘럼은 단일 단계나 부분 커리큘럼보다 현저히 우수합니다.
맥락 인지 자르기 전략은 자르기가 열화를 초래한다는 잘못된 상관을 방지하고 로컬라이제이션 정밀도를 향상시킵니다.
3단계의 디커플링 보상(R_acc 및 R_loc)은 점수 정확도와 결함 로컬라이제이션의 균형을 맞추는 데 중요하며, 차례로 최고의 SRCC(0.728)를 달성합니다.
Vista-Bench는 고해상도 IQA를 위한 로컬화 열화 주석을 제공하고 Q-Probe의 미세한 평가에서 효과를 보여줍니다.

Figure 3 : Overview of the three-stage training framework. Initially, RL Pre-training leverages ranking rewards to align global perception with human preferences. Subsequently, hybrid-resolution SFT enables the model to acquire robust logical reasoning. Finally, the RL Post-training stage fine-tunes

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.