[논문 리뷰] Q-Probe: Scaling Image Quality Assessment to High Resolution via Context-Aware Agentic Probing
Q-Probe는 글로벌-에서 로컬 분석을 결합한 맥락 인지형 IQA 프레임워크를 통해 고해상도 이미지 품질 평가를 확장하고, 글로벌-에서 로컬 프로빙, Vista-Bench 벤치마크, 그리고 세 단계의 훈련 커리큘럼을 사용하여 미세한 로컬 열화를 자연 촬영 효과와 더 잘 구분합니다.
Reinforcement Learning (RL) has empowered Multimodal Large Language Models (MLLMs) to achieve superior human preference alignment in Image Quality Assessment (IQA). However, existing RL-based IQA models typically rely on coarse-grained global views, failing to capture subtle local degradations in high-resolution scenarios. While emerging "Thinking with Images" paradigms enable multi-scale visual perception via zoom-in mechanisms, their direct adaptation to IQA induces spurious "cropping-implies-degradation" biases and misinterprets natural depth-of-field as artifacts. To address these challenges, we propose Q-Probe, the first agentic IQA framework designed to scale IQA to high resolution via context-aware probing. First, we construct Vista-Bench, a pioneering benchmark tailored for fine-grained local degradation analysis in high-resolution IQA settings. Furthermore, we propose a three-stage training paradigm that progressively aligns the model with human preferences, while simultaneously eliminating causal bias through a novel context-aware cropping strategy. Extensive experiments demonstrate that Q-Probe achieves state-of-the-art performance in high-resolution settings while maintaining superior efficacy across resolution scales.
연구 동기 및 목표
- 글로벌 맥락 속에서 미묘한 로컬 열화를 포착하는 강력한 고해상도 IQA의 필요성 제기.
- 고해상도 IQA에서 로컬 확대 시 잘못된 자르기가 열화로 오인되는 바이어스 제거.
- 세밀한 고해상도 열화 평가를 위한 Vista-Bench 개발 및 공개.
- 글로벌 지각, 로컬 주의, 정밀 위치화를 인간 선호도와 일치시키는 세 단계 학습 커리큘럼 제안.
- 해상도 척도에 걸쳐 고해상도 IQA에서 최첨단 성능 입증
제안 방법
- Wavelet 기반 구조-질감 분리와 Gemini-2.5 Pro 주석을 이용하여 고해상도 이미지에 국지적 열화를 주입해 Vista-Bench를 구성합니다.
- 세 단계 학습 커리큘럼 채택: 1단계 지각 정렬(Perception Alignment) — pre-RL과 GRPO를 통해 글로벌 미학 정렬; 2단계 하이브리드 해상도 SFT — 데이터 플라이휠로 맥락 인지 CoT 궤적 생성; 3단계 분리된 Post-RL — Looking(로컬화)과 Scoring 보상을 분리하여 결함 위치화와 점수 산출 정교화.
- 1단계는 Thurstone 기반의 확률적 순위화와 GRPO를 사용해 인간 선호의 쌍대 비교를 모델링하고 순위 보상 R_rank를 생성합니다.
- 2단계는 다양한 해상도 트래젝트리를 가진 Probe-CoT-3K를 구축하여 자르기 편향을 방지하고, 추론 및 행동 시퀀스에 대해 L_SFT로 학습합니다.
- 3단계는 로컬화 정확도와 점수 정확도를 함께 최적화하기 위해 분리된 보상: R_acc(점수 정확도), R_loc(IoU를 통한 결함 로컬라이제이션), R_format(궤적 형식화)으로 구성된 디커플링 보상을 사용합니다.
- 기준으로 Qwen-2.5-VL-7B를 사용하며, Vista-Bench와 표준 IQA 데이터셋에서 SRCC/PLCC 지표를 제시하고, 차폐 및 자름 커버리지 분석을 포함합니다.

실험 결과
연구 질문
- RQ1에이전트식 맥락 인지 탐색이 글로벌 시야와 로컬 주의를 효과적으로 결합함으로써 고해상도 IQA를 향상시킬 수 있는가?
- RQ2확대 자르기가 IQA에서 인지된 열화와 우발적 상관을 초래하지 않게 자르기 전략을 어떻게 설계할 수 있는가?
- RQ3글로벌 지각 → 로컬 주의 → 정밀 로컬라이제이션의 3단계 학습 커리큘럼이 고해상도 IQA 벤치마크에서 최첨단 성능을 낳는가?
- RQ4세밀한 로컬 열화를 평가하기 위한 전용 고해상도 벤치마크(Vista-Bench)의 영향은 무엇인가?
- RQ5디커플링된 보상 메커니즘이 RL 기반 IQA에서 로컬라이제이션 정밀도와 점수 정확도에 어떤 영향을 미치는가?
주요 결과
| 방법 | Vista | SPAQ | KADID-10k | PIPAL | TID13 | KonIQ | AGIQA | 평균 | SRCC/PLCC 주석 |
|---|---|---|---|---|---|---|---|---|---|
| BRISQUE | 0.152 | 0.614 | 0.429 | 0.242 | 0.548 | 0.385 | 0.497 | 0.409 | SRCC: 0.409 / PLCC: 0.426 |
| NIQE | 0.187 | 0.676 | 0.487 | 0.357 | 0.532 | 0.421 | 0.533 | 0.456 | SRCC: 0.456 / PLCC: 0.445 |
| MUSIQ | 0.295 | 0.720 | 0.647 | 0.317 | 0.670 | 0.473 | 0.494 | 0.516 | SRCC: 0.516 / PLCC: 0.493 |
| UNIQUE | 0.310 | 0.751 | 0.513 | 0.393 | 0.703 | 0.649 | 0.608 | 0.561 | SRCC: 0.561 / PLCC: 0.546 |
| MANIQA | 0.325 | 0.745 | 0.760 | 0.338 | 0.589 | 0.213 | 0.422 | 0.484 | SRCC: 0.484 / PLCC: 0.505 |
| Qwen2.5-VL-7B | 0.385 | 0.848 | 0.787 | 0.390 | 0.787 | 0.754 | 0.735 | 0.669 | SRCC: 0.669 / PLCC: 0.694 |
| LIQE | 0.342 | 0.815 | 0.809 | 0.371 | 0.718 | 0.684 | 0.653 | 0.627 | SRCC: 0.627 / PLCC: 0.623 |
| DeQA-Score | 0.398 | 0.852 | 0.831 | 0.383 | 0.756 | 0.677 | 0.738 | 0.662 | SRCC: 0.662 / PLCC: 0.675 |
| Q-Align | 0.360 | 0.767 | 0.832 | 0.406 | 0.769 | 0.573 | 0.682 | 0.627 | SRCC: 0.627 / PLCC: 0.638 |
| UnifiedReward-T | 0.412 | 0.871 | 0.841 | 0.399 | 0.788 | 0.820 | 0.722 | 0.693 | SRCC: 0.693 / PLCC: 0.708 |
| Q-Insight | 0.365 | 0.872 | 0.856 | 0.429 | 0.816 | 0.806 | 0.749 | 0.699 | SRCC: 0.699 / PLCC: 0.719 |
| VisualQuality-R1 | 0.451 | 0.875 | 0.871 | 0.469 | 0.848 | 0.855 | 0.805 | 0.739 | SRCC: 0.739 / PLCC: 0.734 |
| Q-Probe (Ours) | 0.728 | 0.892 | 0.901 | 0.474 | 0.829 | 0.871 | 0.837 | 0.790 | SRCC: 0.790 / PLCC: 0.799 |
- Q-Probe는 고해상도 Vista-Bench에서 최첨단 SRCC/PLCC를 달성합니다(SRCC 0.728, PLCC 0.776).
- Q-Probe는 표준 저해상도 IQA 데이터셋에서도 우수한 성능을 유지하며 해상도 간 일반화가 강합니다.
- 글로벌 지각 → 로컬 주의 → 정밀 로컬라이제이션의 3단계 커리큘럼은 단일 단계나 부분 커리큘럼보다 현저히 우수합니다.
- 맥락 인지 자르기 전략은 자르기가 열화를 초래한다는 잘못된 상관을 방지하고 로컬라이제이션 정밀도를 향상시킵니다.
- 3단계의 디커플링 보상(R_acc 및 R_loc)은 점수 정확도와 결함 로컬라이제이션의 균형을 맞추는 데 중요하며, 차례로 최고의 SRCC(0.728)를 달성합니다.
- Vista-Bench는 고해상도 IQA를 위한 로컬화 열화 주석을 제공하고 Q-Probe의 미세한 평가에서 효과를 보여줍니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.