Skip to main content
QUICK REVIEW

[論文レビュー] Q-Probe: Scaling Image Quality Assessment to High Resolution via Context-Aware Agentic Probing

Xiang Li, Xueheng Li|arXiv (Cornell University)|Jan 21, 2026
Image and Video Quality Assessment被引用数 0
ひとこと要約

Q-Probe は グローバルからローカルへのプロービング、Vista-Bench ベンチマーク、3 段階の訓練カリキュラムを用いて、局所的な微細劣化と自然な写真効果をより識別できる高解像度画像品質評価を拡張します。

ABSTRACT

Reinforcement Learning (RL) has empowered Multimodal Large Language Models (MLLMs) to achieve superior human preference alignment in Image Quality Assessment (IQA). However, existing RL-based IQA models typically rely on coarse-grained global views, failing to capture subtle local degradations in high-resolution scenarios. While emerging "Thinking with Images" paradigms enable multi-scale visual perception via zoom-in mechanisms, their direct adaptation to IQA induces spurious "cropping-implies-degradation" biases and misinterprets natural depth-of-field as artifacts. To address these challenges, we propose Q-Probe, the first agentic IQA framework designed to scale IQA to high resolution via context-aware probing. First, we construct Vista-Bench, a pioneering benchmark tailored for fine-grained local degradation analysis in high-resolution IQA settings. Furthermore, we propose a three-stage training paradigm that progressively aligns the model with human preferences, while simultaneously eliminating causal bias through a novel context-aware cropping strategy. Extensive experiments demonstrate that Q-Probe achieves state-of-the-art performance in high-resolution settings while maintaining superior efficacy across resolution scales.

研究の動機と目的

  • グローバル文脈の中で微細な局所劣化を捉える堅牢な高解像度 IQA を動機付ける。
  • 高解像度 IQA における局所ズーム時の誤誘導的な切り抜き劣化の偏りを排除する。
  • 局所的な高解像度劣化評価のための Vista-Bench を開発・公開する。
  • 人間の嗜好と整合させるグローバル知覚、局所精査、正確なローカリゼーションを三段階の訓練カリキュラムで提案する。
  • 解像度スケールを横断する高解像度 IQA において最先端の性能を示す。)

提案手法

  • Wavelet ベースの構造-質感分離と region の重要度を示す Gemini-2.5 Pro アノテーションを用いて高解像度画像に局所的劣化を注入して Vista-Bench を構築する。
  • 三段階の訓練カリキュラムを採用:ステージ1 は GRPO による pre-RL でグローバル美学を整合させる知覚整列;ステージ2 は データフライウィールを用いた Hybrid-Resolution SFT で文脈認識 CoT 軌跡を生成;ステージ3 は Looking(局在化)と Scoring 報酬を分離した Decoupled Post-RL で欠陥局在化とスコアリングを改良。
  • ステージ1 は Thurstone ベースの確率的ランキングと GRPO を用いて人間の嗜好のペアをモデル化し、ランキング報酬 R_rank を生成。
  • ステージ2 は混成解像度の軌跡を用いる Probe-CoT-3K を構築し、crop バイアスを防ぐよう設計し、推論・行動の系列に対して L_SFT で訓練。
  • ステージ3 ではデカップルド報酬を用い、R_acc はスコアの正確さ、R_loc は IoU による欠陥局在化、R_format は軌跡整形をそれぞれ担い、局在化とスコアリングの両立を最適化。
  • ベースとして Qwen-2.5-VL-7B を使用;Vista-Bench および標準 IQA データセットに対する SRCC/PLCC 指標を提示; アブレーションとクロップカバレッジ分析を含む。
Figure 2 : This diagram illustrates the construction pipeline of Vista-Bench and the Data Flywheel for SFT. Specifically, we utilize wavelet transforms to decouple structure from texture, selectively injecting artifacts into texture-rich semantic regions, while employing Gemini-2.5 Pro to generate i
Figure 2 : This diagram illustrates the construction pipeline of Vista-Bench and the Data Flywheel for SFT. Specifically, we utilize wavelet transforms to decouple structure from texture, selectively injecting artifacts into texture-rich semantic regions, while employing Gemini-2.5 Pro to generate i

実験結果

リサーチクエスチョン

  • RQ1エージェント的で文脈認識型のプロービングは、グローバル視野と局所精査を効果的に組み合わせることで高解像度 IQA を改善できるか。
  • RQ2ズームと知覚劣化の誤相関を避けるためのクロッピング戦略はどう設計すべきか。
  • RQ3グローバル知覚 → 局所精査 → 正確な局在化という3段階の訓練カリキュラムは、高解像度 IQA の最先端性能を達成できるか。
  • RQ4高解像度の局所劣化を評価する専用ベンチマーク(Vista-Bench)の影響はどの程度か。
  • RQ5デカップルド報酬メカニズムは RL ベースの IQA における局在精度とスコアリング精度にどう影響するか。

主な発見

MethodVistaSPAQKADID-10kPIPALTID13KonIQAGIQAAvgSRCC/PLCC note
BRISQUE0.1520.6140.4290.2420.5480.3850.4970.409SRCC: 0.409 / PLCC: 0.426
NIQE0.1870.6760.4870.3570.5320.4210.5330.456SRCC: 0.456 / PLCC: 0.445
MUSIQ0.2950.7200.6470.3170.6700.4730.4940.516SRCC: 0.516 / PLCC: 0.493
UNIQUE0.3100.7510.5130.3930.7030.6490.6080.561SRCC: 0.561 / PLCC: 0.546
MANIQA0.3250.7450.7600.3380.5890.2130.4220.484SRCC: 0.484 / PLCC: 0.505
Qwen2.5-VL-7B0.3850.8480.7870.3900.7870.7540.7350.669SRCC: 0.669 / PLCC: 0.694
LIQE0.3420.8150.8090.3710.7180.6840.6530.627SRCC: 0.627 / PLCC: 0.623
DeQA-Score0.3980.8520.8310.3830.7560.6770.7380.662SRCC: 0.662 / PLCC: 0.675
Q-Align0.3600.7670.8320.4060.7690.5730.6820.627SRCC: 0.627 / PLCC: 0.638
UnifiedReward-T0.4120.8710.8410.3990.7880.8200.7220.693SRCC: 0.693 / PLCC: 0.708
Q-Insight0.3650.8720.8560.4290.8160.8060.7490.699SRCC: 0.699 / PLCC: 0.719
VisualQuality-R10.4510.8750.8710.4690.8480.8550.8050.739SRCC: 0.739 / PLCC: 0.734
Q-Probe (Ours)0.7280.8920.9010.4740.8290.8710.8370.790SRCC: 0.790 / PLCC: 0.799
  • Q-Probe は Vista-Bench の高解像度で最先端の SRCC/PLCC を達成(SRCC 0.728、PLCC 0.776)。
  • Q-Probe は標準の低解像度 IQA データセットでも優れた性能を維持し、解像度を超えた一般化を示す。
  • 三段階のカリキュラム(グローバル知覚 → 局所精査 → 正確な局在化)は、単一段階や部分的カリキュラムより著しく優れている。
  • 文脈認識型のクロッピング戦略は、ズームと劣化の誤相関を防ぎ、局在精度を向上させる。
  • ステージ3 のデカップルド報酬(R_acc および R_loc)は、スコアリング精度と欠陥局在化のバランスを取るうえで不可欠で、アブレーションで最良の SRCC(0.728)を示す。
  • Vista-Bench は高解像度 IQA の局所的劣化注釈を提供し、Q-Probe の微細評価における有効性を示す。
Figure 3 : Overview of the three-stage training framework. Initially, RL Pre-training leverages ranking rewards to align global perception with human preferences. Subsequently, hybrid-resolution SFT enables the model to acquire robust logical reasoning. Finally, the RL Post-training stage fine-tunes
Figure 3 : Overview of the three-stage training framework. Initially, RL Pre-training leverages ranking rewards to align global perception with human preferences. Subsequently, hybrid-resolution SFT enables the model to acquire robust logical reasoning. Finally, the RL Post-training stage fine-tunes

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。