Skip to main content
QUICK REVIEW

[論文レビュー] Q-Tacit: Image Quality Assessment via Latent Visual Reasoning

Yuxuan Jiang, Yixuan Li|arXiv (Cornell University)|Mar 23, 2026
Image and Video Quality Assessment被引用数 0
ひとこと要約

tldr: Q-Tacit は盲目の画像品質評価のための潜在的ビジュアル推論アプローチを導入し、複数の標準IQAデータセットとの競争力のある相関を報告します。

ABSTRACT

Vision-Language Model (VLM)-based image quality assessment (IQA) has been significantly advanced by incorporating Chain-of-Thought (CoT) reasoning. Recent work has refined image quality reasoning by applying reinforcement learning (RL) and leveraging active visual tools. However, such strategies are typically language-centric, with visual information being treated as static preconditions. Quality-related visual cues often cannot be abstracted into text in extenso due to the gap between discrete textual tokens and quality perception space, which in turn restricts the reasoning effectiveness for visually intensive IQA tasks. In this paper, we revisit this by asking the question, "Is natural language the ideal space for quality reasoning?" and, as a consequence, we propose Q-Tacit, a new paradigm that elicits VLMs to reason beyond natural language in the latent quality space. Our approach follows a synergistic two-stage process: (i) injecting structural visual quality priors into the latent space, and (ii) calibrating latent reasoning trajectories to improve quality assessment ability. Extensive experiments demonstrate that Q-Tacit can effectively perform quality reasoning with significantly fewer tokens than previous reasoning-based methods, while achieving strong overall performance. This paper validates the proposition that language is not the only compact representation suitable for visual quality, opening possibilities for further exploration of effective latent reasoning paradigms for IQA. Source code will be released to support future research.

研究の動機と目的

  • 目的は、潜在的ビジュアル推論を統合フレームワークで活用して画像品質評価を改善すること。
  • 一般的な品質認識と歪み認識を示すモデルを開発すること。
  • 提案手法を多様なIQAデータセットで評価し、頑健性と転送性を示すこと。

提案手法

  • Q-Tacit を提案、IQAの潜在的ビジュアル推論ベースのアーキテクチャ。
  • 潜在推論を組み込み、一般的な品質認識と歪み認識を分離して捉える。
  • KonIQ-10K、SPAQ、KADID、PIPAL、LIVEW、AGIQA、CSIQ など複数の標準IQAデータセットにおける人間の判断との相関を評価。
  • 地上 truth MOS/DMOS との定量的相関を報告し、性能を確立する。

実験結果

リサーチクエスチョン

  • RQ1潜在的ビジュアル推論は多様な歪みと内容に対して盲目IQAの性能を向上させるか。
  • RQ2Q-Tacit は複数の標準IQAデータセットで人間の判断との高い相関を維持するか。
  • RQ3モデルは perceptual quality を予測する際に一般的な品質認識と歪み特異的手がかりのバランスをどのように取るか。

主な発見

  • 本手法は複数の標準 IQA データセット(KonIQ-10K, SPAQ, KADID, PIPAL, LIVEW, AGIQA, CSIQ などが含まれる)で高い相関スコアを達成。
  • これらのデータセットで報告された相関は多くのケースで人間の品質判断と強く一致しており(いくつかのエントリで 0.8〜0.9 台のスコア)、高い整合性を示す。
  • 歪み種と内容の範囲にわたる画像品質評価において、一般的・歪み認識を組み合わせた推論が効果的であることを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。