[论文解读] Vision-Language Models vs Human: Perceptual Image Quality Assessment
该论文将六种视觉-语言模型与三种感知IQ量表的人工心理物理数据进行基准测试(对比度、色彩丰富度、总体偏好),并分析内部一致性、模型间一致性與人类对齐情况。
Psychophysical experiments remain the most reliable approach for perceptual image quality assessment (IQA), yet their cost and limited scalability encourage automated approaches. We investigate whether Vision Language Models (VLMs) can approximate human perceptual judgments across three image quality scales: contrast, colorfulness and overall preference. Six VLMs four proprietary and two openweight models are benchmarked against psychophysical data. This work presents a systematic benchmark of VLMs for perceptual IQA through comparison with human psychophysical data. The results reveal strong attribute dependent variability models with high human alignment for colorfulness (ρup to 0.93) underperform on contrast and vice-versa. Attribute weighting analysis further shows that most VLMs assign higher weights to colorfulness compared to contrast when evaluating overall preference similar to the psychophysical data. Intramodel consistency analysis reveals a counterintuitive tradeoff: the most self consistent models are not necessarily the most human aligned suggesting response variability reflects sensitivity to scene dependent perceptual cues. Furthermore, human-VLM agreement is increased with perceptual separability, indicating VLMs are more reliable when stimulus differences are clearly expressed.
研究动机与目标
- 评估视觉-语言模型(VLMs)在三种尺度的IQA中的人类感知判断是否能够近似:对比度、色彩丰富度、总体偏好。
- 提供一个系统性的基准,将六个VLM与心理物理学的IQA数据进行对比。
- 识别VLMs的优点、局限性,以及在何种条件下与人类判断一致。
- 探讨模型可靠性、跨模型一致性与感知分离性如何影响基于VLM的IQA。
提出的方法
- 对人类和VLMs使用相同的成对图像比较,给出强制选择的提示,覆盖三项IQA属性。
- 通过API或本地提示评测六种VLM(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2、Grok-4.1、InternVL-3.5-38B、Qwen3-VL-32B-Instruct)。
- 对回应进行可重复性筛选、验证和z-score标准化处理,以实现模型–人类的比较。
- 计算每对组三次重复的模型内变异性(VR%)。
- 计算用于模型对比的一对多模型变异性(VR%),即跨模型的一致性。
- 使用斯皮尔曼等级相关与场景自助法(引导法)对照人类心理物理数据的对齐程度。
- 分析总体偏好作为对比度与色彩丰富度的线性组合时的属性权重。

实验结果
研究问题
- RQ1VLMs能否在感知IQ属性(对比度、色彩丰富度、总体偏好)上复现人类排序?
- RQ2在每个属性上,哪些VLMs与人类判断最接近?
- RQ3在一个模型内(模型内变异性)和跨模型(跨模型变异性)方面,VLM判断的稳定性如何?
- RQ4场景的感知可分离性如何影响人类–VLM的一致性?
- RQ5在形成总体偏好时,VLMs赋予对比度与色彩丰富度的属性权重是多少?
主要发现
- 色彩丰富度预测与人类高度一致,在多个模型上表现出色(例如 Claude 和 Qwen在色彩丰富度上均达到 ρ = 0.93)。
- 对比度预测在 Qwen 和 Gemini 上对齐最好(ρ = 0.86 和 0.79,分别)。
- 总体偏好对齐在 GPT 上最高(ρ = 0.86),在 Claude、Grok、Gemini 上为中等。
- 模型内一致性在 Claude 的各属性间较高,但并不保证与人类对齐;GPT 显示更高的变异性但整体对齐更强。
- 模型间的一致性取决于属性;对比度在模型之间存在较大分歧,而色彩丰富度在某些对之间的跨模型一致性相对较高。
- 人类–VLM的一致性随着场景的感知可分离性增加而提升,表明在差异明确时可靠性更高。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。