[论文解读] Tuning computer vision models with task rewards
论文表明,通过强化学习奖励对预训练计算机视觉模型进行微调,可以提高与特定任务使用的一致性,涵盖目标检测、全景分割、上色和图像描述。
Misalignment between model predictions and intended usage can be detrimental for the deployment of computer vision models. The issue is exacerbated when the task involves complex structured outputs, as it becomes harder to design procedures which address this misalignment. In natural language processing, this is often addressed using reinforcement learning techniques that align models with a task reward. We adopt this approach and show its surprising effectiveness across multiple computer vision tasks, such as object detection, panoptic segmentation, colorization and image captioning. We believe this approach has the potential to be widely useful for better aligning models with a diverse range of computer vision tasks.
研究动机与目标
- 解决复杂视觉任务中模型预测与预期使用之间的不一致。
- 利用强化学习奖励直接优化与任务相关的性能。
- 展示简单的两步流程(MLE 预训练后再进行基于奖励的微调)在多样化的 CV 任务中有效。
- 在不需要特定任务架构变更的情况下展示改进。
- 突出在视觉模型中引入更复杂奖励(如人类反馈)的潜力。
提出的方法
- 使用最大似然估计(MLE)对模型进行预训练,以捕捉数据分布(MLE 模型)。
- 通过最大化与任务相关的奖励来微调 MLE 模型,使用 Reinforce 算法(对数导数技巧)。
- 使用基线通过对每个输入对两个输出进行采样来降低梯度方差(reward(sample) - reward(baseline)。
- 将输出表示为序列(例如边界框、颜色通道、描述),并优化不可微分的奖励。
- 应用任务特定的奖励,如全景质量(PQ)、平均召回、平均精度(mAP)和 CIDEr,以及诸如颜色丰富度等自定义奖励。
- 保留两阶段流程:(1) MLE 预训练,(2) 基于奖励的微调,利用预训练的采样策略。
实验结果
研究问题
- RQ1通过基于奖励的 Reinforce 微调,是否可以在不改变模型架构的情况下提升与多样化视觉任务的任务使用对齐?
- RQ2与传统的任务特定训练技巧和后处理方法相比,基于奖励的增益有何差异?
- RQ3简单的基于指标的奖励是否足以改进如框、分割、颜色和描述等复杂输出?
主要发现
- 全景分割:通过奖励微调将全景质量(PQ)从 43.1 提升到 46.1(COCO 验证集,输入 512x512)。
- 对象检测:基于奖励的微调使 mAP 从 39.2 提升到 54.3,AR@100 从 54.4 提升到 67.2;以召回为重点的微调达到 68.4。
- 上色:奖励微调产生更鲜艳的颜色和更大的色相多样性,色彩丰富度和色相熵的奖励显著提高。
- 图像描述:在 COCO 测试集上,CIDEr 得分从 120.0 提升到 134.5(ViT-B),从 121.7 提升到 138.7(ViT-L)。
- 跨任务来看,奖励优化在对齐上相较标准 MLE 训练表现出改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。