Skip to main content
QUICK REVIEW

[论文解读] Review of Large Vision Models and Visual Prompt Engineering

Jiaqi Wang, Zhengliang Liu|arXiv (Cornell University)|Jul 3, 2023
Visual Attention and Saliency Detection被引用 12
一句话总结

本论文综述了大型视觉模型与视觉提示工程,详述了关键模型、提示设计方法,以及在通往AGI的应用中的应用方向,并探讨该领域的未来方向。

ABSTRACT

Visual prompt engineering is a fundamental technology in the field of visual and image Artificial General Intelligence, serving as a key component for achieving zero-shot capabilities. As the development of large vision models progresses, the importance of prompt engineering becomes increasingly evident. Designing suitable prompts for specific visual tasks has emerged as a meaningful research direction. This review aims to summarize the methods employed in the computer vision domain for large vision models and visual prompt engineering, exploring the latest advancements in visual prompt engineering. We present influential large models in the visual domain and a range of prompt engineering methods employed on these models. It is our hope that this review provides a comprehensive and systematic description of prompt engineering methods based on large visual models, offering valuable insights for future researchers in their exploration of this field.

研究动机与目标

  • 总结具有影响力的大型视觉模型及其能力。
  • 在跨模态(图像、文本-图像、多模态)领域对视觉提示工程方法进行综述。
  • 讨论提示如何在视觉模型和AGI应用中实现零-shot/泛化。
  • 突出视觉提示研究中的挑战、局限性以及未来方向。

提出的方法

  • 使用关键词“visual prompt”抓取arXiv,并筛选出与计算机视觉相关的工作。
  • 将综述围绕基础模型(Transformer、CLIP、SAM)和提示范式(视觉提示、多模态提示)进行组织。
  • 描述了视觉提示学习方法(多模态提示、视觉提示调优)和面向任务的提示设计。
  • 回顾了在AGI场景中的视觉提示及其对跨领域泛化的影响。
  • 概述了视觉提示在AI系统中的未来方向及影响。

实验结果

研究问题

  • RQ1在视觉与多模态理解方面,推动进展的主要大型视觉模型有哪些?
  • RQ2哪些提示工程方法用于将大型视觉模型适配到下游任务和AGI应用?
  • RQ3视觉提示如何促进跨任务和跨领域的零-shot和少量样本泛化?

主要发现

  • 提示工程对于在不进行完整再训练的情况下利用大型视觉模型完成多样任务具有关键作用。
  • 知名模型(如基于Transformer的视觉模型、CLIP、SAM)支撑了视觉提示和零-shot泛化的进展。
  • 多模态提示和连续提示表示提升了在图像理解与分割等任务中的适应性。
  • 视觉提示通过输入空间微调(如VPT)和模块化分割方法(如SAM)实现高效的任务适配。
  • 多样化的提示策略(数据驱动提示、上下文感知提示、多样性感知提示)提升了跨数据集和下游场景的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。