Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Prompting via Image Inpainting

Amir Bar, Yossi Gandelsman|arXiv (Cornell University)|2022. 09. 01.
Multimodal Machine Learning Applications인용 수 50
한 줄 요약

이 논문은 학습된 MAE-VQGAN으로 그리드 이미지 인페인팅처럼 시각 작업을 다루면, 큰 비레이블 Figure 데이터셋에서 학습되어 테스트 시 시각적 프롬핑을 사용해 미세조정 없이 다양한 이미지-이미지 작업을 수행할 수 있음을 보여준다.

ABSTRACT

How does one adapt a pre-trained visual model to novel downstream tasks without task-specific finetuning or any model modification? Inspired by prompting in NLP, this paper investigates visual prompting: given input-output image example(s) of a new task at test time and a new input image, the goal is to automatically produce the output image, consistent with the given examples. We show that posing this problem as simple image inpainting - literally just filling in a hole in a concatenated visual prompt image - turns out to be surprisingly effective, provided that the inpainting algorithm has been trained on the right data. We train masked auto-encoders on a new dataset that we curated - 88k unlabeled figures from academic papers sources on Arxiv. We apply visual prompting to these pretrained models and demonstrate results on various downstream image-to-image tasks, including foreground segmentation, single object detection, colorization, edge detection, etc.

연구 동기 및 목표

  • 사전 학습된 시각 모델을 미세조정이나 아키텍처 변경 없이 다운스트림 태스크에 프롬프트 기반으로 적응시키는 동기를 부여한다.
  • 샘플과 질의를 포함하는 시각 프롬프트 그리드에서 다운스트림 태스크를 이미지 인페인팅으로 프레이밍하는 것을 제안한다.
  • 프롬핑 태스크를 위한 강건한 인페인팅 모델을 학습시키기 위해 대규모 비레이블 Figure 데이터셋을 만든다.
  • 일반화 및 태스크 커버리지 평가를 위해 여러 비전 태스크에서 프롬핑을 평가한다.
  • 프롬핑 설계 선택이 성능에 미치는 영향과 데이터 분포가 결과에 미치는 영향을 조사한다.

제안 방법

  • masked auto-encoding(MAE)와 VQGAN 코드북을 결합해 마스킹된 영역의 시각 토큰을 예측하는 인페인팅 모델 MAE-VQGAN을 구축한다.
  • ArXiv의 88k 비레이블 피규어를 포함한 큐레이션된 Computer Vision Figures 데이터셋과 ImageNet 데이터에서 MAE-VQGAN을 학습시켜 그리드형 인페인팅이 가능한 표현을 학습한다.
  • 하나 이상의 입력-출력 태스크 예시를 새 질의 이미지와 결합해 그리드형 이미지로 만든 뒤, 인페인팅할 영역을 마스크한다.
  • 예시 S와 질의 x_q로부터 시각 프롬프트 x_vp를 구성하는 간단하고 하드코딩된 함수 g를 정의한다; 인페인팅은 마스크된 영역을 채워 타깃 출력을 얻는다.
  • 강건성을 높이기 위해 여러 프롬프트를 생성하고 예측을 평균하는 프롬프트 앙상블을 선택적으로 적용한다.
  • 레이아웃, 색상, 마스킹 스타일 등의 프롬프트 설계 선택을 분석하고, 더 많은 예시와 앙상블로 성능 향상을 입증한다.

실험 결과

연구 질문

  • RQ1단일의 사전 학습 시각 모델이 미세조정 없이 테스트 시 시각 프롬핑으로 여러 다운스트림 이미지-투-이미지 태스크에 적응할 수 있는가?
  • RQ2모델이 태스크 비특정 그리드 데이터로 학습될 때 이미지 인페인팅이 시각 프롬핑의 실현 가능한 핵심 메커니즘인가?
  • RQ3학습 데이터 선택(Figures 데이터세트 대 ImageNet)이 태스크 전반의 프롬핑 성능에 어떤 영향을 미치는가?
  • RQ4프롬프트 설계(레이아웃, 색상, 예시 수)가 프롬핑 품질과 강건성에 미치는 영향은 무엇인가?
  • RQ5세분화 및 탐지 태스크에서 시각 프롬핑이 전통적 미세조정 및 파샷 기준선과 어떻게 비교되는가?

주요 결과

  • Figures 데이터셋에서 학습된 MAE-VQGAN은 시각 프롬프트를 사용할 때 전경 세분화 및 단일 객체 탐지에서 강한 성능을 보인다.
  • Figures에서 학습된 프롬핑 모델은 ImageNet에서만 사전학습된 모델보다 현저히 우수하고 여러 태스크에서 비전문 벤치마크를 능가한다.
  • 시각 프롬프트에 예시를 더 추가하면 일반적으로 Pascal-5i 및 Pascal VOC 데이터셋에서 세분화 mIOU와 탐지 정확도가 향상된다.
  • 프롬프트 설계 선택(예: 수직/수평 레이아웃, 흑백 마스크)은 프롬핑 품질에 영향을 주며 일부 레이아웃이 관련 영역에 더 높은 주의를 이끈다.
  • 프롬프트 앙상블(여러 프롬프트의 예측 평균화)은 결과를 더 개선하고 태스크 전반의 성능을 안정화한다.
  • MAE-VQGAN trained on Figures produces sharper completions and better task performance than VQGAN or BEiT baselines, particularly for detection and segmentation.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.