QUICK REVIEW

[논문 리뷰] Visual Prompting via Image Inpainting

Amir Bar, Yossi Gandelsman|arXiv (Cornell University)|2022. 09. 01.

Multimodal Machine Learning Applications인용 수 50

한 줄 요약

이 논문은 학습된 MAE-VQGAN으로 그리드 이미지 인페인팅처럼 시각 작업을 다루면, 큰 비레이블 Figure 데이터셋에서 학습되어 테스트 시 시각적 프롬핑을 사용해 미세조정 없이 다양한 이미지-이미지 작업을 수행할 수 있음을 보여준다.

ABSTRACT

How does one adapt a pre-trained visual model to novel downstream tasks without task-specific finetuning or any model modification? Inspired by prompting in NLP, this paper investigates visual prompting: given input-output image example(s) of a new task at test time and a new input image, the goal is to automatically produce the output image, consistent with the given examples. We show that posing this problem as simple image inpainting - literally just filling in a hole in a concatenated visual prompt image - turns out to be surprisingly effective, provided that the inpainting algorithm has been trained on the right data. We train masked auto-encoders on a new dataset that we curated - 88k unlabeled figures from academic papers sources on Arxiv. We apply visual prompting to these pretrained models and demonstrate results on various downstream image-to-image tasks, including foreground segmentation, single object detection, colorization, edge detection, etc.

연구 동기 및 목표

사전 학습된 시각 모델을 미세조정이나 아키텍처 변경 없이 다운스트림 태스크에 프롬프트 기반으로 적응시키는 동기를 부여한다.
샘플과 질의를 포함하는 시각 프롬프트 그리드에서 다운스트림 태스크를 이미지 인페인팅으로 프레이밍하는 것을 제안한다.
프롬핑 태스크를 위한 강건한 인페인팅 모델을 학습시키기 위해 대규모 비레이블 Figure 데이터셋을 만든다.
일반화 및 태스크 커버리지 평가를 위해 여러 비전 태스크에서 프롬핑을 평가한다.
프롬핑 설계 선택이 성능에 미치는 영향과 데이터 분포가 결과에 미치는 영향을 조사한다.

제안 방법

masked auto-encoding(MAE)와 VQGAN 코드북을 결합해 마스킹된 영역의 시각 토큰을 예측하는 인페인팅 모델 MAE-VQGAN을 구축한다.
ArXiv의 88k 비레이블 피규어를 포함한 큐레이션된 Computer Vision Figures 데이터셋과 ImageNet 데이터에서 MAE-VQGAN을 학습시켜 그리드형 인페인팅이 가능한 표현을 학습한다.
하나 이상의 입력-출력 태스크 예시를 새 질의 이미지와 결합해 그리드형 이미지로 만든 뒤, 인페인팅할 영역을 마스크한다.
예시 S와 질의 x_q로부터 시각 프롬프트 x_vp를 구성하는 간단하고 하드코딩된 함수 g를 정의한다; 인페인팅은 마스크된 영역을 채워 타깃 출력을 얻는다.
강건성을 높이기 위해 여러 프롬프트를 생성하고 예측을 평균하는 프롬프트 앙상블을 선택적으로 적용한다.
레이아웃, 색상, 마스킹 스타일 등의 프롬프트 설계 선택을 분석하고, 더 많은 예시와 앙상블로 성능 향상을 입증한다.

실험 결과

연구 질문

RQ1단일의 사전 학습 시각 모델이 미세조정 없이 테스트 시 시각 프롬핑으로 여러 다운스트림 이미지-투-이미지 태스크에 적응할 수 있는가?
RQ2모델이 태스크 비특정 그리드 데이터로 학습될 때 이미지 인페인팅이 시각 프롬핑의 실현 가능한 핵심 메커니즘인가?
RQ3학습 데이터 선택(Figures 데이터세트 대 ImageNet)이 태스크 전반의 프롬핑 성능에 어떤 영향을 미치는가?
RQ4프롬프트 설계(레이아웃, 색상, 예시 수)가 프롬핑 품질과 강건성에 미치는 영향은 무엇인가?
RQ5세분화 및 탐지 태스크에서 시각 프롬핑이 전통적 미세조정 및 파샷 기준선과 어떻게 비교되는가?

주요 결과

Figures 데이터셋에서 학습된 MAE-VQGAN은 시각 프롬프트를 사용할 때 전경 세분화 및 단일 객체 탐지에서 강한 성능을 보인다.
Figures에서 학습된 프롬핑 모델은 ImageNet에서만 사전학습된 모델보다 현저히 우수하고 여러 태스크에서 비전문 벤치마크를 능가한다.
시각 프롬프트에 예시를 더 추가하면 일반적으로 Pascal-5i 및 Pascal VOC 데이터셋에서 세분화 mIOU와 탐지 정확도가 향상된다.
프롬프트 설계 선택(예: 수직/수평 레이아웃, 흑백 마스크)은 프롬핑 품질에 영향을 주며 일부 레이아웃이 관련 영역에 더 높은 주의를 이끈다.
프롬프트 앙상블(여러 프롬프트의 예측 평균화)은 결과를 더 개선하고 태스크 전반의 성능을 안정화한다.
MAE-VQGAN trained on Figures produces sharper completions and better task performance than VQGAN or BEiT baselines, particularly for detection and segmentation.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.