Skip to main content
QUICK REVIEW

[논문 리뷰] ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

Yasheng Sun, Y. F. Yang|arXiv (Cornell University)|2023. 08. 02.
Multimodal Machine Learning Applications인용 수 10
한 줄 요약

ImageBrush는 외부 언어 없이 예시 시각 지시어 한 쌍과 질의 이미지를 활용하여 예시 기반 이미지 조작을 수행하는 확산 기반 프레임워크를 제시합니다; 이는 시각 프롬프팅 인코더와 경계 상자 프롬프트를 사용하여 잠재 공간에서 점진적으로 인페인팅합니다.

ABSTRACT

While language-guided image manipulation has made remarkable progress, the challenge of how to instruct the manipulation process faithfully reflecting human intentions persists. An accurate and comprehensive description of a manipulation task using natural language is laborious and sometimes even impossible, primarily due to the inherent uncertainty and ambiguity present in linguistic expressions. Is it feasible to accomplish image manipulation without resorting to external cross-modal language information? If this possibility exists, the inherent modality gap would be effortlessly eliminated. In this paper, we propose a novel manipulation methodology, dubbed ImageBrush, that learns visual instructions for more accurate image editing. Our key idea is to employ a pair of transformation images as visual instructions, which not only precisely captures human intention but also facilitates accessibility in real-world scenarios. Capturing visual instructions is particularly challenging because it involves extracting the underlying intentions solely from visual demonstrations and then applying this operation to a new image. To address this challenge, we formulate visual instruction learning as a diffusion-based inpainting problem, where the contextual information is fully exploited through an iterative process of generation. A visual prompting encoder is carefully devised to enhance the model's capacity in uncovering human intent behind the visual instructions. Extensive experiments show that our method generates engaging manipulation results conforming to the transformations entailed in demonstrations. Moreover, our model exhibits robust generalization capabilities on various downstream tasks such as pose transfer, image translation and video inpainting.

연구 동기 및 목표

  • 교차 모달 언어 없이도 신뢰할 수 있는 이미지 조작을 구현하기 위해 예시 시연에서 시각 지시를 학습한다.
  • 새로운 질의 이미지에 편집을 적용하기 위해 동일/다른 예시 간 관계를 이해하고 확산 기반 프레임워크를 개발한다.
  • 모달리티 간 격 차를 줄이고 현실 세계 시나리오에서 접근성을 높이기 위해 언어 프롬프트에 대한 의존성을 제거한다.
  • 고수준 인간 의도를 포착하기 위해 시각 프롬프팅 인코더와 경계 상자 상호작용을 제안한다.
  • 포즈 전이, 이미지 번역, 비디오 인페인팅과 같은 하류 작업으로의 일반화를 입증한다.]
  • method ["예시 기반 조작을 E, E′, I, 그리고 빈 M을 연결한 격자형 입력에서 점진적 인페인팅으로 정의하여 E, E′, I, I′를 반복적으로 복구한다.","UNet 백본과 교차 어텐션을 사용하여 시각 프롬프트 컨텍스트를 주입하는 잠재 공간의 확산 모델(잠재 확산 모델)을 사용한다.","공유 시각 인코더 e_v와 프롬프트 인코더 e_p를 갖춘 시각 프롬프팅 모듈을 도입하여 프롬프트에서 고수준 의미 맥락을 추출하고; 중간 블록에서 교차 어텐션으로 UNet에 f_c를 융합한다.","경계 상자 인코딩 e_b와 푸리에 임베딩을 통해 주의 영역 프롬프트를 도입하여 근거 있는 특징을 생성하고; GroundingDINO를 사용한 자동 ROI 또는 수동 상자를 허용한다.","스케일 매개변수를 사용한 분류기 없는 가이던스로 생성물을 지시와 일치하는 편집으로 유도한다.","지시 학습 중에 사용자 초점을 포착하고 더 풍부한 인간 의도 이해를 가능하게 하기 위해 경계 상자 기반 인터페이스를 채택한다."]
  • research_questions:[
  • 언어 신호 없이 순수하게 시각적 예시만으로 이미지를 조작할 수 있으며 여전히 사용자의 의도를 충실히 반영할 수 있는가?
  • 확산 기반 모델이 맥락 내 시각 지시를 활용하여 새로운 질의 이미지에서 예시 기반 편집을 수행하려면 어떻게 해야 하는가?
  • 이미지 편집을 위한 시각 프롬프팅 프레임워크에 고수준 의미론과 사용자가 지정한 영역을 인코딩하는 효과적인 메커니즘은 무엇인가?
  • 예시 기반 시각 지시가 이미지 번역, 포즈 전이, 비디오 인페인팅과 같은 작업들에서 일반화되는가?

제안 방법

  • Can be replaced by properly translated items:
Figure 1: Demo results of the proposed ImageBrush framework on various image manipulation tasks. By providing a pair of task-specific examples and a new query image that share a similar context, ImageBrush accurately identifies the underlying task and generates the desired output.
Figure 1: Demo results of the proposed ImageBrush framework on various image manipulation tasks. By providing a pair of task-specific examples and a new query image that share a similar context, ImageBrush accurately identifies the underlying task and generates the desired output.

실험 결과

연구 질문

  • RQ1언어 신호 없이 순수하게 시각적 예시만으로 이미지를 조작할 수 있으며 여전히 사용자의 의도를 충실히 반영할 수 있는가?
  • RQ2확산 기반 모델이 맥락 내 시각 지시를 활용하여 새로운 질의 이미지에서 예시 기반 편집을 수행하려면 어떻게 해야 하는가?
  • RQ3이미지 편집을 위한 시각 프롬프팅 프레임워크에 고수준 의미론과 사용자가 지정한 영역을 인코딩하는 효과적인 메커니즘은 무엇인가?
  • RQ4예시 기반 시각 지시가 이미지 번역, 포즈 전이, 비디오 인페인팅과 같은 작업들에서 일반화되는가?

주요 결과

방법ScannetLRW (Edge)LRW (Mask)UBC-FashionDAVIS
TSAM----86.84
CoCosNet19.4915.4414.2538.61-
ImageBrush9.189.678.9512.9918.70
  • ImageBrush는 예시 쌍과 질의 맥락에서 시연된 변환과 일치하는 조작 결과를 얻는다.
  • 이 방법은 실제 환경 데이터에서 예시 기반 이미지 번역, 포즈 전이, 비디오 인페인팅에 대해 견고한 일반화를 입증한다.
  • 점진적 디노이징과 시각 프롬프팅 인코더를 갖춘 확산 기반 인페인팅 프로세스가 컨텍스트 활용과 편집 충실도를 향상시킨다.
  • 시각 프롬프트와 경계 상자 ROI 통합은 인간 의도 추적 및 영역 중심 편집을 크게 향상시킨다.
  • 다중 작업 현장 벤치마크에서 ImageBrush는 방향 일관성과 이미지 유사성 지표에서 기준선보다 우수하며 단일 모델로도 여러 작업에서 경쟁력 있는 결과를 얻는다.
Figure 2: Illustration of ImageBrush. We introduce a novel and intuitive way of interacting with images. Users can easily manipulate images by providing a pair of examples and a query image as prompts to our system. If users wish to convey more precise instructions, they have the option to inform th
Figure 2: Illustration of ImageBrush. We introduce a novel and intuitive way of interacting with images. Users can easily manipulate images by providing a pair of examples and a query image as prompts to our system. If users wish to convey more precise instructions, they have the option to inform th

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.