Skip to main content
QUICK REVIEW

[논문 리뷰] The Unreasonable Effectiveness of Text Embedding Interpolation for Continuous Image Steering

Yiğit Ekin, Yossi Gandelsman|arXiv (Cornell University)|2026. 03. 18.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

훈련 없는 프레임워크가 텍스트-임베딩 공간에서의 제어 가능한 연속 이미지 편집을 가능하게 하고, 텍스트 조건 생성 모델의 LLM 주도 파이프라인으로 편향되지 않은 대조 프롬프트를 구성하며 부드러운 편집을 위한 탄력적 범위 탐색을 사용합니다.

ABSTRACT

We present a training-free framework for continuous and controllable image editing at test time for text-conditioned generative models. In contrast to prior approaches that rely on additional training or manual user intervention, we find that a simple steering in the text-embedding space is sufficient to produce smooth edit control. Given a target concept (e.g., enhancing photorealism or changing facial expression), we use a large language model to automatically construct a small set of debiased contrastive prompt pairs, from which we compute a steering vector in the generator's text-encoder space. We then add this vector directly to the input prompt representation to control generation along the desired semantic axis. To obtain a continuous control, we propose an elastic range search procedure that automatically identifies an effective interval of steering magnitudes, avoiding both under-steering (no-edit) and over-steering (changing other attributes). Adding the scaled versions of the same vector within this interval yields smooth and continuous edits. Since our method modifies only textual representations, it naturally generalizes across text-conditioned modalities, including image and video generation. To quantify the steering continuity, we introduce a new evaluation metric that measures the uniformity of semantic change across edit strengths. We compare the continuous editing behavior across methods and find that, despite its simplicity and lightweight design, our approach is comparable to training-based alternatives, outperforming other training-free methods.

연구 동기 및 목표

  • 재훈련이나 추가 모듈 없이 미세한 이미지 편집을 위한 가볍고 플러그앤플레이 방식의 접근을 제안한다.
  • 텍스트 인코더 표현에서의 단순 선형 개입으로 연속 제어가 실현될 수 있음을 보인다.
  • 의미적으로 집중된 편집을 보장하기 위해 대조 프롬프트 구성과 토큰 선택을 자동화한다.
  • 매끄러운 편집을 위한 효과적인 스티어링 강도 범위를 식별하는 적응적이고 데이터 기반의 방법을 개발한다.
  • 편집 강도에 따른 의미 변화의 연속성을 평가하는 새로운 지표를 제안한다.

제안 방법

  • LLM으로 식별된 토큰 표현을 풀링하고 편향 제거된 대조 프롬프트 쌍의 평균 차이를 취함으로써 텍스트-임베딩 공간에서 스티어링 방향을 계산한다.
  • 원하는 의미 축으로 생성 방향을 조정하기 위해 텍스트 인코더 입력 표현에 스티어링 벡터를 더한다 (방정식 2).
  • 탄력적 범위 탐색을 사용하여 효과적인 스티어링 강도 구간을 자동으로 식별하고, 이 구간 내에서 벡터의 스케일링된 버전을 적용하여 연속 편집을 수행한다(섹션 3.3의 알고리즘 및 설명).
  • LLM으로 토큰 선택을 자동화하여 개념 관련 토큰을 조정하고 편집을 로컬, 글로벌 또는 스타일링으로 분류한다(섹션 3.2).
  • 스타일 토큰 풀링을 통한 편향 제거를 사용하여 얽힌 신호로부터 대상 속성을 분리한다(섹션 3.1.3).
  • 편집 강도 전반에 걸친 균일한 의미 변화 양상을 정량화하기 위한 새로운 연속성 지표(MID dist)를 도입한다(섹션 4.3).
Figure 1: Our framework. Given a user text prompt, our method enables controllable editing in text-to-image generation without retraining. (a) In the default setting, the prompt is encoded by the text encoder and used by the generative pipeline to produce an image. (b) To introduce edit control, we
Figure 1: Our framework. Given a user text prompt, our method enables controllable editing in text-to-image generation without retraining. (a) In the default setting, the prompt is encoded by the text encoder and used by the generative pipeline to produce an image. (b) To introduce edit control, we

실험 결과

연구 질문

  • RQ1훈련이나 아키텍처 변경 없이 텍스트 인코더 표현만을 조정하여 연속적이고 해석 가능한 이미지 편집을 달성할 수 있는가?
  • RQ2자동화된 LLM-주도 파이프라인이 다양한 개념에 걸쳐 강건하고 의미적으로 집중된 편집을 가능하게 하는가?
  • RQ3탄력적 범위 탐색이 매끄럽고 지각적으로 일관된 편집을 제공하고 백본 모델 전반에서 과소 편집이나 과다 편집을 피할 수 있는가?
  • RQ4편집 강도, 콘텐츠 보존, 슬라이더 연속성 측면에서 텍스트-임베딩 공간 제어가 학습 기반 방법과 어떻게 비교되는가?
  • RQ5이 접근법이 이미지와 비디오 모달리티를 포함한 다양한 텍스트 조건 생성기에서 전이 가능한가?

주요 결과

  • 제안된 텍스트-임베딩 제어 프레임워크는 더 강한 백본에서 학습 기반 컨트롤러에 비해 경쟁력 있는 제어 가능성을 달성한다.
  • 탄력적 범위 탐색은 지각적으로 매끄러운 편집을 만들어내는 스티어링 크기를 자동으로 식별하게 하여 과소/과다 편집 아티팩트를 피한다.
  • LLM-주도 토큰 선택과 스타일 토큰 풀링을 통한 편향 제거가 개념 특이적이고 국소화된 편집을 더 잘 보존과 함께 제공한다.
  • 이 방법은 경량성을 유지하며 텍스트 조건 모듈에 걸친 영상 생성 포함 모든 모듈로 일반화되는데, 이는 전적으로 텍스트-인코더 공간에서 작동하기 때문이다.
  • 훈련 없이 작동하는 기준선과 비교할 때, 이 접근법은 더 강한 편집 준수성과 더 부드러운 슬라이더 동작을 달성하고 더 강한 백본에서 학습 기반 방법과의 경쟁력을 보인다.
Figure 2: Illustration of bias inheritance in steering. When the age direction is computed from a biased dataset (e.g., predominantly old men), the resulting steering vector entangles gender with age. Consequently, age manipulations not only modify apparent age but also introduce unintended gender-r
Figure 2: Illustration of bias inheritance in steering. When the age direction is computed from a biased dataset (e.g., predominantly old men), the resulting steering vector entangles gender with age. Consequently, age manipulations not only modify apparent age but also introduce unintended gender-r

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.