Skip to main content
QUICK REVIEW

[논문 리뷰] Cones: Concept Neurons in Diffusion Models for Customized Generation

Zhi‐Heng Liu, Ruili Feng|arXiv (Cornell University)|2023. 03. 09.
Neural Networks and Applications인용 수 19
한 줄 요약

Cones는 확산 모델에서 주제 주도 생성(subject-driven generation)을 제어하는 개념 뉴런의 작은 클러스터를 식별합니다. 이 뉴런을 활성화하거나 차단함으로써 여러 주체를 하나의 이미지에서 높은 로버스트성과 저장 효율로 생성하고 결합할 수 있습니다.

ABSTRACT

Human brains respond to semantic features of presented stimuli with different neurons. It is then curious whether modern deep neural networks admit a similar behavior pattern. Specifically, this paper finds a small cluster of neurons in a diffusion model corresponding to a particular subject. We call those neurons the concept neurons. They can be identified by statistics of network gradients to a stimulation connected with the given subject. The concept neurons demonstrate magnetic properties in interpreting and manipulating generation results. Shutting them can directly yield the related subject contextualized in different scenes. Concatenating multiple clusters of concept neurons can vividly generate all related concepts in a single image. A few steps of further fine-tuning can enhance the multi-concept capability, which may be the first to manage to generate up to four different subjects in a single image. For large-scale applications, the concept neurons are environmentally friendly as we only need to store a sparse cluster of int index instead of dense float32 values of the parameters, which reduces storage consumption by 90\% compared with previous subject-driven generation methods. Extensive qualitative and quantitative studies on diverse scenarios show the superiority of our method in interpreting and manipulating diffusion models.

연구 동기 및 목표

  • 확산 모델에 인간의 개념 뉴런과 유사한 주체 특이적 개념 뉴런이 포함되어 있는지 판단할 동기를 제시한다.
  • 주어진 주체를 제어하는 개념 뉴런을 찾기 위한 기울기 기반 방법을 제안한다.
  • 개념 뉴런을 차단하는 것이 다양한 맥락에서 대상 주체를 재현함을 보인다.
  • 개념 뉴런을 연결(concatenating)하는 것이 다주체 생성 및 하나의 이미지에서 최대 네 명의 주체를 가능하게 함을 보인다.
  • 이전의 주체 주도 생성 방식과 비교하여 상당한 저장 공간 절감을 보여준다.]
  • method=[
  • 목표를 대상 주체를 제어하기 위한 크기가 작은 뉴런 집합을 K-V 어텐션 계층에서 스케일링하는 것으로 정의한다.
  • 개념 뉴런이 되기 위한 기여 기준을 개념 임플란트 손실 L_con와 그 기울기를 사용하여 도출한다.
  • theta * (dL_con/dtheta)의 부호와 크기를 분석하여 개념 뉴런을 식별하는 자기 적응 샘플링 절차를 제안한다.
  • 개념 뉴런임을 나타내는 이진 마스크 M을 계산하고 이를 사용해 비필수 파라미터를 비활성화한다.
  • 이진, float16, 쿼터너리, float32 설정이 유사한 제어 성능을 보임을 보여주며, 개념 뉴런의 강건성을 나타낸다.
  • 여러 주체의 개념 뉴런을 연결하여 단일 이미지에서 복합 개념을 생성하는 가법성을 보인다.

제안 방법

  • 정의한다. 목표를 대상 주체를 제어하기 위한 크기가 작은 뉴런 집합을 K-V 어텐션 계층에서 스케일링하는 것으로 정의한다.
  • 도출한다. 개념 뉴런이 되기 위한 기여 기준을 개념 임플란트 손실 L_con와 그 기울기를 사용하여 도출한다.
  • 제안한다. theta * (dL_con/dtheta)의 부호와 크기를 분석하여 개념 뉴런을 식별하는 자기 적응 샘플링 절차를 제안한다.
  • 계산한다. 개념 뉴런임을 나타내는 이진 마스크 M을 계산하고 이를 사용해 비필수 파라미터를 비활성화한다.
  • 보인다. 이진, float16, 쿼터너리, float32 설정이 유사한 제어 성능을 보임을 보여주며, 개념 뉴런의 강건성을 나타낸다.
  • 입증한다. 여러 주체의 개념 뉴런을 연결하여 단일 이미지에서 복합 개념을 생성하는 가법성을 보인다.

실험 결과

연구 질문

  • RQ1확산 모델이 인간의 개념 뉴런과 유사한 주체 특이적 개념 뉴런을 인코딩하는가?
  • RQ2주어진 주체를 지배하는 소수의 개념 뉴런을 신뢰성 있게 식별하는 기울기 기반 기준이 있는가?
  • RQ3개념 뉴런을 차단하여 생성을 제어하고 이전 정보가 보존되는가?
  • RQ4여러 주체의 개념 뉴런을 연결하여 하나의 이미지에서 다주체 생성을 만들어낼 수 있는가?
  • RQ5개념 뉴런을 이용한 대규모 맞춤 생성의 저장 및 강건성 이점은 무엇인가?

주요 결과

MethodText-alignmentImage-alignment
Single Subject (V1*)0.3610.725
Textual Inversion0.3120.744
DreamBooth0.3440.731
Custom Diffusion0.3520.722
Cones (Ours)0.3610.725
Two Subjects (V1*, V2*)0.3370.698
Textual Inversion0.2640.630
DreamBooth0.2830.673
Custom Diffusion0.3140.685
Cones (Ours)0.3370.698
Three Subjects (V1*, V2*, V3*)0.3010.685
Textual Inversion0.2230.584
DreamBooth0.2630.631
Custom Diffusion0.2890.669
Cones (Ours)0.3010.685
Four Subjects (V1*, V2*, V3*, V4*)0.2850.653
Textual Inversion0.2190.553
DreamBooth0.2380.597
Custom Diffusion0.2690.632
Cones (Ours)0.2850.653
  • 개념 뉴런은 주어진 주체의 생성을 지배하는 K-V 어텐션 계층에서 작고 희소한 클러스터로 존재한다.
  • 식별된 개념 뉴런을 차단하면 주의도(attention maps)에서 대상 주체의 윤곽이 드러나고 맥락에 걸쳐 주체를 생성할 수 있다.
  • 이진(차단) 개념 뉴런은 더 높은 정밀도 버전(float32/float16) 및 심지어 4진 표현과도 유사한 제어 성능을 보이며 강건성을 시사한다.
  • 여러 주체의 개념 뉴런을 연결하면 다주체 생성이 가능하고, 협력적 미세조정은 네 주체 결과의 품질을 향상시킨다.
  • 저장 비용이 크게 감소하며, 개념 뉴런은 이전 방법의 약 10% 수준의 메모리만 필요하고 희소성이 인덱스 저장을 가능하게 한다.
  • 이 방법은 특히 주체 수가 늘어날수록 텍스트 정렬 및 이미지 정렬에서 높은 성과를 보이며, 다주체 시나리오에서 경쟁 방법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.