Skip to main content
QUICK REVIEW

[논문 리뷰] Text + Sketch: Image Compression at Ultra Low Rates

Eric Lei, Yiğit Berkay Uslu|arXiv (Cornell University)|2023. 07. 04.
Generative Adversarial Networks and Image Synthesis인용 수 8
한 줄 요약

본 논문은 텍스트-투-이미지 모델에 텍스트 변환 코딩(PIC)을 사용하고 여기에 스케치를 보조 정보로 더하여 초저비트레이트에서 의미적으로 신뢰할 수 있는 이미지 재구성을 달성하며, 엔드-투-엔드 학습 없이 작동한다.

ABSTRACT

Recent advances in text-to-image generative models provide the ability to generate high-quality images from short text descriptions. These foundation models, when pre-trained on billion-scale datasets, are effective for various downstream tasks with little or no further training. A natural question to ask is how such models may be adapted for image compression. We investigate several techniques in which the pre-trained models can be directly used to implement compression schemes targeting novel low rate regimes. We show how text descriptions can be used in conjunction with side information to generate high-fidelity reconstructions that preserve both semantics and spatial structure of the original. We demonstrate that at very low bit-rates, our method can significantly improve upon learned compressors in terms of perceptual and semantic fidelity, despite no end-to-end training.

연구 동기 및 목표

  • 대규모 텍스트-투-이미지 모델을 활용하여 초저비트레이트에서 이미지 압축의 동기를 부여하고 가능성을 열어준다.
  • 전송되는 텍스트 설명과 최소한의 보조 정보가 이미지의 의미와 구조를 보존할 수 있음을 보여준다.
  • 스케치를 보조 정보로 추가하면 매우 낮은 비트레이트에서 구조적 충실도가 향상됨을 보인다.
  • 이 방법은 엔드-투-엔드 학습이 필요 없으며, 의미/지각 지표에서 일부 최첨단 생성 압축기보다 우수하다는 점을 강조한다.

제안 방법

  • 사전 학습된 텍스트-투-이미지 모델(Stable Diffusion)을 사용해 CLIP 공간에서의 프롬프트 역전(PIC)을 통해 얻은 손실 없이 압축된 텍스트 프롬프트를 이용해 이미지를 재구성한다.
  • 추가적인 공간 조건화 맵(스케치)을 학습된 비선형 변환 코더(NTC)로 압축해 디코더(ControlNet)를 안내하고 공간 구조를 보존한다(PICS).
  • PIC와 PICS를 표준 데이터셋(Kodak, CLIC 2021, DIV2K)에서 HiFiC 및 MS-SSIM으로 조정된 NTC 베이스라인과 비교한다.
  • CLIP 기반 의미 유사도를 지각/의미 품질의 대리척도로 사용하고, 무참조 지표 FID와 KID를 함께 평가한다.
  • PIC가 매우 낮은 비율(~0.002-0.003 bpp)에서 작동하는 것을 보여주고 PICS가 속도-지각 및 속도-왜곡 트레이드를 개선한다.

실험 결과

연구 질문

  • RQ1오프더셸프(일반적으로 사용 가능한) 텍스트-투-이미지 모델을 이용한 텍스트 변환 코딩으로 초저비트레이트에서 의미 콘텐츠를 보존할 수 있는가?
  • RQ2스페이셜 컨디셔닝 스케치를 사이드 정보로 추가하면 초저 비트레이트에서 재구성의 구조적 충실도가 향상되는가?
  • RQ3PIC와 PICS가 초저비트레이트에서 의미적 및 지각적 품질 측면에서 최첨단 생성 압축기와 어떻게 비교되는가?
  • RQ4이 영역에서 경쟁력 있는 결과를 얻기 위해 엔드-투-엔드 학습이 필요한가?

주요 결과

  • PIC는 의미 정보를 보존하면서 약 0.002-0.003 bpp의 매우 낮은 비율을 달성한다.
  • PICS(텍스트 플러스 스케치)는 초저비트레이트 구간에서 PIC와 HiFiC에 비해 속도-지각 및 속도-왜곡 트레이드를 개선한다.
  • PIC는 거친 의미 개념을 보존하는 반면, PICS는 사이드 정보로 스케치를 인코딩해 구조 보존을 향상시킨다.
  • NTC 기반 베이스라인은 초저 비율에서 흐릿하고, HiFiC는 현실감을 향상시키지만 지각/텍스처가 ground truth와 다를 수 있다.
  • PICS는 원본과 차이가 있을 수 있는 텍스처/색상에도 불구하고 높은 수준의 공간 구조를 더 선명하게 재구성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.