QUICK REVIEW

[논문 리뷰] Unsupervised Attention-guided Image to Image Translation

Youssef Alami Mejjati, Christian Richardt|arXiv (Cornell University)|2018. 06. 06.

Multimodal Machine Learning Applications인용 수 201

한 줄 요약

이 논문은 CycleGAN과 유사한 이미지-투-이미지 변환에 비지도 주의 메커니즘을 통합하여 전경 객체에 번역을 집중시키고 배경은 보존하며, 감독 없이 현실감을 향상시킵니다.

ABSTRACT

Current unsupervised image-to-image translation techniques struggle to focus their attention on individual objects without altering the background or the way multiple objects interact within a scene. Motivated by the important role of attention in human perception, we tackle this limitation by introducing unsupervised attention mechanisms that are jointly adversarialy trained with the generators and discriminators. We demonstrate qualitatively and quantitatively that our approach is able to attend to relevant regions in the image without requiring supervision, and that by doing so it achieves more realistic mappings compared to recent approaches.

연구 동기 및 목표

관련된 장면 영역에 집중하여 비지도 이미지-투-이미지 변환을 개선하려는 동기를 부여한다.
생성기가 전경 객체만 번역하도록 안내하는 학습 가능한 주의 네트워크를 도입한다.
주요 구분 영역만 변경하도록 주의 네트워크를 생성기 및 판별기와 함께 공동 학습한다.
현실적이지 않은 배경 변화 없이 배경 내용을 유지한다.
기존 방법에 비해 질적 및 양적 향상을 입증한다.

제안 방법

CycleGAN 프레임워크에 주의 네트워크 A_S와 A_T를 추가한다.
주의 맵을 계산하고 이를 마스크로 적용하여 전경 변환 영역과 보존된 배경을 결합한다( s' = s_a ⊙ F(s) + (1 - s_a) ⊙ s ).
공격적 손실(적대적 손실)과 사이클 일관성 손실을 사용하여 학습하고, 주의 영역 번역을 강제하는 학습 목표를 설정한다.
배경 페인팅을 방지하고 학습을 안정시키기 위해 마스킹된 영역에서 작동하는 판별기를 채택한다(계단식 학습 스케줄과 함께).
학습 중에는 연속적인 주의 마스크를 사용하고 판별기를 위한 임계 마스크를 적용하여 모드 붕괴를 방지한다.
생성기, 주의, 판별기의 업데이트를 교대로 수행하는 알고리즘적 학습 절차를 제공한다.

실험 결과

연구 질문

RQ1비지도 주의 메커니즘이 감독 없이도 의미 있는 영역에 번역을 집중하도록 학습할 수 있는가?
RQ2주의 가이드 번역이 기존의 비지도 I2I 방법과 비교하여 이미지 현실감과 배경 보존을 향상시키는가?
RQ3훈련 스케줄과 판별기 마스킹이 안정적인 주의 및 고품질 번역 학습에 미치는 영향은 무엇인가?
RQ4다중 규모 객체와 다양한 배경을 가진 데이터셋에서 이 방법의 성능은 어떠한가?

주요 결과

본 방법은 매핑 간 KID(Kernel Inception Distance) 최저치를 달성하여 실제 이미지와의 시각적 유사성이 더 가까움을 시사한다.
정성적 결과는 주의 맵이 도메인 설명 객체에 집중하고 배경 변화는 피하는 것을 보여준다.
소거 실험은 선명하고 국소화된 주의를 위한 사이클 일관성과 이중 주의(A_S 및 A_T)의 중요성을 보여준다.
주 의 가이드 판별기와 단계적 학습을 사용하면 모드 붕괴와 배경 인위물을 줄일 수 있다.
기준선(CycleGAN, DiscoGAN, DualGAN, UNIT, RA)과 비교하여 제안된 방법이 특히 다중 스케일 객체에서 보다 현실적인 번역을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.