QUICK REVIEW

[논문 리뷰] Real-Time User-Guided Image Colorization with Learned Deep Priors

Richard Zhang, Jun-Yan Zhu|arXiv (Cornell University)|2017. 05. 08.

Generative Adversarial Networks and Image Synthesis참고 문헌 51인용 수 29

한 줄 요약

이 논문은 회색조 이미지와 희소한 사용자 힌트를 입력으로 받아 전체 색상 출력을 생성하는 실시간, 딥러닝 기반의 방법을 제안한다. 컨volutional 신경망(CNN)을 사용하며, 100만 개의 합성된 사용자 입력 데이터로 훈련되어, 최소한의 사용자 입력으로도 현실적이며 다양한 색조를 구현하는 데에 학습된 깊이의 사전 지식을 활용한다. 이는 1분 이내에 고성능 결과를 도출하며, 아티스틱한 제어를 위한 전역 히스토GRAM 전이도 지원한다.

ABSTRACT

We propose a deep learning approach for user-guided image colorization. The system directly maps a grayscale image, along with sparse, local user "hints" to an output colorization with a Convolutional Neural Network (CNN). Rather than using hand-defined rules, the network propagates user edits by fusing low-level cues along with high-level semantic information, learned from large-scale data. We train on a million images, with simulated user inputs. To guide the user towards efficient input selection, the system recommends likely colors based on the input image and current user inputs. The colorization is performed in a single feed-forward pass, enabling real-time use. Even with randomly simulated user inputs, we show that the proposed system helps novice users quickly create realistic colorizations, and offers large improvements in colorization quality with just a minute of use. In addition, we demonstrate that the framework can incorporate other user "hints" to the desired colorization, showing an application to color histogram transfer. Our code and models are available at https://richzhang.github.io/ideepcolor.

연구 동기 및 목표

광범위한 사용자 입력에 의존하지 않고도 실시간으로 상호작용 가능한 이미지 색조화를 위한 딥러닝 시스템을 개발하는 것.
수작업으로 설계된 사전 지식이나 최적화 프레임워크가 아닌, 대규모 데이터로부터 사용자 편집 전파를 학습하는 것.
이미지의 맥락과 현재의 힌트를 바탕으로 사용자가 효과적인 입력을 하도록 안내하는 것.
전역 색상 히스토GRAM과 같은 추가 힌트를 통합하여 예술적 제어를 위한 영리한 색조화를 가능하게 하는 것.
최소한의 사용자 상호작용(1분 미만)으로도 고성능이며 현실적인 색조화 결과를 도출할 수 있음을 입증하는 것.

제안 방법

딥 컨volution 신경망이 희소한 사용자 제공 색상 힌트와 그레이스케일 입력으로부터 전체 색상 이미지를 직접 예측하도록 훈련된다.
훈련 데이터는 실제 색상 이미지에 대해 랜덤으로 사용자 힌트를 샘플링하여 합성되며, 기준 색상 분포를 유지한다.
네트워크는 대규모 데이터로부터의 고수준 의미 정보와 저수준 이미지 신호를 융합함으로써 사용자 편집의 전파를 학습한다.
인터페이스에 데이터 기반 색상 팔레트를 통합하여 각 사용자 입력 위치에서 타당한 색상을 추천한다.
참고 이미지의 색상 통계를 조건으로 하여 네트워크를 조정함으로써 전역 히스토GRAM 전이를 지원하며, 아티스틱한 색조화를 가능하게 한다.
모델은 단일 피드포워드 프로세스로 추론을 수행하여 표준 하드웨어에서도 실시간 성능을 달성한다.

Figure 1 . Our proposed method colorizes a grayscale image (left), guided by sparse user inputs (second), in real-time, providing the capability for quickly generating multiple plausible colorizations (middle to right). Photograph of Migrant Mother by Dorothea Lange, 1936 (Public Domain).

실험 결과

연구 질문

RQ1수작업으로 설계된 사전 지식 없이도 딥 네트워크가 희소한 사용자 색상 힌트를 효과적으로 전파할 수 있는가?
RQ2대규모 데이터로부터 학습된 깊이의 사전 지식이 기존 최적화 기반 방법에 비해 색조화 품질과 현실성에서 향상되는가?
RQ3최소한의 사용자 입력으로 이 시스템은 얼마나 효과적인가? 그리고 사용자가 최적의 힌트를 선택하도록 안내할 수 있는가?
RQ4이 프레임워크는 아티스틱하거나 스타일러피드 색조화를 위해 전역 색상 통계를 통합할 수 있는가?
RQ5모호한 색상 영역이나 복잡한 세분화 경계는 시스템이 어떻게 처리하는가?

주요 결과

전역 히스토GRAM 전이를 통합한 모델은 PSNR 28.57 dB를 기록하여 기준 방법보다 뚜렷이 뛰어난 성능을 보였다.
단지 1분의 사용자 상호작용으로도 초보자 사용자도 현실적이며 다양한 색조화 결과를 생성할 수 있었다.
모델은 트레이닝 없이도 오래된 그레이스케일 사진에 잘 일반화되어 타당한 색조화 결과를 도출했다.
네트워크는 참조 이미지의 전역 색상 히스토GRAM을 타겟 그레이스케일 이미지로 성공적으로 전이하여 다양한 현실적인 결과를 생성했다.
시스템은 사용자가 제공한 서로 다른 색상 간에 부드럽고 맥락 인식 전이를 만들어내어 모호한 영역을 효과적으로 처리했다.
인터페이스의 실시간 성능 덕분에 사용자는 몇 초 내로 여러 가지 타당한 색조화 결과를 상호작용적으로 탐색할 수 있었다.

Figure 2 . Network architecture We train two variants of the user interaction colorization network. Both variants use the blue layers for predicting a colorization. The Local Hints Network also uses red layers to (a) incorporate user points $\mathbf{U}_{l}$ and (b) predict a color distribution $\mat

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.