QUICK REVIEW

[論文レビュー] Real-Time User-Guided Image Colorization with Learned Deep Priors

Richard Zhang, Jun-Yan Zhu|arXiv (Cornell University)|May 8, 2017

Generative Adversarial Networks and Image Synthesis参考文献 51被引用数 29

ひとこと要約

本稿では、グレースケール画像とスパースなユーザーのヒントを入力として、フルカラー出力を生成する、リアルタイムでディープラーニングベースのユーザー誘導型画像色付け手法を提案する。100万件の合成ユーザー入力で訓練されたモデルは、学習されたディーププライアーオンを活用し、最小限のユーザー入力で現実的で多様な色付けを実現し、1分未塔で高品質な結果を得られる。また、芸術的コントロールを可能にするために、グローバルヒストグラム転送もサポートする。

ABSTRACT

We propose a deep learning approach for user-guided image colorization. The system directly maps a grayscale image, along with sparse, local user "hints" to an output colorization with a Convolutional Neural Network (CNN). Rather than using hand-defined rules, the network propagates user edits by fusing low-level cues along with high-level semantic information, learned from large-scale data. We train on a million images, with simulated user inputs. To guide the user towards efficient input selection, the system recommends likely colors based on the input image and current user inputs. The colorization is performed in a single feed-forward pass, enabling real-time use. Even with randomly simulated user inputs, we show that the proposed system helps novice users quickly create realistic colorizations, and offers large improvements in colorization quality with just a minute of use. In addition, we demonstrate that the framework can incorporate other user "hints" to the desired colorization, showing an application to color histogram transfer. Our code and models are available at https://richzhang.github.io/ideepcolor.

研究の動機と目的

広範なユーザー入力を必要としない、インタラクティブな画像色付けのリアルタイムでディープラーニングベースのシステムの開発。
手作業で設計されたプライアーオンや最適化フレームワークではなく、大規模データからユーザー編集の伝搬を学習すること。
画像の文脈と現在のヒントに基づいて、ユーザーが効果的な入力をしやすいように、適切な色を提案すること。
アーティスティックなコントロールを可能にするために、グローバルカラー分布などの追加ヒントを統合することで、柔軟な色付けを可能にすること。
最小限のユーザーインタラクション（1分未塔）で、高品質で現実的である色付けが可能であることを示すこと。

提案手法

スパースなユーザー提供の色ヒントとグレースケール入力を入力として、フルカラー画像を直接予測するディープCNNを訓練する。
訓練データは、実際のカラー画像にランダムにヒントを抽出することで合成され、真値の色分布が保持される。
ネットワークは、大規模データからのハイレベルな意味的情報と低レベルの画像キューを統合することで、ユーザー編集の伝搬を学習する。
インターフェースにデータ駆動型のカラーパレットを統合し、ユーザーの入力位置で妥当な色を推奨する。
ネットワークを参照画像の色統計に条件づけることで、グローバルヒストグラム転送を可能にし、芸術的色付けを実現する。
モデルは1回のフォワードパスで推論を実行するため、標準的なハードウェアでもリアルタイム性能を達成する。

Figure 1 . Our proposed method colorizes a grayscale image (left), guided by sparse user inputs (second), in real-time, providing the capability for quickly generating multiple plausible colorizations (middle to right). Photograph of Migrant Mother by Dorothea Lange, 1936 (Public Domain).

実験結果

リサーチクエスチョン

RQ1手作業で設計されたプライアーオンがなくても、ディープニューラルネットワークはスパースなユーザー色ヒントを効果的に伝搬させることができるか？
RQ2大規模データからの学習されたディーププライアーオンは、従来の最適化ベースの手法と比較して、色付けの品質と現実性を向上させることができるか？
RQ3最小限のユーザー入力での効果は何か？また、ユーザーが最適なヒントを選ぶのを支援できるか？
RQ4このフレームワークは、芸術的またはスタイリッシュな色付けを可能にするために、グローバルカラーステータスを統合できるか？
RQ5曖昧な色領域や複雑なセグメンテーション境界では、システムはどのように対処するか？

主な発見

グローバルヒストグラム転送を組み合わせた場合、PSNRが28.57 dBに達し、ベースライン手法を著しく上回る。
わずか1分のユーザーインタラクションで、初心者ユーザーが現実的で多様な色付けを生成できる。
微調整なしで、レガシーグレースケール写真に対しても良好に一般化され、妥当な色付けを生成する。
ネットワークは、参照画像のグローバルカラーヒストグラムをターゲットのグレースケール画像に効果的に転送し、多様で現実的な結果を生成する。
曖昧な領域では、異なるユーザー提供色の間で滑らかで文脈に適した遷移を自然に生成する。
インターフェースのリアルタイム性能により、数秒で複数の妥当な色付け候補をインタラクティブに探索可能である。

Figure 2 . Network architecture We train two variants of the user interaction colorization network. Both variants use the blue layers for predicting a colorization. The Local Hints Network also uses red layers to (a) incorporate user points $\mathbf{U}_{l}$ and (b) predict a color distribution $\mat

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。