Skip to main content
QUICK REVIEW

[論文レビュー] Deep Koalarization: Image Colorization using CNNs and Inception-ResNet-v2

Federico Baldassarre, Diego González Morín|arXiv (Cornell University)|Dec 9, 2017
Generative Adversarial Networks and Image Synthesis参考文献 20被引用数 84
ひとこと要約

CNNベースのカラー化モデルは、最初からトレーニングされたエンコーダとInception-ResNet-v2の高レベル特徴を組み合わせ、エンドツーエンドの完全畳み込みフレームワークでグレースケール画像をカラー化し、ユーザー調査による公衆の受容性を評価します。

ABSTRACT

We review some of the most recent approaches to colorize gray-scale images using deep learning methods. Inspired by these, we propose a model which combines a deep Convolutional Neural Network trained from scratch with high-level features extracted from the Inception-ResNet-v2 pre-trained model. Thanks to its fully convolutional architecture, our encoder-decoder model can process images of any size and aspect ratio. Other than presenting the training results, we assess the "public acceptance" of the generated images by means of a user study. Finally, we present a carousel of applications on different types of images, such as historical photographs.

研究の動機と目的

  • 自動的な画像カラー化のエンドツーエンド深層学習アプローチを探索する。
  • 事前学習済みのInception-ResNet-v2からの高レベル意味特徴を活用してカラー推定を支援する。
  • 可変サイズ・アスペクト比の画像を扱える完全畳み込みのエンコーダ-デコーダアーキテクチャを開発する。
  • 人間のユーザ調査を通じて生成されたカラーの妥当性を評価する。
  • 歴史的写真やその他の画像タイプへの応用を実証する。

提案手法

  • CIE L*a*b*空間を用い、輝度画像からa*およびb*チャンネルを予測する。
  • 299×299のスタックされた輝度画像を入力して、事前学習済みのInception-ResNet-v2から中~高レベルの特徴埋め込みを抽出する。
  • Inceptionの埋め込みを空間的位置全体に埋め込みを複製する融合層を介してエンコーダの特徴と統合する。
  • 8つの3×3畳み込みレイヤを用いて512チャンネルのH/8 × W/8サイズの特徴マップを生成するエンコーダを訓練する。
  • アップサンプリングと畳み込みでデコードして2チャンネルのa*b*マップを出力し、L*と組み合わせてカラー画像を形成する。
  • Adam最適化器を用いて予測されたa*b*成分と真値との平均二乗誤差を最適化する。

実験結果

リサーチクエスチョン

  • RQ1事前学習済みネットワークからの高レベル特徴をガイドとして用いた場合、CNNベースのエンコーダ-デコーダカラー化モデルはフォトリアルなカラー画像を生成できるか。
  • RQ2Inception-ResNet-v2の埋め込みを統合することで、完全にスクラッチから学習したエンコーダよりカラー化は改善されるか。
  • RQ3提案されたアーキテクチャは、異なるサイズとアスペクト比の画像に対してどのように機能するか。
  • RQ4人間の評価者によって測定されたカラー化画像の知覚的現実味はどの程度か。
  • RQ5モデルは歴史的写真をカラー化できるか、その制限は何か。

主な発見

  • 一部の画像では、特に空、海、森などの識別可能な高レベル特徴を持つ場合に、ほぼフォトリアリスティックなカラー化を生成できる。
  • いくつかの結果は色の飽和度の制限と、特定の領域で保守的で灰味がかった色合いを示す。
  • ユーザー調査における公衆の受容は、平均して観察者を騙す非自明な割合であり、選択された画像に対して信頼できるカラー化を示している。
  • 他の方法との比較では、提案手法があるケースで優れている一方、内容によっては他より劣る場合がある。
  • 完全畳み込み設計のおかげでさまざまなサイズの画像処理を可能にし、訓練には小さなImageNetのサブセットを使用する。
  • 歴史的写真の再着色が可能で、地上真実がない場合の主観的評価を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。