QUICK REVIEW

[論文レビュー] Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks

Alex J. Champandard|arXiv (Cornell University)|Mar 5, 2016

Generative Adversarial Networks and Image Synthesis参考文献 7被引用数 205

ひとこと要約

本論文はCNNベースのスタイル転送をセマンティック注釈で強化し、コンテンツ認識の制御を提供、品質を向上させ、落書きからアート作品への変換を可能にする。

ABSTRACT

Convolutional neural networks (CNNs) have proven highly effective at image synthesis and style transfer. For most users, however, using them as tools can be a challenging task due to their unpredictable behavior that goes against common intuitions. This paper introduces a novel concept to augment such generative architectures with semantic annotations, either by manually authoring pixel labels or using existing solutions for semantic segmentation. The result is a content-aware generative algorithm that offers meaningful control over the outcome. Thus, we increase the quality of images generated by avoiding common glitches, make the results look significantly more plausible, and extend the functional range of these algorithms---whether for portraits or landscapes, etc. Applications include semantic style transfer and turning doodles with few colors into masterful paintings!

研究の動機と目的

セマンティック情報を注入することによりニューラルスタイル転送の予測不能性やアーティファクトを解消する。
肖像、風景などを含むコンテンツ認識型のスタイル転写とセグメンテーション対応の操作を可能にする。
ピクセルラベリング/セマンティックセグメンテーションをパッチベースのスタイル転送と統合し説得力を向上させる。
手動作成または自動生成のセマンティックマップによるユーザー操作可能なメカニズムを提供する。
アナロジー（ doodle-to-paintings）によるセマンティックスタイル転写と画像合成をデモンストレーションする。

提案手法

γ で重み付けされたパラメータ γ によって、セマンティックマップチャネル m^l を活性化 x^l と連結して CNN を拡張する。
正規化された相互相関を用いたセマンティック認識近傍マッチングを備えたパッチベースのスタイル転送を採用する。
入力セマンティックマップを M チャンネルで表現し、特徴解像度に合わせてダウンサンプリングし、それらを連結して s^l を形成する。
E_s(s,s_s) = sum_i ||Psi_i(s) - Psi_NN(i)(s_s)||^2 のように、セマンティック拡張特徴に跨る最近傍パッチを用いてスタイル損失 E_s を計算する。
既存のパッチベース実装と互換性のある拡張アーキテクチャを使用する；最適化中はセマンティックマップを静的に保つことを許す。
L-BFGSを用いて目的関数 E = alpha E_c + beta E_s を最適化する；gamma はセマンティックの影響を制御し、beta はスタイル強度を制御する。

実験結果

リサーチクエスチョン

RQ1セマンティックマップを組み込むことで、セマンティックに無関心な手法と比較してアーティファクトを低減し、制御性を高めることができるか？
RQ2既存のアルゴリズムを全面的に見直すことなく、ピクセルラベリング/セマンティックセグメンテーションをパッチベースのスタイル転写に統合するには？
RQ3スタイル重み beta とセマンティック重み gamma が、内容の正確さとスタイル忠実度にどのように影響するか？
RQ4髪、肌、背景などのセマンティックに富む領域を、スタイル転写でより忠実に扱えるか？
RQ5生成過程にセマンティックチャネルを追加することによる計算面とメモリの影響は？

主な発見

セマンティック注釈はグリッチやアーティファクトを減らし、肖像やセマンティックに分割された領域で特により説得力のある結果を生む。
セマンティック重みパラメータ gamma は注釈の影響を制御可能にし、デフォルトの gamma を約 50 とすることでセマンティックチャネルと活性化をバランスさせる。
セマンティックマップを使用すると、肖像の肌色や背景色の転写が改善される。
本手法は既存のパッチベースのスタイル転送アルゴリズムとの互換性を維持し、gamma と beta を調整することでセマンティック動作と非セマンティック動作を補間できる。
セマンティックチャネルによりメモリと計算量が増加する（RGB で約 1% の追加メモリ、約 5% 追加計算量；ピクセル毎ラベルでは増加が大きくなる）。
実験のレンダリング時間は GTX 970/4 GB RAM 環境で数分の範囲（解像度に依存して 3–8 分）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。