QUICK REVIEW

[論文レビュー] Is a Green Screen Really Necessary for Real-Time Portrait Matting?

Zhanghan Ke, Kaican Li|arXiv (Cornell University)|Nov 24, 2020

Image Enhancement Techniques参考文献 46被引用数 45

ひとこと要約

本稿では、グリーンスクリーンやトリマップを必要とせず、1枚の画像から高品質なアルファマット予測を実現する軽量でリアルタイムなポートレートマットイングネットワーク、MODNetを提案する。明示的な制約を用いた複数のサブ目的関数の共同最適化に加え、自己教師付き適応と1フレーム遅延テクニックを用いることで、MODNetは63 FPSで動作し、実世界の画像および動画において先行するトリマップフリー手法を上回る性能を達成する。

ABSTRACT

For portrait matting without the green screen, existing works either require auxiliary inputs that are costly to obtain or use multiple models that are computationally expensive. Consequently, they are unavailable in real-time applications. In contrast, we present a light-weight matting objective decomposition network (MODNet), which can process portrait matting from a single input image in real time. The design of MODNet benefits from optimizing a series of correlated sub-objectives simultaneously via explicit constraints. Moreover, since trimap-free methods usually suffer from the domain shift problem in practice, we introduce (1) a self-supervised strategy based on sub-objectives consistency to adapt MODNet to real-world data and (2) a one-frame delay trick to smooth the results when applying MODNet to portrait video sequence. MODNet is easy to be trained in an end-to-end style. It is much faster than contemporaneous matting methods and runs at 63 frames per second. On a carefully designed portrait matting benchmark newly proposed in this work, MODNet greatly outperforms prior trimap-free methods. More importantly, our method achieves remarkable results in daily photos and videos. Now, do you really need a green screen for real-time portrait matting?

研究の動機と目的

リアルタイムポートレートマットイングにおいて、グリーンスクリーンや高価な補助入力を排除すること。
実世界の画像に応用されたトリマップフリーなマットイング手法に一般的に見られるドメインシフト問題に対処すること。
動画用途におけるリアルタイム推論を可能にする軽量で単一モデルのソリューションを開発すること。
制約のない日常的な写真および動画において、マットイング結果のロバスト性と一貫性を向上させること。

提案手法

関連するサブ目的関数（例：粗い、細かい、深層特徴）を明示的な制約を用いて同時に最適化するマルチタスク学習フレームワークの設計。
サブ目的関数の予測に基づく自己教師付き一貫性損失を導入し、真値のトリマップが不要な状態で実世界データにモデルを適応可能にする。
動画シーケンスの推論時に1フレーム遅延テクニックを適用し、時間的不一致を軽減し、視覚的品質を向上させる。
単一の入力画像とその対応するアルファマットのみを用いて、ネットワーク全体をエンドツーエンドで学習する。
高速推論を実現するため、軽量なアーキテクチャを活用し、標準ハードウェアで63フレーム毎秒の性能を達成する。
実世界の制約のないデータに対する性能評価を目的とした新規ベンチマークを活用する。

実験結果

リサーチクエスチョン

RQ11つの軽量ディープラーニングモデルが、グリーンスクリーンやトリマップに依存せずにリアルタイムポートレートマットイングを達成できるか？
RQ2トリマップフリーなポートレートマットイングにおいて、トレーニングデータと実世界データの間のドメインシフトをどのように軽減できるか？
RQ3計算コストの増加を伴わずに、動画シーケンスにおける時間的一貫性を向上させるための技術は何か？
RQ4マルチオブジェクティブネットワークのエンドツーエンド学習は、段階的または補助入力依存のアプローチに比べて優れた性能を発揮できるか？

主な発見

MODNetは63フレーム毎秒の推論速度を達成し、リアルタイム性能において同時代の手法を顕著に上回る。
新たに提案されたポートレートマットイングベンチマークにおいて、MODNetは定量的指標および視覚的品質の両面で、すべての先行するトリマップフリー手法を上回った。
自己教師付き一貫性戦略はドメインシフトを効果的に低減し、追加のアノテーションなしに実世界の写真への強力な一般化を可能にした。
1フレーム遅延テクニックは、リアルタイム推論速度を維持したまま、動画マットイングにおける時間的スムージングを成功裏に向上させた。
MODNetは日常の写真および動画において高品質なアルファマットを生成し、グリーンスクリーンの要件なしに実用的であることを示した。
マルチオブジェクティブ分解ネットワークのエンドツーエンド学習は、段階的または補助入力依存のアプローチに比べて優れた性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。